Günümüzde yaygınlaşan internet kullanımı, hızla artan bilgi ile birlikte büyük bir bilgi kirliliğini de beraberinde getirmiştir. İnternet kullanıcıları için bu büyük ve gürültülü veri içerisinden anlamlı olanı elde etmek ise büyük bir sorun haline gelmiştir. Otomatik metin özetleme kısaca; bilgisayara giriş olarak verilen bir metinden çıkış olarak özetinin elde edilmesi işlemi olarak adlandırılmaktadır. Genel olarak dijital ortamdan elde edilen metinler üzerinde kullanılan metin özetleme özellikle son yıllarda farklı alanlardaki bilimsel makalelerin özetlenmesi için de kullanılmaya başlanmıştır. Yapı olarak daha uzun ve karmaşık bir yapıya sahip olan bilimsel makalelerin alanlarına göre önemli bölümlerinin tespit edilerek bu alanlardan can alıcı verileri içeren cümlelerin seçilebilmesi büyük önem taşımaktadır. Bu tez çalışmasında, bilişim alanında yazılmış Türkçe makaleler üzerinde kullanılacak bir bilimsel metin özetleme çalışması gerçekleştirilmiştir. Türkçe olarak yayınlanan makaleler, Emerging Sources Citation Index (ESCI), Science Citation Index Expanded (SCI-EXPANDED) ve TR Dizin indeksine sahip dergilerden elde edilmiştir. Dergipark üzerinden toplanan bu makaleler ile geniş bir Türkçe Bilişim Literatür veri seti oluşturulmuştur. Bu veri seti üzerinde literatürde var olan metin ön-işlem çalışmalarına ek olarak bilimsel makale formatına uygun yeni bir özgün ön-işlem fonksiyonu geliştirilmiştir. Özetleme yapılırken, literatürde doğal dil işleme alanında giderek artan bir kullanım alanına sahip olan ve etiketsiz veriler üzerinde öznitelik çıkarmada büyük başarı gösteren Derin İnanç Ağları (DİA) kullanılmıştır. Tez için geliştirilen sistemin performans ölçümünü gerçekleştirebilmek için ise literatürde büyük başarı elde etmiş bir ön eğitimli doğal dil işleme modeli olan BERT modelinin özelleşmiş bir kolu olan BERT Çıkarımsal Özetleyici (BÇÖ) kullanılmıştır. Oluşturulan veri seti BERT Çıkarımsal Özetleyici ve Derin İnanç Ağları ile özetlendikten sonra, çıkarılan özetler yine BERT Modelin özelleşmiş bir karşılaştırma metriği olan BERTScore ile kıyaslanmıştır. Elde edilen sonuçlar tez için geliştirilen Türkçe Bilişim Literatür Özetleme Yönteminin %88 F-Skor değeri ile bir bilimsel makalenin özetini oluşturduğunu göstermiştir. Anahtar Kelimeler: Türkçe Doğal Dil İşleme, Otomatik Metin Özetleme, Derin İnanç Ağları, BERT Score.
The widespread use of the internet today, along with the rapidly increasing information, has brought along a great information pollution. For Internet users, it has become a big problem to get the meaningful one out of this big and noisy data. Automatic text summarization briefly; It is called the process of obtaining the summary as output from a text given as input to the computer. Text summarization, which is generally used on texts obtained from digital media, has also been used for summarizing scientific articles in different fields, especially in recent years. It is of great importance to determine the important parts of scientific articles, which have a longer and more complex structure in terms of their fields, and to select sentences containing crucial data from these fields. In this thesis, a scientific text summary study was carried out to be used on Turkish articles written in the field of informatics. Articles published in Turkish were obtained from journals with Emerging Sources Citation Index (ESCI), Science Citation Index Expanded (SCI-EXPANDED) and TR Index. A large Turkish Informatics Literature data set was created with these articles collected from Dergipark. In addition to the text pre-processing studies available in the literature on this data set, a new original pre-processing function has been developed in accordance with the scientific article format. While summarizing, Deep Belief Networks (DBN), which has an increasing use in the field of natural language processing in the literature and has shown great success in extracting features on unlabeled data, have been used. In order to measure the performance of the system developed for the thesis, the BERT Extractive Summarizer (BES), a specialized branch of the BERT model, which is a pre-trained natural language processing model that has achieved great success in the literature, was used. After the generated data set was summarized with BERT Inferential Summarizing and Deep Belief Networks, the extracted summaries were again compared with BERTScore, a specialized comparison metric of the BERT Model. The results showed that the Turkish Informatics Literature Summarization Method developed for the thesis constitutes a summary of a scientific article with an F-Score value of 88%. Keywords: Turkish Natural Language Processing, Automatic Text Summarization, Deep Belief Network, BERT Score
Tez (Doktora-PhD) - Süleyman Demirel Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Anabilim Dalı, 2022.
Kaynakça var.
Günümüzde yaygınlaşan internet kullanımı, hızla artan bilgi ile birlikte büyük bir bilgi kirliliğini de beraberinde getirmiştir. İnternet kullanıcıları için bu büyük ve gürültülü veri içerisinden anlamlı olanı elde etmek ise büyük bir sorun haline gelmiştir. Otomatik metin özetleme kısaca; bilgisayara giriş olarak verilen bir metinden çıkış olarak özetinin elde edilmesi işlemi olarak adlandırılmaktadır. Genel olarak dijital ortamdan elde edilen metinler üzerinde kullanılan metin özetleme özellikle son yıllarda farklı alanlardaki bilimsel makalelerin özetlenmesi için de kullanılmaya başlanmıştır. Yapı olarak daha uzun ve karmaşık bir yapıya sahip olan bilimsel makalelerin alanlarına göre önemli bölümlerinin tespit edilerek bu alanlardan can alıcı verileri içeren cümlelerin seçilebilmesi büyük önem taşımaktadır. Bu tez çalışmasında, bilişim alanında yazılmış Türkçe makaleler üzerinde kullanılacak bir bilimsel metin özetleme çalışması gerçekleştirilmiştir. Türkçe olarak yayınlanan makaleler, Emerging Sources Citation Index (ESCI), Science Citation Index Expanded (SCI-EXPANDED) ve TR Dizin indeksine sahip dergilerden elde edilmiştir. Dergipark üzerinden toplanan bu makaleler ile geniş bir Türkçe Bilişim Literatür veri seti oluşturulmuştur. Bu veri seti üzerinde literatürde var olan metin ön-işlem çalışmalarına ek olarak bilimsel makale formatına uygun yeni bir özgün ön-işlem fonksiyonu geliştirilmiştir. Özetleme yapılırken, literatürde doğal dil işleme alanında giderek artan bir kullanım alanına sahip olan ve etiketsiz veriler üzerinde öznitelik çıkarmada büyük başarı gösteren Derin İnanç Ağları (DİA) kullanılmıştır. Tez için geliştirilen sistemin performans ölçümünü gerçekleştirebilmek için ise literatürde büyük başarı elde etmiş bir ön eğitimli doğal dil işleme modeli olan BERT modelinin özelleşmiş bir kolu olan BERT Çıkarımsal Özetleyici (BÇÖ) kullanılmıştır. Oluşturulan veri seti BERT Çıkarımsal Özetleyici ve Derin İnanç Ağları ile özetlendikten sonra, çıkarılan özetler yine BERT Modelin özelleşmiş bir karşılaştırma metriği olan BERTScore ile kıyaslanmıştır. Elde edilen sonuçlar tez için geliştirilen Türkçe Bilişim Literatür Özetleme Yönteminin %88 F-Skor değeri ile bir bilimsel makalenin özetini oluşturduğunu göstermiştir. Anahtar Kelimeler: Türkçe Doğal Dil İşleme, Otomatik Metin Özetleme, Derin İnanç Ağları, BERT Score.
The widespread use of the internet today, along with the rapidly increasing information, has brought along a great information pollution. For Internet users, it has become a big problem to get the meaningful one out of this big and noisy data. Automatic text summarization briefly; It is called the process of obtaining the summary as output from a text given as input to the computer. Text summarization, which is generally used on texts obtained from digital media, has also been used for summarizing scientific articles in different fields, especially in recent years. It is of great importance to determine the important parts of scientific articles, which have a longer and more complex structure in terms of their fields, and to select sentences containing crucial data from these fields. In this thesis, a scientific text summary study was carried out to be used on Turkish articles written in the field of informatics. Articles published in Turkish were obtained from journals with Emerging Sources Citation Index (ESCI), Science Citation Index Expanded (SCI-EXPANDED) and TR Index. A large Turkish Informatics Literature data set was created with these articles collected from Dergipark. In addition to the text pre-processing studies available in the literature on this data set, a new original pre-processing function has been developed in accordance with the scientific article format. While summarizing, Deep Belief Networks (DBN), which has an increasing use in the field of natural language processing in the literature and has shown great success in extracting features on unlabeled data, have been used. In order to measure the performance of the system developed for the thesis, the BERT Extractive Summarizer (BES), a specialized branch of the BERT model, which is a pre-trained natural language processing model that has achieved great success in the literature, was used. After the generated data set was summarized with BERT Inferential Summarizing and Deep Belief Networks, the extracted summaries were again compared with BERTScore, a specialized comparison metric of the BERT Model. The results showed that the Turkish Informatics Literature Summarization Method developed for the thesis constitutes a summary of a scientific article with an F-Score value of 88%. Keywords: Turkish Natural Language Processing, Automatic Text Summarization, Deep Belief Network, BERT Score