Sosyal medya, dünya üzerinde sürekli ve hızla gelişen, insanlarda adeta bağımlılık haline gelen sanal bir sistemdir. İnsanlar herhangi bir konudaki duygularını, düşüncelerini, kişisel ilgi alanlarını, olaylara bakış açılarını, beğenilerini bu sistem içerisinde yer alan sosyal medya platformlarında paylaşırlar. Bu sebeple, sosyal medya paylaşımları duygu analizi alanı için büyük bir veri kaynağı haline gelmiştir. Ülkemizde su kaynakları ve yağış miktarı giderek azalmaktadır. Bu da kuraklık sorununu ortaya çıkarmaktadır. Kuraklık, Türkiye gündemindeki en güncel sorun ve geleceğimizi tehdit eden bir doğa olayıdır. Bu çalışmada küresel bir sorun olan kuraklık hakkında, sosyal medya platformlarından Twitter verileri kullanılarak duygu analizi yapılmıştır. Bu tez çalışmasında kullanılan veriler 01.01.2019'dan 01.01.2022'ye kadar ki tarih aralığında yer alan tweetlerden oluşmaktadır. Bu tweetlerden içerisinde "kuraklık" etiketi içeren toplam 96.401 adetlik bir veri seti oluşturulmuştur. Python programlama dili kullanılarak bütün tweet toplama, ön işleme ve duygu analizi işlemleri gerçekleştirilmiştir. Oluşturulan veri setinin ön işleminden ve Zemberek kütüphanesi ile yapılan normalleştirme sonrası 82.221 adet tweet üzerinde duygu analizi yapılmıştır. Sınıflandırma aşamasında SWNetTR++ sözlüğünü kullanarak etiketlenen veri seti kullanılmıştır. Özellik çıkarımı için BoW ve TF-IDF yöntemi kullanılmıştır. Ayrıca N-gram yöntemi kullanılarak veriler 1-gram, 2-gram, 3-gram olarak ayrılmıştır. Sınıflandırma işlemlerinde her N-gram değeri için ayrı ayrı hesaplama yapılmıştır. Naive Bayes, Lojistik Regresyon, Karar Ağacı, Rastgele Orman, Destek Vektör Makinesi, K-En Yakın Komşu makine öğrenmesi algoritmaları ile sınıflandırma yapılmıştır. Yapılan duygu analizi işlemleri sonucunda %56 Negatif, %30 Pozitif ve %14 Nötr duygu sonuçlarına ulaşılmıştır. Elde edilen sonuçlar doğrultusunda insanların kuraklık hakkında bilinçsiz ve negatif düşüncelerinin daha fazla olduğu baskın olan duygu çıktısından görülmektedir. Sınıflandırma performans sonucunda ise sözlük tabanlı etikete sahip olunan yapıda en iyi BoW – Destek Vektör Makinesi ikilisi ile 0,85'lik bir sınıflandırma başarısı elde edilmiştir. Diğer modellerin performans sonuçlarına bakıldığında en iyi sonuçtan azalana doğru sıralama yapılır ise ikinci en iyi değerin 0,84 ile BoW - Lojistik Regresyon'a ait olduğu görülmektedir. Diğer oranların ise 0,70 ile BoW-Naive Bayes, 0,69 ile TF-IDF- Rastgele Orman, 0,61 ile BoW- Karar Ağacı ve son olarak ise 0,61 ile TF-IDF - K-En Yakın Komşu algoritmalarına ait olduğu hesaplanmıştır. Anahtar Kelimeler : Kuraklık, duygu analizi, sosyal medya, makine öğrenmesi, twitter.
Social media is a virtual system that is constantly and rapidly developing in the world and has become an addiction. People share their feelings, thoughts, personal interests, perspectives and likes on any subject on social media platforms. For this reason, social media shares have become a great source of data for the field of sentiment analysis. In our country, water resources and the amount of precipitation are gradually decreasing. This also raises the problem of drought. Drought is the most current problem on the agenda of Turkey and a natural phenomenon that threatens our future. In this study, sentiment analysis was conducted about drought, which is a global problem, using Twitter data from social media platforms. The data used in this thesis consists of tweets in the date range from 01.01.2019 to 01.01.2022. A total of 96,401 datasets were created from these tweets, including the "drought" tag. All tweet collection, preprocessing and sentiment analysis operations were performed using the Python programming language. Sentiment analysis was performed on 82,221 tweets after the pre-processing of the created data set and normalization with Zemberek library. In the classification phase, the data set tagged using the SWNetTR++ dictionary was used. BoW and TF-IDF method were used for feature extraction. In addition, using the N-gram method, the data were divided into unigram, bigram, trigram. In classification processes, calculations were made separately for each N-gram value. The classification was carried out with Naive Bayes, Logistic Regression, Decision Tree, Random Forest, Support Vector Machine, K-Nearest Neighbor machine learning algorithms. As a result of emotion analysis, 56% Negative, 30% Positive and 14% Neutral emotion results were obtained. According to the results obtained, it is seen from the dominant emotion output that people have more unconscious and negative thoughts about drought. As a result of the classification performance, a classification success of 0.85 was achieved with the best BoW – SVM duo in the structure with a dictionary-based label. When the performance results of the other models are examined, it is seen that the second best value belongs to BoW - Logistic Regression with 0.84. The other ratios were calculated to belong to BoW-Naive Bayes with 0.70, TF-IDF- Random Forest with 0.69, BoW-Decision Tree with 0.61 and finally TF-IDF - K-Nearest Neighbor algorithms with 0.61. Keywords : Drought, sentiment analysis, social media, machine learning, twitter.
Tez (Yüksek Lisans) - Süleyman Demirel Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Anabilim Dalı, 2023.
Kaynakça var.
Sosyal medya, dünya üzerinde sürekli ve hızla gelişen, insanlarda adeta bağımlılık haline gelen sanal bir sistemdir. İnsanlar herhangi bir konudaki duygularını, düşüncelerini, kişisel ilgi alanlarını, olaylara bakış açılarını, beğenilerini bu sistem içerisinde yer alan sosyal medya platformlarında paylaşırlar. Bu sebeple, sosyal medya paylaşımları duygu analizi alanı için büyük bir veri kaynağı haline gelmiştir. Ülkemizde su kaynakları ve yağış miktarı giderek azalmaktadır. Bu da kuraklık sorununu ortaya çıkarmaktadır. Kuraklık, Türkiye gündemindeki en güncel sorun ve geleceğimizi tehdit eden bir doğa olayıdır. Bu çalışmada küresel bir sorun olan kuraklık hakkında, sosyal medya platformlarından Twitter verileri kullanılarak duygu analizi yapılmıştır. Bu tez çalışmasında kullanılan veriler 01.01.2019'dan 01.01.2022'ye kadar ki tarih aralığında yer alan tweetlerden oluşmaktadır. Bu tweetlerden içerisinde "kuraklık" etiketi içeren toplam 96.401 adetlik bir veri seti oluşturulmuştur. Python programlama dili kullanılarak bütün tweet toplama, ön işleme ve duygu analizi işlemleri gerçekleştirilmiştir. Oluşturulan veri setinin ön işleminden ve Zemberek kütüphanesi ile yapılan normalleştirme sonrası 82.221 adet tweet üzerinde duygu analizi yapılmıştır. Sınıflandırma aşamasında SWNetTR++ sözlüğünü kullanarak etiketlenen veri seti kullanılmıştır. Özellik çıkarımı için BoW ve TF-IDF yöntemi kullanılmıştır. Ayrıca N-gram yöntemi kullanılarak veriler 1-gram, 2-gram, 3-gram olarak ayrılmıştır. Sınıflandırma işlemlerinde her N-gram değeri için ayrı ayrı hesaplama yapılmıştır. Naive Bayes, Lojistik Regresyon, Karar Ağacı, Rastgele Orman, Destek Vektör Makinesi, K-En Yakın Komşu makine öğrenmesi algoritmaları ile sınıflandırma yapılmıştır. Yapılan duygu analizi işlemleri sonucunda %56 Negatif, %30 Pozitif ve %14 Nötr duygu sonuçlarına ulaşılmıştır. Elde edilen sonuçlar doğrultusunda insanların kuraklık hakkında bilinçsiz ve negatif düşüncelerinin daha fazla olduğu baskın olan duygu çıktısından görülmektedir. Sınıflandırma performans sonucunda ise sözlük tabanlı etikete sahip olunan yapıda en iyi BoW – Destek Vektör Makinesi ikilisi ile 0,85'lik bir sınıflandırma başarısı elde edilmiştir. Diğer modellerin performans sonuçlarına bakıldığında en iyi sonuçtan azalana doğru sıralama yapılır ise ikinci en iyi değerin 0,84 ile BoW - Lojistik Regresyon'a ait olduğu görülmektedir. Diğer oranların ise 0,70 ile BoW-Naive Bayes, 0,69 ile TF-IDF- Rastgele Orman, 0,61 ile BoW- Karar Ağacı ve son olarak ise 0,61 ile TF-IDF - K-En Yakın Komşu algoritmalarına ait olduğu hesaplanmıştır. Anahtar Kelimeler : Kuraklık, duygu analizi, sosyal medya, makine öğrenmesi, twitter.
Social media is a virtual system that is constantly and rapidly developing in the world and has become an addiction. People share their feelings, thoughts, personal interests, perspectives and likes on any subject on social media platforms. For this reason, social media shares have become a great source of data for the field of sentiment analysis. In our country, water resources and the amount of precipitation are gradually decreasing. This also raises the problem of drought. Drought is the most current problem on the agenda of Turkey and a natural phenomenon that threatens our future. In this study, sentiment analysis was conducted about drought, which is a global problem, using Twitter data from social media platforms. The data used in this thesis consists of tweets in the date range from 01.01.2019 to 01.01.2022. A total of 96,401 datasets were created from these tweets, including the "drought" tag. All tweet collection, preprocessing and sentiment analysis operations were performed using the Python programming language. Sentiment analysis was performed on 82,221 tweets after the pre-processing of the created data set and normalization with Zemberek library. In the classification phase, the data set tagged using the SWNetTR++ dictionary was used. BoW and TF-IDF method were used for feature extraction. In addition, using the N-gram method, the data were divided into unigram, bigram, trigram. In classification processes, calculations were made separately for each N-gram value. The classification was carried out with Naive Bayes, Logistic Regression, Decision Tree, Random Forest, Support Vector Machine, K-Nearest Neighbor machine learning algorithms. As a result of emotion analysis, 56% Negative, 30% Positive and 14% Neutral emotion results were obtained. According to the results obtained, it is seen from the dominant emotion output that people have more unconscious and negative thoughts about drought. As a result of the classification performance, a classification success of 0.85 was achieved with the best BoW – SVM duo in the structure with a dictionary-based label. When the performance results of the other models are examined, it is seen that the second best value belongs to BoW - Logistic Regression with 0.84. The other ratios were calculated to belong to BoW-Naive Bayes with 0.70, TF-IDF- Random Forest with 0.69, BoW-Decision Tree with 0.61 and finally TF-IDF - K-Nearest Neighbor algorithms with 0.61. Keywords : Drought, sentiment analysis, social media, machine learning, twitter.