Kümeleme yöntemleri, benzer özellikler taşıyan değişkenlerin bir gruba toplanabilmesini sağlayan önemli analizlerden biridir. Sağlık, ekonomi, işletme veya elektronik gibi oldukça geniş bir kullanım alanına sahip olan bu yöntem sağlık alanında özellikle tanı gruplarının oluşturulmasında daha yaygın olarak uygulama alanı bulmuştur. Bu tez çalışmasının amacı, kümeleme analizi hakkında teorik arka planı anlatmak, farklı kümeleme algoritmalarını hakkında bilgi vermek ve bu algoritmaların örnek büyük veri kümesinde uygulamalarını açıklamaktır. Çalışmamızda, Diş Hekimliği Fakültesi Ağız, Diş ve Çene Cerrahisine başvuran hastalardan elde edilmiş hemogram, biyokimya ve immünolojik ölçümler ile elde edilen veri kümesi kullanılmıştır. Kümeleme algoritmaları içerisinden Fuzzy C-Means, Two-step Clustering ve K-means algoritmaları seçilerek, analiz sonuçları karşılaştırılmıştır. En iyi sonucu veren k-means algoritması seçilerek Pyton'da analiz edilmiştir. Toplam 5148 hastaya ait kayıtlara göre yaş ortalaması 21,19±19,23 yıl olup, yaş aralığı oldukça geniş ve 4-89 yıl olarak hesaplanmıştır. Algoritmalarda sabit 2 küme (hasta-sağlam) oluşturmaları sağlandı. K-means yöntemiyle oluşan immünolojik kümelerde Silhouette değeri 0,830 olarak elde edilmiştir. Açıklayıcılık katsayısı R2=0,801 bulunmuştur. Aynı değişkenler, Fuzzy C-means kümeleme algoritması ile analiz edildiğinde Silhouette skorunun 0,700 olduğu görülmüştür. Açıklayıcılık katsayısı ise R2=0,281 olarak hesaplanmıştır. TwoStep Cluster ise "Fair" boyutunda iyiye yakın Silhouette skorları vermiştir. K-means algoritması ile immunoloji, hemogram ve biyokimya değişkenleri ile sağlıklı ve hasta grupları daha yüksek başarı ile elde edilmiştir. Pyton'da ise Silhouette skoru ise 0,827 olarak elde edildi. Kullanılan ölçümlerin referans aralıklarına göre kümelerdeki bireylerin sağlık durumları ile ilgili tedavi önermeleri yapılmıştır. Herhangi bir sınıfa ait olduğu bilinmeyen bireylerin yapılan ölçümlere göre gruplandırılabilmesi için kümeleme algoritmaları oldukça yararlı bilgiler vermektedir ve kullanılan veri kümesine göre K-means yönteminin daha uygun sonuçlar verdiği söylenebilir. Anahtar Kelimeler : Data Analitiği, Büyük Veri, Kümeleme Analizi, Python, İmmünoloji.
Clustering methods are one of the important analyzes that enable variables with similar characteristics to be collected into a group. This method, which has a wide area of use such as health, economy, business or electronics, has found more widespread application in the field of health, especially in the creation of diagnostic groups. The aim of this thesis is to explain the theoretical background about clustering analysis, to give information about different clustering algorithms and to explain the applications of these algorithms in a sample big data set. In our study, the dataset obtained by hemogram (blood test), biochemistry and immunological measurements obtained from patients who applied to the Faculty of Dentistry Oral, Dental and Maxillofacial Surgery was used. Among the clustering algorithms, Fuzzy C-Means, Two-step Clustering and K-means algorithms were selected, and the analysis results were compared. The k-means which was analyzed in Python was selected as the best result giver algorithm. According to the records of a total of 5148 patients, the mean age was 21.19±19.23 years, and the age range was calculated as 4-89 years. In the algorithms, they were provided to form 2 fixed clusters (patient-healthy). Silhouette score was obtained as 0.830 in the immunology clusters formed by the K-means method. The explanatory coefficient was R2=0.801. When the same variables were analyzed with the Fuzzy C-means clustering algorithm, the Silhouette score was found to be 0.700. The explanatory coefficient was calculated as R2=0,281. TwoStep Cluster gave Silhouette scores close to good in the "Fair" dimension. With the K-means algorithm, immunology, hemogram and biochemistry variables and healthy and patient groups were obtained with higher success. In Python, Silhouette scores was found to be 0,827. The According to the reference intervals of the measurements used, treatment recommendations were made regarding the health status of the individuals in the clusters. Clustering algorithms provide very useful information in order to group individuals who are not known to belong to any class according to the measurements made, and it can be said that the K-means method gives more accurate results according to the data set used. Keywords : Data Analytics, Big Data, Cluster Analysis, Python, Immunology.
Tez (Yüksek Lisans) - Süleyman Demirel Üniversitesi, Sağlık Bilimleri Enstitüsü, Biyoistatistik ve Tıbbi Bilişim Anabilim Dalı, 2022.
Kaynakça var.
Kümeleme yöntemleri, benzer özellikler taşıyan değişkenlerin bir gruba toplanabilmesini sağlayan önemli analizlerden biridir. Sağlık, ekonomi, işletme veya elektronik gibi oldukça geniş bir kullanım alanına sahip olan bu yöntem sağlık alanında özellikle tanı gruplarının oluşturulmasında daha yaygın olarak uygulama alanı bulmuştur. Bu tez çalışmasının amacı, kümeleme analizi hakkında teorik arka planı anlatmak, farklı kümeleme algoritmalarını hakkında bilgi vermek ve bu algoritmaların örnek büyük veri kümesinde uygulamalarını açıklamaktır. Çalışmamızda, Diş Hekimliği Fakültesi Ağız, Diş ve Çene Cerrahisine başvuran hastalardan elde edilmiş hemogram, biyokimya ve immünolojik ölçümler ile elde edilen veri kümesi kullanılmıştır. Kümeleme algoritmaları içerisinden Fuzzy C-Means, Two-step Clustering ve K-means algoritmaları seçilerek, analiz sonuçları karşılaştırılmıştır. En iyi sonucu veren k-means algoritması seçilerek Pyton'da analiz edilmiştir. Toplam 5148 hastaya ait kayıtlara göre yaş ortalaması 21,19±19,23 yıl olup, yaş aralığı oldukça geniş ve 4-89 yıl olarak hesaplanmıştır. Algoritmalarda sabit 2 küme (hasta-sağlam) oluşturmaları sağlandı. K-means yöntemiyle oluşan immünolojik kümelerde Silhouette değeri 0,830 olarak elde edilmiştir. Açıklayıcılık katsayısı R2=0,801 bulunmuştur. Aynı değişkenler, Fuzzy C-means kümeleme algoritması ile analiz edildiğinde Silhouette skorunun 0,700 olduğu görülmüştür. Açıklayıcılık katsayısı ise R2=0,281 olarak hesaplanmıştır. TwoStep Cluster ise "Fair" boyutunda iyiye yakın Silhouette skorları vermiştir. K-means algoritması ile immunoloji, hemogram ve biyokimya değişkenleri ile sağlıklı ve hasta grupları daha yüksek başarı ile elde edilmiştir. Pyton'da ise Silhouette skoru ise 0,827 olarak elde edildi. Kullanılan ölçümlerin referans aralıklarına göre kümelerdeki bireylerin sağlık durumları ile ilgili tedavi önermeleri yapılmıştır. Herhangi bir sınıfa ait olduğu bilinmeyen bireylerin yapılan ölçümlere göre gruplandırılabilmesi için kümeleme algoritmaları oldukça yararlı bilgiler vermektedir ve kullanılan veri kümesine göre K-means yönteminin daha uygun sonuçlar verdiği söylenebilir. Anahtar Kelimeler : Data Analitiği, Büyük Veri, Kümeleme Analizi, Python, İmmünoloji.
Clustering methods are one of the important analyzes that enable variables with similar characteristics to be collected into a group. This method, which has a wide area of use such as health, economy, business or electronics, has found more widespread application in the field of health, especially in the creation of diagnostic groups. The aim of this thesis is to explain the theoretical background about clustering analysis, to give information about different clustering algorithms and to explain the applications of these algorithms in a sample big data set. In our study, the dataset obtained by hemogram (blood test), biochemistry and immunological measurements obtained from patients who applied to the Faculty of Dentistry Oral, Dental and Maxillofacial Surgery was used. Among the clustering algorithms, Fuzzy C-Means, Two-step Clustering and K-means algorithms were selected, and the analysis results were compared. The k-means which was analyzed in Python was selected as the best result giver algorithm. According to the records of a total of 5148 patients, the mean age was 21.19±19.23 years, and the age range was calculated as 4-89 years. In the algorithms, they were provided to form 2 fixed clusters (patient-healthy). Silhouette score was obtained as 0.830 in the immunology clusters formed by the K-means method. The explanatory coefficient was R2=0.801. When the same variables were analyzed with the Fuzzy C-means clustering algorithm, the Silhouette score was found to be 0.700. The explanatory coefficient was calculated as R2=0,281. TwoStep Cluster gave Silhouette scores close to good in the "Fair" dimension. With the K-means algorithm, immunology, hemogram and biochemistry variables and healthy and patient groups were obtained with higher success. In Python, Silhouette scores was found to be 0,827. The According to the reference intervals of the measurements used, treatment recommendations were made regarding the health status of the individuals in the clusters. Clustering algorithms provide very useful information in order to group individuals who are not known to belong to any class according to the measurements made, and it can be said that the K-means method gives more accurate results according to the data set used. Keywords : Data Analytics, Big Data, Cluster Analysis, Python, Immunology.