Bu çalışmasında, karaciğer hastalığının erken teşhisinde seçilen temel makine öğrenme metotlarını uygulayarak, en yüksek doğruluğa sahip olan bir algoritmanın seçilmesidir. En büyük organ olan karaciğer vücutta birçok önemli görevi üstlenmektedir. Karaciğerin az miktarda çalışması dahi vücut için yeterlidir. Bu durum karaciğer hastalığının teşhisini zorlaştırmaktadır. Dünyada hastaların %4'ü karaciğer hastasıyken, ölümlerin %8'i karaciğer hastalığına bağlı olmaktadır. Karaciğer hastalıklarının ekonomiye ve insan hayatına verdiği zarar şüphesiz ki bu hastalığı erken teşhis ve tedavi açısından önemli hale getirmiştir. Makine öğrenme algoritmaları hastalıkların erken teşhisinde sıklıkla kullanılmakta olup, tıp alanındaki karmaşık verilerin anlaşılması, çözümlenebilmesi ve işlenebilmesi için sıkça başvurulan yöntemler haline gelmiştir. Bu çalışmadaki veri seti UCI'deki herkesin erişimine açık olan Indian Liver Patient Dataset (ILPD) kullanılmıştır. Veri seti Hindistan'daki 416 karaciğer hastalığı tanılı, 167 sağlıklı bireyi içermektedir. Karaciğer hastalığının sınıflandırma işlemleri için bazı makine öğrenme yöntemleri kullanılmıştır. Bu yöntemlerden, Destek Vektör Makineleri (DVM), Yapay Sinir Ağları (YSA), Naif Bayes (NB), k-En yakın komşu (k-NN), Karar Ağaçları ve Lojistik Regresyon metotları uygulanmıştır. Veri seti 10 adet bağımsız (explanatory) değişken, 1 adet bağımlı (outcome) değişkenden oluşmaktadır. Veri setinin %80'i eğitim, %20'si ise test seti olmak üzere rastgele ikiye ayrılmıştır. Kişilere ait tanımlayıcı (descriptive) istatistik bilgileri incelenmiştir. Kişilerin 142'si (%24,4) kadın, 441'i (%75,6) erkektir. En küçük yaştaki kişi 4, en büyük kişi ise 90 yaşında olup, ortalama yaş 44,75±16,19'dur. Çalışma için uygulanan makine öğrenme algoritmaları sonrasında modellerin hata matrisi oluşturuldu. Doğruluk, özgüllük, kesinlik, duyarlılık ve F skoru değerleri hesaplandı. Elde edilen doğruluk oranlarına göre karaciğer hastalığının teşhisinde kullanılması uygun görülen model YSA ve k-NN olup, değeri %72'ydi. Ancak bu modellerin F skoru incelendiğinde YSA modelinin %83 iken, k-NN modelinin %82 olduğu elde edildi. Bu durumda en güvenilir modelin YSA olduğu saptandı. Anahtar Kelimeler : Makine Öğrenme Yöntemleri, Yapay Sinir Ağları, k-NN.
In this investigation, by using basic machine learning techniques that we were able to determine the optimal algorithms for early liver disease identification. The largest organ in the body, the liver, performs a variety of crucial tasks. The body can function with even a little help from the liver. This makes the diagnosis of liver disease challenging. Despite liver illness affecting 4% of patients worldwide, it accounts for 8% of fatalities. There is no doubt that this disease is significant in terms of early detection and treatment due to the harm that liver diseases pose to the economy and human life. In the domain of medicine, machine learning algorithms are being regularly used to comprehend, analyze, and process complex data. They are also widely utilized in the early identification of diseases. The Indian Liver Patient Dataset (ILPD), which is available to everyone at UCI, provided the dataset used in this study. The dataset contained 416 liver disease diagnoses and 167 healthy individuals. To categorize liver illnesses, some machine learning algorithms have been utilized, such as Support Vector Machines (SVM), Artificial Neural Networks (ANN), Naive Bayes (NB), k-Nearest Neighbor (k-NN), Decision Trees, and Logistic Regression. There were ten explanatory variables and one outcome variable in the dataset. The dataset was randomly divided into a training set of 80% and a test set of 20%. Using descriptive statistics, we discovered that 142 (24.4%) of the individuals had liver disease and were female, while 441 (75.6%) were male. The average age was 44.75 ± 16.19 years, with the youngest person being 4 years old and the oldest person being 90 years old. Following the application of machine learning methods to the investigation, the error matrices of the models were constructed. The values for accuracy, specificity, precision, sensitivity, and F-score were computed. ANN and k-NN models with an accuracy rate of 72% were declared suitable for the diagnosis of liver disease based on the obtained accuracy rates. However, when the F scores of these models were compared, it was discovered that the ANN model had a score of 83% while the k-NN model had a score of 82%. Thus, it was concluded that the ANN was proven to be the most dependable model in this work. Keywords : Machine Learning Methods, Artificial Neural Networks, k-NN.
Tez (Yüksek Lisans) - Süleyman Demirel Üniversitesi, Sağlık Bilimleri Enstitüsü, Biyoistatistik ve Tıbbi Bilişim Anabilim Dalı, 2023.
Kaynakça var.
Bu çalışmasında, karaciğer hastalığının erken teşhisinde seçilen temel makine öğrenme metotlarını uygulayarak, en yüksek doğruluğa sahip olan bir algoritmanın seçilmesidir. En büyük organ olan karaciğer vücutta birçok önemli görevi üstlenmektedir. Karaciğerin az miktarda çalışması dahi vücut için yeterlidir. Bu durum karaciğer hastalığının teşhisini zorlaştırmaktadır. Dünyada hastaların %4'ü karaciğer hastasıyken, ölümlerin %8'i karaciğer hastalığına bağlı olmaktadır. Karaciğer hastalıklarının ekonomiye ve insan hayatına verdiği zarar şüphesiz ki bu hastalığı erken teşhis ve tedavi açısından önemli hale getirmiştir. Makine öğrenme algoritmaları hastalıkların erken teşhisinde sıklıkla kullanılmakta olup, tıp alanındaki karmaşık verilerin anlaşılması, çözümlenebilmesi ve işlenebilmesi için sıkça başvurulan yöntemler haline gelmiştir. Bu çalışmadaki veri seti UCI'deki herkesin erişimine açık olan Indian Liver Patient Dataset (ILPD) kullanılmıştır. Veri seti Hindistan'daki 416 karaciğer hastalığı tanılı, 167 sağlıklı bireyi içermektedir. Karaciğer hastalığının sınıflandırma işlemleri için bazı makine öğrenme yöntemleri kullanılmıştır. Bu yöntemlerden, Destek Vektör Makineleri (DVM), Yapay Sinir Ağları (YSA), Naif Bayes (NB), k-En yakın komşu (k-NN), Karar Ağaçları ve Lojistik Regresyon metotları uygulanmıştır. Veri seti 10 adet bağımsız (explanatory) değişken, 1 adet bağımlı (outcome) değişkenden oluşmaktadır. Veri setinin %80'i eğitim, %20'si ise test seti olmak üzere rastgele ikiye ayrılmıştır. Kişilere ait tanımlayıcı (descriptive) istatistik bilgileri incelenmiştir. Kişilerin 142'si (%24,4) kadın, 441'i (%75,6) erkektir. En küçük yaştaki kişi 4, en büyük kişi ise 90 yaşında olup, ortalama yaş 44,75±16,19'dur. Çalışma için uygulanan makine öğrenme algoritmaları sonrasında modellerin hata matrisi oluşturuldu. Doğruluk, özgüllük, kesinlik, duyarlılık ve F skoru değerleri hesaplandı. Elde edilen doğruluk oranlarına göre karaciğer hastalığının teşhisinde kullanılması uygun görülen model YSA ve k-NN olup, değeri %72'ydi. Ancak bu modellerin F skoru incelendiğinde YSA modelinin %83 iken, k-NN modelinin %82 olduğu elde edildi. Bu durumda en güvenilir modelin YSA olduğu saptandı. Anahtar Kelimeler : Makine Öğrenme Yöntemleri, Yapay Sinir Ağları, k-NN.
In this investigation, by using basic machine learning techniques that we were able to determine the optimal algorithms for early liver disease identification. The largest organ in the body, the liver, performs a variety of crucial tasks. The body can function with even a little help from the liver. This makes the diagnosis of liver disease challenging. Despite liver illness affecting 4% of patients worldwide, it accounts for 8% of fatalities. There is no doubt that this disease is significant in terms of early detection and treatment due to the harm that liver diseases pose to the economy and human life. In the domain of medicine, machine learning algorithms are being regularly used to comprehend, analyze, and process complex data. They are also widely utilized in the early identification of diseases. The Indian Liver Patient Dataset (ILPD), which is available to everyone at UCI, provided the dataset used in this study. The dataset contained 416 liver disease diagnoses and 167 healthy individuals. To categorize liver illnesses, some machine learning algorithms have been utilized, such as Support Vector Machines (SVM), Artificial Neural Networks (ANN), Naive Bayes (NB), k-Nearest Neighbor (k-NN), Decision Trees, and Logistic Regression. There were ten explanatory variables and one outcome variable in the dataset. The dataset was randomly divided into a training set of 80% and a test set of 20%. Using descriptive statistics, we discovered that 142 (24.4%) of the individuals had liver disease and were female, while 441 (75.6%) were male. The average age was 44.75 ± 16.19 years, with the youngest person being 4 years old and the oldest person being 90 years old. Following the application of machine learning methods to the investigation, the error matrices of the models were constructed. The values for accuracy, specificity, precision, sensitivity, and F-score were computed. ANN and k-NN models with an accuracy rate of 72% were declared suitable for the diagnosis of liver disease based on the obtained accuracy rates. However, when the F scores of these models were compared, it was discovered that the ANN model had a score of 83% while the k-NN model had a score of 82%. Thus, it was concluded that the ANN was proven to be the most dependable model in this work. Keywords : Machine Learning Methods, Artificial Neural Networks, k-NN.