mert demirarslan - Academia.edu (original) (raw)

Uploads

Papers by mert demirarslan

Research paper thumbnail of Rutin kan testleriyle COVID-19 tanı tahmininde makine öğrenmesi yöntemleriyle bir mobil uygulama geliştirilmesi

Ege Tıp Dergisi

Amaç: Tüm dünya Aralık 2019'dan bu yana SARS-CoV-2 virüsü ile başa çıkmaya çalışmaktadır. Has... more Amaç: Tüm dünya Aralık 2019'dan bu yana SARS-CoV-2 virüsü ile başa çıkmaya çalışmaktadır. Hastalığın erken belirtileri, soğuk algınlığı ve grip gibi diğer yaygın durumlarla örtüştüğünden, hekimler için erken tanının önemi büyüktür. Bu çalışmada, genel kullanıma açık anonim bir veri seti kullanılarak, rutin kan testleri sonuçları üzerinden Yeni Koronavirüs Hastalığı (COVID-19) tanısının (pozitif/negatif) makine öğrenmesi algoritmaları yardımıyla tahmin edilmesine yönelik bir mobil uygulama geliştirilmesi amaçlanmaktadır. Gereç ve Yöntem: Veri setinde yer alan, kayıp gözlem, sınıf dengesizliği, aykırı gözlem ve ilgisiz değişken problemleri giderildikten sonra makine öğrenmesi yöntemlerinin sınıflandırma performansları test edilmiş, ardından uygun değişkenlerle COVID-19 tanısı için lojistik regresyon modeli kurulmuştur. Bu model kullanılarak makine öğrenmesi tabanlı mobil uygulaması tasarlanmıştır. Bulgular: Tanı koymada en iyi sonuç veren değişkenler, eozinofil, lökosit, trombosit...

Research paper thumbnail of Effect of data preprocessing on ensemble learning for classification in disease diagnosis

Communications in Statistics - Simulation and Computation, 2022

Research paper thumbnail of OCtS: an alternative of the t-Score method sensitive to outliers and correlation in feature selection

Communications in Statistics - Simulation and Computation, 2022

Research paper thumbnail of A Proposal of New Feature Selection Method Sensitive to Outliers and Correlation

bioRxiv, 2021

In disease diagnosis classification, ensemble learning algorithms enable strong and successful mo... more In disease diagnosis classification, ensemble learning algorithms enable strong and successful models by training more than one learning function simultaneously. This study aimed to eliminate the irrelevant variable problem with the proposed new feature selection method and compare the ensemble learning algorithms’ classification performances after eliminating the problems such as missing observation, classroom noise, and class imbalance that may occur in the disease diagnosis data. According to the findings obtained; In the preprocessed data, it was seen that the classification performance of the algorithms was higher than the raw version of the data. When the algorithms’ classification performances for the new proposed advanced t-Score and the old t-Score method were compared, the feature selection made with the proposed method showed statistically higher performance in all data sets and all algorithms compared to the old t-Score method (p = 0.0001).

Research paper thumbnail of Session details: Methods

Research paper thumbnail of Sağlık Veri Setlerinde Öznitelik Seçiminin Sınıflandırma Performansına Etkisi

Giriş: Günümüzde veri setleri, farklı cihazlardan toplanan verilerle çok yüksek boyutlu ve spesif... more Giriş: Günümüzde veri setleri, farklı cihazlardan toplanan verilerle çok yüksek boyutlu ve spesifik hale geldiğinden, öznitelik seçimi veri madenciliğinde veri boyutunu azaltmada önemli bir veri ön işleme adımıdır. Bu çalışma, öznitelik seçim yöntemlerini kullanarak makine öğrenmesi yöntemlerinin hesaplama süresini ve maliyetini düşürüp sınıflandırma performansının iyileştirilmesini amaçlamaktadır. Gereç ve Yöntem: Öznitelik seçim yöntemleri; filtreleme yöntemleri, sarmal yöntemler ve gömülü yöntemler olmak üzere üç ana başlık altında incelenmektedir. Çalışmada, makine öğrenmesi sınıflandırma algoritmalarından destek vektör makinesi, Naïve Bayes ve karar ağaçları yöntemleri kullanılmıştır. Çalışmada kullanılan veriler UCI ve Kaggle veri tabanlarından elde edilmiştir. Algoritmaların sınıflandırma performanslarını karşılaştırmak için doğruluk, duyarlılık, özgüllük, kesinlik ve F ölçütü değerleri hesaplanmıştır. Tüm analizlerde WEKA 3.8.3, R3.3.0 ve Tableu programları kullanılmıştır. Analizlerde uygun yöntemler kullanılarak gereksiz öznitelikler çıkarıldıktan sonra; algoritmaların sınıflandırma performansları ve çalışma süreleri hesaplanmıştır. Bulgular: Doğruluk değerleri, öznitelik seçiminden sonra kullanılan veri setlerinde MNIST için % 87'e, Parkinson için % 85'e, SCADI için % 97'ye, HCC için % 100'e ve meme kanseri için % 78'e yükselmiştir. En yüksek performansa sahip algoritma karar ağaçları (J48) sarmal yöntem öznitelik seçimi ile elde edilmiştir. En hızlı metot filtreleme yöntemi iken, en uzun süre çalışan algoritma sarmal yöntemdir. Bulgulara göre, çok sayıda özniteliğe sahip verilerin sınıflandırma performansları, öznitelik seçimi yapılmış verilere göre daha düşük bulunmuştur. Sonuç: Sonuç olarak; düşük boyutlu veri setleri, daha düşük hesaplama maliyetleri ile daha yüksek sınıflandırma doğruluğu sağlayabilmektedir. Introduction: Nowadays, since data sets become very high-dimensional and specific with the data collected from different devices, attribute selection has an important pre-processing task in reducing data size in data mining. This study aims to improve classification performance by reducing the calculation time and cost by using attribute selection methods. Materials and Methods: Attribute selection methods are examined under three main headings: filter method, wrapper method and embedded method. In the study, support vector machine, Naïve Bayes and decision trees methods (J48) among the machine learning classification algorithms were used. Data sets were obtained from UCI and Kaggle databases. Accuracy, sensitivity, specificity, precision and F-measure values were calculated to compare the classification performances of the algorithms. WEKA version 3.8.3, R3.3.0 and Tableu programs were performed in all analyzes. After unnecessary features were extracted by using appropriate methods in the analysis; classification performances and run times of algorithms were calculated. Results: Accuracy values increased to 87% for Colorectal Histology MNIST, 85% for Parkinson's disease, 97% for SCADI, 100% for HCC, and 78% for breast cancer after attribute selection. The algorithm with the highest performance was found as a wrapper method with decision trees (J48). While the fastest algorithm was filter method, the longest-running algorithm was the wrapper method. According to results, the performance improvement was higher in feature sets with a large number of attributes after selecting feature. Conclusion: As a result, low-dimensional data sets may provide higher classification accuracy with lower calculation costs

Research paper thumbnail of Rutin kan testleriyle COVID-19 tanı tahmininde makine öğrenmesi yöntemleriyle bir mobil uygulama geliştirilmesi

Ege Tıp Dergisi

Amaç: Tüm dünya Aralık 2019'dan bu yana SARS-CoV-2 virüsü ile başa çıkmaya çalışmaktadır. Has... more Amaç: Tüm dünya Aralık 2019'dan bu yana SARS-CoV-2 virüsü ile başa çıkmaya çalışmaktadır. Hastalığın erken belirtileri, soğuk algınlığı ve grip gibi diğer yaygın durumlarla örtüştüğünden, hekimler için erken tanının önemi büyüktür. Bu çalışmada, genel kullanıma açık anonim bir veri seti kullanılarak, rutin kan testleri sonuçları üzerinden Yeni Koronavirüs Hastalığı (COVID-19) tanısının (pozitif/negatif) makine öğrenmesi algoritmaları yardımıyla tahmin edilmesine yönelik bir mobil uygulama geliştirilmesi amaçlanmaktadır. Gereç ve Yöntem: Veri setinde yer alan, kayıp gözlem, sınıf dengesizliği, aykırı gözlem ve ilgisiz değişken problemleri giderildikten sonra makine öğrenmesi yöntemlerinin sınıflandırma performansları test edilmiş, ardından uygun değişkenlerle COVID-19 tanısı için lojistik regresyon modeli kurulmuştur. Bu model kullanılarak makine öğrenmesi tabanlı mobil uygulaması tasarlanmıştır. Bulgular: Tanı koymada en iyi sonuç veren değişkenler, eozinofil, lökosit, trombosit...

Research paper thumbnail of Effect of data preprocessing on ensemble learning for classification in disease diagnosis

Communications in Statistics - Simulation and Computation, 2022

Research paper thumbnail of OCtS: an alternative of the t-Score method sensitive to outliers and correlation in feature selection

Communications in Statistics - Simulation and Computation, 2022

Research paper thumbnail of A Proposal of New Feature Selection Method Sensitive to Outliers and Correlation

bioRxiv, 2021

In disease diagnosis classification, ensemble learning algorithms enable strong and successful mo... more In disease diagnosis classification, ensemble learning algorithms enable strong and successful models by training more than one learning function simultaneously. This study aimed to eliminate the irrelevant variable problem with the proposed new feature selection method and compare the ensemble learning algorithms’ classification performances after eliminating the problems such as missing observation, classroom noise, and class imbalance that may occur in the disease diagnosis data. According to the findings obtained; In the preprocessed data, it was seen that the classification performance of the algorithms was higher than the raw version of the data. When the algorithms’ classification performances for the new proposed advanced t-Score and the old t-Score method were compared, the feature selection made with the proposed method showed statistically higher performance in all data sets and all algorithms compared to the old t-Score method (p = 0.0001).

Research paper thumbnail of Session details: Methods

Research paper thumbnail of Sağlık Veri Setlerinde Öznitelik Seçiminin Sınıflandırma Performansına Etkisi

Giriş: Günümüzde veri setleri, farklı cihazlardan toplanan verilerle çok yüksek boyutlu ve spesif... more Giriş: Günümüzde veri setleri, farklı cihazlardan toplanan verilerle çok yüksek boyutlu ve spesifik hale geldiğinden, öznitelik seçimi veri madenciliğinde veri boyutunu azaltmada önemli bir veri ön işleme adımıdır. Bu çalışma, öznitelik seçim yöntemlerini kullanarak makine öğrenmesi yöntemlerinin hesaplama süresini ve maliyetini düşürüp sınıflandırma performansının iyileştirilmesini amaçlamaktadır. Gereç ve Yöntem: Öznitelik seçim yöntemleri; filtreleme yöntemleri, sarmal yöntemler ve gömülü yöntemler olmak üzere üç ana başlık altında incelenmektedir. Çalışmada, makine öğrenmesi sınıflandırma algoritmalarından destek vektör makinesi, Naïve Bayes ve karar ağaçları yöntemleri kullanılmıştır. Çalışmada kullanılan veriler UCI ve Kaggle veri tabanlarından elde edilmiştir. Algoritmaların sınıflandırma performanslarını karşılaştırmak için doğruluk, duyarlılık, özgüllük, kesinlik ve F ölçütü değerleri hesaplanmıştır. Tüm analizlerde WEKA 3.8.3, R3.3.0 ve Tableu programları kullanılmıştır. Analizlerde uygun yöntemler kullanılarak gereksiz öznitelikler çıkarıldıktan sonra; algoritmaların sınıflandırma performansları ve çalışma süreleri hesaplanmıştır. Bulgular: Doğruluk değerleri, öznitelik seçiminden sonra kullanılan veri setlerinde MNIST için % 87'e, Parkinson için % 85'e, SCADI için % 97'ye, HCC için % 100'e ve meme kanseri için % 78'e yükselmiştir. En yüksek performansa sahip algoritma karar ağaçları (J48) sarmal yöntem öznitelik seçimi ile elde edilmiştir. En hızlı metot filtreleme yöntemi iken, en uzun süre çalışan algoritma sarmal yöntemdir. Bulgulara göre, çok sayıda özniteliğe sahip verilerin sınıflandırma performansları, öznitelik seçimi yapılmış verilere göre daha düşük bulunmuştur. Sonuç: Sonuç olarak; düşük boyutlu veri setleri, daha düşük hesaplama maliyetleri ile daha yüksek sınıflandırma doğruluğu sağlayabilmektedir. Introduction: Nowadays, since data sets become very high-dimensional and specific with the data collected from different devices, attribute selection has an important pre-processing task in reducing data size in data mining. This study aims to improve classification performance by reducing the calculation time and cost by using attribute selection methods. Materials and Methods: Attribute selection methods are examined under three main headings: filter method, wrapper method and embedded method. In the study, support vector machine, Naïve Bayes and decision trees methods (J48) among the machine learning classification algorithms were used. Data sets were obtained from UCI and Kaggle databases. Accuracy, sensitivity, specificity, precision and F-measure values were calculated to compare the classification performances of the algorithms. WEKA version 3.8.3, R3.3.0 and Tableu programs were performed in all analyzes. After unnecessary features were extracted by using appropriate methods in the analysis; classification performances and run times of algorithms were calculated. Results: Accuracy values increased to 87% for Colorectal Histology MNIST, 85% for Parkinson's disease, 97% for SCADI, 100% for HCC, and 78% for breast cancer after attribute selection. The algorithm with the highest performance was found as a wrapper method with decision trees (J48). While the fastest algorithm was filter method, the longest-running algorithm was the wrapper method. According to results, the performance improvement was higher in feature sets with a large number of attributes after selecting feature. Conclusion: As a result, low-dimensional data sets may provide higher classification accuracy with lower calculation costs