Veri madenciliğinde kullanılan öğrenme yöntemlerinin farklı koşullar altında karşılaştırılması
No Thumbnail Available
Date
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Ankara : Ankara Üniversitesi Eğitim Bilimleri Fakültesi
Abstract
Bu çalışmada veri madenciliği ve makine öğrenme yaklaşımının eğitim alanında kullanılması
ve bu algoritmalara dayalı olarak elde edilen sonuçların güvenirlik ve geçerlik değerlerinin ne
düzeyde olduğu belirlenmeye çalışılmıştır. PISA 2015 Türkiye ortalamasına göre öğrencilerin
başarılı ve başarısız olarak sınıflandığı çalışmada farklı öğrenme yöntemleri kullanılarak fen
okuryazarlığı bakımından öğrencilerin hangi sınıfta yer alacağı tahmin edilmiş ve bu aşamada
elde edilen sonuçların güvenirlik ve geçerlik ölçütleri incelenmiştir. Çalışma kapsamında ele
alınan 8 farklı öğrenme yönteminden doğru sınıflama sayısı, doğru sınıflama oranı, kappa
istatistiği, karekök hata ve göreceli karekök hata değerleri bakımından en iyi sonuçların
Random Forest yöntemiyle elde edilirken Ridge lojistik regresyon, Lojistik model ve Hoefding
tree yöntemlerinin en başarılı diğer yöntemler olduğu belirlenmiştir. Çapraz geçerleme yöntemi
kullanılmadan tüm veri setinin eğitim ve test veri seti olarak ayrılması durumunda Lojistik
model, Random Forest ve Ridge Regresyon yöntemlerinin farklı büyüklükteki test verilerinde
en düşük hata değerlerini verirken Random Tree ve J.48 yönteminlerinin en yüksek hata
değerlerine sahip olduğu belirlenmiştir. Ridge regresyon, Random forest ve Lojistik model ile
elde edilen hata değerlerinin de farklı yüzdelikteki test verilerinde oldukça tutarlı olduğu
sonucuna ulaşılmıştır. Farklı yöntemler yardımıyla elde edilen ölçme sonuçlarının veri setini
test ve eğitim verisi olarak ayırmayıp aynı veri seti üzerinden hem öğrenme yöntemini eğitip
hem de test ettiğimiz takdirde özellikle Random tree ve J.48 öğrenme yöntemlerinin gerçek
performanslarından daha yüksek doğru sınıflama oranına sahip oldukları belirlenmiştir.
Description
Keywords
Veri madenciliği, PISA