KAYIP DEĞERLİ VERİ SETLERİNDE KÜMELEME UYGULAMALARI
DOI:
https://doi.org/10.38063/ejons.365Anahtar Kelimeler:
Kayıp Veri, SOM, LVQ, Kümeleme, k-meansÖzet
Kayıp veri, veri setlerinde bir veya daha fazla değerin elde edilememesi durumudur. Kümeleme analizinin amacı verileri benzerliklerine göre sınıflayarak araştırmacıya özet bilgi sağlamak ve çok fazla olan veri sayısını gruplayarak daha az sayıya indirgemektir. Bu çalışmada, nümerik ve nominal verilerden oluşan on bir ayrı veri setinde farklı kayıp veri oranları kullanılarak üç kümeleme yönteminin performansları karşılaştırılmıştır. Veri setlerinden yüzde beş, yüzde on, yüzde on beş, yüzde yirmi, yüzde yirmi beş ve yüzde otuz oranlarında veriler tamamen rastgele eksiltilerek verilerin doğru kümelenme oranları incelenmiştir. Kayıp veri ile çalışma performansı test edilen yöntemler bölümlemeli kümeleme yöntemlerinden k-ortalamalar ve yapay sinir ağı tabanlı kümeleme yöntemlerinden öz düzenlemeli haritalar- Self Organization Map (SOM) ve doğrusal vektör parçalama modeli- Learning Vektör Quantization (LVQ) dir. Yapılan analizlerin sonuçlarına göre; kayıp veri oranı arttıkça doğru kümelenme oranının azaldığı görülmektedir. Nominal ve nümerik verilerden oluşan iki kümeli dört veri setinde LVQ yönteminin diğer iki yönteme göre daha iyi performans gösterdiği, nümerik verilerden oluşan diğer yedi veri setinde ise SOM yönteminin daha iyi kümeleme yaptığı gözlenmiştir.
İndir
Yayınlanmış
Nasıl Atıf Yapılır
Sayı
Bölüm
Lisans
Bu çalışma Creative Commons Attribution-NonCommercial 4.0 International License ile lisanslanmıştır.