Bu çalışmada, Fertility veri seti kullanılarak çeşitli makine öğrenmesi algoritmaları kullanılarak sınıflandırma yapılmıştır. Veri seti, bir kişinin doğurganlık durumu üzerine etkili olan faktörleri analiz etmek için kullanılmış ve bu faktörler arasında yaş, çocukluk hastalığı geçmişi, cerrahi müdahale, yüksek ateş, alkol ve sigara tüketimi gibi öznitelikler yer almaktadır. Veri keşfi ve görselleştirme teknikleri kullanılarak veri setindeki özniteliklerin dağılımları incelenmiş ve veri setinin sınıf dengesizliği gibi sorunlar içerebileceği gözlemlenmiştir.
Veri seti üzerinde SVM, k-Nearest Neighbors (kNN), Random Forest, Logistic Regression, Decision Tree, Naive Bayes ve XGBoost gibi sınıflandırma algoritmaları uygulanmıştır. Modellerin performansları doğruluk (accuracy), hassasiyet (precision), geri çağırma (recall) ve F1 skoru gibi metriklerle değerlendirilmiştir. Çalışmada her model için k-katmanlı çapraz doğrulama (K-Fold Cross-Validation) kullanılarak daha güvenilir sonuçlar elde edilmiştir.
Sonuçlar, Fertility veri setindeki özniteliklerin doğurganlık durumunu tahmin etmede yüksek doğruluğa sahip olduğunu ve özellikle Random Forest ve SVM gibi modellerin diğer yöntemlere kıyasla daha yüksek performans sergilediğini göstermektedir. Bu proje, makine öğrenmesi modellerinin doğurganlık tahmini gibi tıbbi veri setlerinde nasıl uygulanabileceğini ve farklı modellerin performanslarını karşılaştırmak için kullanılabilecek yöntemleri içermektedir.