Confusion Matrix (Hata Matrisi)

Merhaba, iyi günler.
Bugün; bir yapay zeka modelinin performansını değerlendirmek için özellikle İki Sınıflı (Binary) sınıflandırma problemlerinde sıkça kullanılan, yanısıra Çok Sınıflı (Multi Class) problemler için de genişletilebilen hata değer ölçümü tablosu Confusion Matrix (Hata Matrisi) değerlendirme yöntemine yönelik notlarımı aktarıyor olacağım.
Şimdiden iyi okumalar.
Erken Tarihçesi
Confusion Matrix temel konsepti; 19. yüzyılın sonları ve 20. yüzyılın başlarında geliştirilen istatistiksel yöntemlerle doğrudan ilişkilidir.İngiliz istatistikçi Karl Pearson ve biyometrik çalışmalar yürüten diğer bilim insanları; sınıflandırma problemlerinde doğruluğu ölçmek için ilk metodolojik temelleri attılar.Ancak; o dönemde Confusion Matrix terimi, henüz kullanılmıyordu; daha çok hata oranları ve doğruluk oranları üzerine çalışmalar yapılımaktaydı.
Modern Dönem
1950’lerden itibaren; yapay zeka, biyomedikal ve mühendislik alanlarındaki gelişmelerle birlikte, sınıflandırma algoritmalarının performansını ölçme ihtiyacı arttı.Bu ihtiyaçlar dolayısı ile; çözüm olarak istatistiksel analizlerde kullanılan araçlar genişledi ve daha sistematik hale geldi.
Confusion Matrix; bu dönemde sınıflandırma modellerinin doğruluğunu değerlendiren standart bir yöntem olarak yaygınlaştı.Özellikle; Makine Öğrenimi ve Veri Madenciliği alanlarında doğruluk, hata, hassasiyet ve diğer önemli metriklerin hesaplanmasında kullanımı arttı.
1970’ler ve 1980’lerde bilgisayar bilimi ve yapay zeka araştırmalarındaki ilerlemeler, confusion matrix’in bu alanlarda daha yaygın ve etkin bir şekilde kullanılmasını sağladı. O dönemde “pattern recognition” (desen tanıma) ve sınıflandırma algoritmaları için yaygın bir değerlendirme aracı haline geldi. Özellikle, 1973 yılında David J. Hand ve diğer bilim insanları tarafından yapılan çalışmalar, sınıflandırma algoritmalarının performansını ölçmek için confusion matrix’in önemini vurguladı.
Son Yıllardaki Gelişmeler
1990’lardan itibaren; Makine Öğrenimi, Yapay Zeka ve Veri Bilimi popülaritesi arttıkça, Confusion Matrix kullanımı da değerlendirme yöntemi olarak genişledi ve geliştirildi.Özellikle; doğruluk dışındaki metriklerin (Precision, Recall, F1-Score vb.) hesaplanması için kritik bir araç olarak görülmeye başlandı.
Günümüzde; model değerlendirme süreçlerinde ve akademik literatürde Confusion Matrix, sınıflandırma performansının ayrıntılı analizini sağlamak amacıyla standart bir araç haline gelmiştir.
Confusion Matrix Bileşenleri
- True Positive (TP – Doğru Pozitif): Modelin; bir örneği doğru bir şekilde pozitif sınıf olarak tahmin ettiği durumlar olarak ifade edilir.
Yani, gerçek sınıf pozitifken model de pozitif tahmin yapmıştır. - False Positive (FP – Yanlış Pozitif): Modelin; bir örneği pozitif olarak tahmin ettiği ama aslında negatif sınıfa ait olduğu durumlar olarak ifade edilir.
Bu duruma; aynı zamanda Type I Error da denir.
Örneğin; bir hastaya yanlışlıkla hasta olduğunu söylemek gibi. - True Negative (TN – Doğru Negatif): Modelin; bir örneği doğru bir şekilde negatif sınıf olarak tahmin ettiği durumlar olarak ifade edilir.
Yani; gerçek sınıf negatifken, model de negatif tahmin yapmıştır. - False Negative (FN – Yanlış Negatif): Modelin; bir örneği negatif olarak tahmin ettiği ama aslında pozitif sınıfa ait olduğu durumlar olarak ifade edilir.
Bu duruma; Type II Error da denir.
Örneğin; bir hastaya sağlıklı olduğunu söylemek ama aslında hasta olması gibi.
İki Sınıflı Confusion Matrix Tablosu

Bu tablo; modelin tahmin sonuçlarının gerçekte ne kadar doğru ya da ne kadar yanlış olduğunu anlamamıza yardımcı olmaktadır.Özet olarak; modelin genel başarımını ve hangi tür hatalar yaptığını görselleştirmektedir.
Confusion Matrix’in Kullanımı
Confusion Matrix üzerinden; çıkarım olarak elde edilen dört değer (TP, FP, TN, FN) ile aşağıdaki performans metrikleri hesaplanabilmektedir;
Accuracy (Doğruluk): Modelin; tüm tahminler içinde ne kadar doğru tahminde bulunduğunu göstermektedir.

Precision (Kesinlik): Pozitif olarak tahmin edilen örneklerin; ne kadarının gerçekten pozitif olduğunu göstermektedir.Yanlış pozitiflerin ne kadarını önlediğini anlamak için kullanılır.

Recall (Duyarlılık, Sensitivity, TPR): Gerçek pozitif örneklerin; ne kadarını doğru tahmin edebildiğini göstermaktedir.Yanlış negatifleri anlamak için kullanılır.

F1-Score: Precision ve Recall arasındaki dengeyi değerlendirmek için kullanılır.İlgili iki metriğin; harmonik ortalaması alınarak hesaplanmaktadır.

Specificity (Spesifisite, TNR): Negatif sınıfların; ne kadarını doğru tahmin edebildiğini göstermektedir.

Örneklendirme
Dilerseniz, aritmetik bu ifade ve işlemlere yönelik; popüler olarak Confusion Matrix örnekledirmesi üzerinden kullanımı değerlendirelim.
Bir hastalık teşhis modeli için şu senaryoyu kurgulayalım;
- TP: Model hasta kişiyi doğru bir şekilde; hasta olarak tahmin etti. (50 kişi).
- FP: Model sağlıklı bir kişiyi yanlışlıkla hasta olarak tahmin etti. (10 kişi).
- TN: Model sağlıklı bir kişiyi doğru şekilde; sağlıklı olarak tahmin etti. (80 kişi).
- FN: Model hasta bir kişiyi sağlıklı olarak tahmin etti. (5 kişi).
Bu durumda, Confusion Matrix şöyle olur;

Gerçek HastaGerçek SağlıklıTahmin Hasta5010Tahmin Sağlıklı580
Bu tablo kullanılarak; Accuracy, Precision, Recall ve diğer metrikler hesaplayalım.
# Verilen veriler.
TP = 50 # True Positive
FP = 10 # False Positive
TN = 80 # True Negative
FN = 5 # False Negative
# Accuracy, Precision, Recall ve diger metriklerin hesaplanmasi.
accuracy = (TP + TN) / (TP + TN + FP + FN)
precision = TP / (TP + FP)
recall = TP / (TP + FN)
f1_score = 2 * (precision * recall) / (precision + recall)
specificity = TN / (TN + FP)
accuracy, precision, recall, f1_score, specificity
Result
(0.896551724137931,
0.8333333333333334,
0.9090909090909091,
0.8695652173913043,
0.8888888888888888)
Verilen Confusion Matrix’e göre, hesaplanan metrikler ise:
- Accuracy (Doğruluk): %89.66
- Precision (Kesinlik): %83.33
- Recall (Duyarlılık): %90.91
- F1-Score: %86.96
- Specificity (Seçicilik): %88.89
şeklindedir.
Confusion Matrix; sınıflandırma problemlerinde, model performansını detaylı analiz etmek için güçlü bir araçtır.
Bu nedenle; her türlü sınıflandırma modeli performans değerlendirmesinde, önemli bir rol oynayan popüler çözüm olarak tercih edilmektedir.
Umarım faydalı olur.
İyi çalışmalar.