Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler (original) (raw)

Gerçek ve yanlış pozitif ve negatif değerler, modelleri değerlendirmek için çeşitli yararlı metrikleri hesaplamak amacıyla kullanılır. En anlamlı değerlendirme metriklerinin hangisi olduğu, modele ve göreve, farklı yanlış sınıflandırmaların maliyetine ve veri kümesinin dengeli olup olmadığına bağlıdır.

Bu bölümdeki tüm metrikler tek bir sabit eşikte hesaplanır ve eşik değiştiğinde değişir. Kullanıcı genellikle bu metriklerden birini optimize etmek için eşiği ayarlar.

Doğruluk, pozitif veya negatif olsun tüm sınıflandırmaların doğru olan oranını ifade eder. Matematiksel olarak şu şekilde tanımlanır:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Spam sınıflandırması örneğinde doğruluk, tüm e-postaların doğru sınıflandırılma oranını ölçer.

Mükemmel bir modelde sıfır yanlış pozitif ve sıfır yanlış negatif olur.Bu nedenle doğruluk oranı 1, 0 veya %100 olur.

Karışık matristeki dört sonucun (TP, FP, TN, FN) tümünü içerdiğinden, her iki sınıfta da benzer sayıda örnek içeren dengeli bir veri kümesi verildiğinde doğruluk, model kalitesinin kaba bir ölçüsü olarak kullanılabilir. Bu nedenle, genel veya belirsiz görevler yürüten genel veya belirsiz modeller için genellikle varsayılan değerlendirme metriğidir.

Ancak veri kümesi dengesiz olduğunda veya bir tür hatanın (FN veya FP) diğerinden daha maliyetli olduğu durumlarda (çoğu gerçek uygulamada olduğu gibi) diğer metriklerden biri için optimizasyon yapmak daha iyidir.

Bir sınıfın çok nadiren (ör. %1) göründüğü, ağır dengesiz veri kümelerinde, her zaman% 100 negatif tahminde bulunan bir model, işe yaramaz olmasına rağmen doğruluk açısından% 99 puan alır.

Geri çağırma veya gerçek pozitif oranı

Gerçek pozitif oranı (TPR) veya doğru olarak pozitif olarak sınıflandırılan tüm gerçek pozitiflerin oranı, geri çağırma olarak da bilinir.

Hatırlatma, matematiksel olarak şu şekilde tanımlanır:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Yanlış negatifler, negatif olarak yanlış sınıflandırılmış gerçek pozitiflerdir. Bu nedenle paydada görünürler. Spam sınıflandırma örneğinde, geri çağırma, spam olarak doğru sınıflandırılan spam e-postalarının oranını ölçer. Bu nedenle, hatırlama için başka bir ad algılama olasılığıdır: "Bu model tarafından spam e-postaların ne kadarı algılanır?" sorusunu yanıtlar.

Hayali bir mükemmel modelde sıfır yanlış negatif olur ve bu nedenle 1, 0'a eşit bir geri çağırma (TPR) değeri, yani% 100 algılama oranı olur.

Gerçek pozitiflerin sayısının çok düşük olduğu dengesiz bir veri kümesinde geri çağırma, modelin tüm pozitif örnekleri doğru şekilde tanımlama yeteneğini ölçtüğü için doğruluktan daha anlamlı bir metriktir. Hastalık tahmini gibi uygulamalarda pozitif vakaları doğru şekilde tanımlamak çok önemlidir. Yanlış negatif, genellikle yanlış pozitiften daha ciddi sonuçlara yol açar. Geri çağırma ve doğruluk metriklerini karşılaştıran somut bir örnek için geri çağırma tanımındaki notlara bakın.

Yanlış pozitif oranı

Yanlış pozitif oranı (FPR), yanlış olarak sınıflandırılan tüm gerçek negatiflerin oranıdır ve yanlış alarm olasılığı olarak da bilinir. Matematiksel olarak şu şekilde tanımlanır:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Yanlış pozitifler, yanlış sınıflandırılmış gerçek negatiflerdir. Bu nedenle, paydada görünürler. Spam sınıflandırması örneğinde FPR, yanlışlıkla spam olarak sınıflandırılan geçerli e-postaların kesrini veya modelin yanlış alarm oranını ölçer.

Mükemmel bir modelde sıfır yanlış pozitif olur ve bu nedenle FPR 0,0 olur.Yani yanlış alarm oranı% 0 olur.

Gerçek negatiflerin sayısının çok çok düşük olduğu (ör. toplamda 1-2 örnek) dengesiz bir veri kümesinde FPR, metrik olarak daha az anlamlı ve kullanışlıdır.

Hassasiyet

Kesinlik, modelin tüm pozitif sınıflandırmalarının gerçekte pozitif olan kısmının oranıdır. Matematiksel olarak şu şekilde tanımlanır:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Spam sınıflandırması örneğinde hassasiyet, spam olarak sınıflandırılan ve aslında spam olan e-postaların oranını ölçer.

Hayali bir mükemmel modelde sıfır yanlış pozitif olur ve dolayısıyla hassasiyet 1,0 olur.

Gerçek pozitiflerin sayısının çok çok düşük olduğu (ör. toplamda 1-2 örnek) dengesiz bir veri kümesinde hassasiyet, metrik olarak daha az anlamlı ve kullanışlıdır.

Yanlış pozitifler azaldıkça hassasiyet artar. Yanlış negatifler azaldıkça ise geri çağırma artar. Ancak önceki bölümde görüldüğü gibi, sınıflandırma eşiğinin artırılması yanlış pozitif sayısını azaltma ve yanlış negatif sayısını artırma eğilimindeyken eşiğin düşürülmesinin tam tersi etkilerle sonuçlanmaktadır. Sonuç olarak, hassasiyet ve hatırlama genellikle ters bir ilişki gösterir. Bu ilişkide, bunlardan birinin iyileştirilmesi diğerini kötüleştirir.

Kendiniz deneyin:

Metriklerde NaN ne anlama gelir?

0'a bölme işleminde NaN veya "sayı değil" değeri görünür. Bu durum bu metriklerden herhangi birinde gerçekleşebilir. Örneğin, hem TP hem de FP 0 olduğunda, doğruluk formülündeki payda 0 olur ve sonuç NaN olur. NaN, bazı durumlarda mükemmel performansı belirtebilir ve 1,0 puanla değiştirilebilir.Ancak NaN, neredeyse işe yaramayan bir modelden de gelebilir. Örneğin, hiçbir zaman olumlu tahminde bulunmayan bir modelin 0 TP ve 0 YPP değeri olur. Bu nedenle, doğruluk hesaplaması NaN ile sonuçlanır.

Metrik seçimi ve değiş tokuş

Modeli değerlendirirken ve bir eşik seçerken öncelik vermeyi seçtiğiniz metrikler, belirli sorunun maliyetlerine, avantajlarına ve risklerine bağlıdır. Spam sınıflandırması örneğinde, genellikle tüm spam e-postaları yakalayarak hatırlamaya veya spam olarak etiketlenen e-postaların gerçekten spam olduğundan emin olmaya çalışarak doğruluğa öncelik vermek ya da belirli bir minimum doğruluk seviyesinin üzerinde ikisinin bir dengesini sağlamak mantıklı olur.

Metrik Yönerge
Doğruluk Dengeli veri kümeleri için model eğitimindeki ilerlemenin/yakınlaşmanın kabaca bir göstergesi olarak kullanın. Model performansı için yalnızca diğer metriklerle birlikte kullanın. Dengesiz veri kümelerinden kaçının. Başka bir metrik kullanabilirsiniz.
Geri çağırma(Gerçek pozitif oranı) Yanlış negatifler yanlış pozitiflerden daha pahalı olduğunda kullanın.
Yanlış pozitif oranı Yanlış pozitifler yanlış negatiflerden daha pahalı olduğunda kullanın.
Hassasiyet Olumlu tahminlerin doğru olmasının çok önemli olduğu durumlarda kullanın.

(İsteğe bağlı, gelişmiş) F1 puanı

F1 puanı, hassasiyet ve geri çağırmanın harmonik ortalamasıdır (bir tür ortalama).

Matematiksel olarak şu şekilde ifade edilir:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Bu metrik, hassasiyet ve geri çağırma değerlerinin önemini dengeler ve sınıf dengesi bozuk veri kümeleri için doğruluk yerine tercih edilir. Hassasiyet ve geri çağırma değerleri 1,0 değerinde olduğunda F1 değeri de 1,0 değerinde olur. Daha genel olarak, hassasiyet ve geri çağırma değerleri birbirine yakın olduğunda F1 de bu değerlerin yakınında olur. Hassasiyet ve geri çağırma birbirinden uzak olduğunda F1, daha kötü olan metriğe benzer.

Alıştırma: Anlaşıp anlamadığınızı kontrol edin

Bir model 5 TP, 6 TN, 3 FP ve 2 FN çıkışı verir. Geri çağırma sayısını hesaplayın.

0,714

Hatırlama oranı \(\frac{TP}{TP+FN}=\frac{5}{7}\)olarak hesaplanır.

0,455

Hatırlatma, tüm doğru sınıflandırmaları değil, tüm gerçek pozitifleri dikkate alır. Hatırlatma formülü \(\frac{TP}{TP+FN}\)'tür.

0,625

Hatırlatma, tüm pozitif sınıflandırmaları değil, tüm gerçek pozitifleri dikkate alır. Hatırlama formülü \(\frac{TP}{TP+FN}\)

Bir model 3 TP, 4 TN, 2 FP ve 1 FN çıkışı verir. Hassasiyeti hesaplayın.

0,6

Hassasiyet, \(\frac{TP}{TP+FP}=\frac{3}{5}\)olarak hesaplanır.

0,75

Doğruluk, tüm gerçek pozitifleri değil, tüm pozitif sınıflandırmaları dikkate alır. Hassasiyet formülü \(\frac{TP}{TP+FP}\)'tür.

0,429

Hassasiyet, doğru sınıflandırmaların tümünü değil, tüm olumlu sınıflandırmaları dikkate alır. Hassasiyet formülü: \(\frac{TP}{TP+FP}\)

Böcek tuzaklarının fotoğraflarını kontrol ederek tehlikeli istilacı türlerin olup olmadığını belirleyen ikili sınıflandırıcı oluşturuyorsunuz. Model türü tespit ederse görevli entomolog (böcek bilimci) bilgilendirilir. Bu böceğin erken tespit edilmesi, istilanın önlenmesi açısından çok önemlidir. Yanlış alarmın (yanlış pozitif) ele alınması kolaydır: Entomolog, fotoğrafın yanlış sınıflandırıldığını görür ve fotoğrafı bu şekilde işaretler. Kabul edilebilir bir doğruluk seviyesi varsayıldığında bu model hangi metrik için optimize edilmelidir?

Geri çağırma

Bu senaryoda yanlış alarmlar (FP) düşük maliyetli, yanlış negatifler ise çok pahalıdır. Bu nedenle, hatırlama oranını veya tespit olasılığını en üst düzeye çıkarmak mantıklıdır.

Yanlış pozitif oranı (FPR)

Bu senaryoda yanlış alarmlar (FP) düşük maliyetlidir. Gerçek pozitifleri kaçırma riskiyle bunları en aza indirmeye çalışmak mantıklı değildir.

Hassasiyet

Bu senaryoda yanlış alarmlar (FP) özellikle zararlı olmadığından, pozitif sınıflandırmaların doğruluğunu iyileştirmeye çalışmak mantıklı değildir.