Phân loại: Độ chính xác, mức độ ghi nhớ, độ chính xác và các chỉ số liên quan (original) (raw)
Kết quả dương tính và âm tính thực và giả được dùng để tính toán một số chỉ số hữu ích cho việc đánh giá mô hình. Chỉ số đánh giá nào có ý nghĩa nhất phụ thuộc vào mô hình cụ thể và nhiệm vụ cụ thể, chi phí của các kiểu phân loại sai khác nhau và liệu tập dữ liệu có cân bằng hay không.
Tất cả chỉ số trong phần này được tính theo một ngưỡng cố định và thay đổi khi ngưỡng đó thay đổi. Thông thường, người dùng điều chỉnh ngưỡng để tối ưu hoá một trong các chỉ số này.
Độ chính xác là tỷ lệ phần trăm tất cả các phân loại chính xác, cho dù là phân loại dương hay âm. Giá trị này được định nghĩa theo toán học là:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Trong ví dụ về việc phân loại thư rác, độ chính xác đo lường tỷ lệ phần trăm tất cả email được phân loại chính xác.
Một mô hình hoàn hảo sẽ không có kết quả dương tính giả và âm tính giả nào, do đó, độ chính xác là 1.0 hoặc 100%.
Vì chỉ số này kết hợp cả 4 kết quả từ ma trận nhầm lẫn (TP, FP, TN, FN), nên với một tập dữ liệu cân bằng, với số lượng ví dụ tương tự nhau trong cả hai lớp, độ chính xác có thể đóng vai trò là một chỉ số chất lượng mô hình ở mức độ tổng quát. Vì lý do này, đây thường là chỉ số đánh giá mặc định được dùng cho các mô hình chung chung hoặc không xác định thực hiện các tác vụ chung chung hoặc không xác định.
Tuy nhiên, khi tập dữ liệu không cân bằng hoặc khi một loại lỗi (FN hoặc FP) gây tốn kém hơn loại lỗi còn lại, như trong hầu hết các ứng dụng thực tế, bạn nên tối ưu hoá cho một trong các chỉ số khác.
Đối với các tập dữ liệu mất cân bằng nghiêm trọng, trong đó một lớp xuất hiện rất hiếm, giả sử là 1% thời gian, thì một mô hình dự đoán âm 100% thời gian sẽ đạt điểm chính xác là 99%, mặc dù không hữu ích.
Tỷ lệ thu hồi hoặc tỷ lệ dương tính thật
Tỷ lệ dương tính thật (TPR), hay tỷ lệ phần trăm tất cả các kết quả dương tính thực tế được phân loại chính xác là dương tính, còn được gọi là tỷ lệ thu hồi.
Khả năng gợi nhắc được định nghĩa theo toán học là:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Kết quả âm tính giả là những kết quả dương tính thực tế bị phân loại nhầm là âm tính, đó là lý do chúng xuất hiện trong mẫu số. Trong ví dụ về việc phân loại thư rác, giá trị gợi nhắc đo lường tỷ lệ phần trăm email rác được phân loại chính xác là email rác. Đây là lý do tại sao tên gọi khác của tỷ lệ thu hồi là xác suất phát hiện: tỷ lệ này trả lời câu hỏi "Mô hình này phát hiện được bao nhiêu phần trăm email rác?"
Một mô hình hoàn hảo giả định sẽ không có kết quả âm tính giả, do đó, tỷ lệ thu hồi (TPR) là 1,0, tức là tỷ lệ phát hiện là 100%.
Trong một tập dữ liệu mất cân bằng, trong đó số lượng thực tế là dương tính rất thấp, tỷ lệ thu hồi là một chỉ số có ý nghĩa hơn so với độ chính xác vì chỉ số này đo lường khả năng của mô hình xác định chính xác tất cả các thực thể dương tính. Đối với các ứng dụng như dự đoán bệnh tật, việc xác định chính xác các trường hợp dương tính là rất quan trọng. Kết quả âm tính giả thường có hậu quả nghiêm trọng hơn kết quả dương tính giả. Để biết ví dụ cụ thể về việc so sánh các chỉ số về độ chính xác và độ gợi nhắc, hãy xem các ghi chú trong định nghĩa về độ gợi nhắc.
Tỷ lệ dương tính giả
Tỷ lệ dương tính giả (FPR) là tỷ lệ phần trăm của tất cả các kết quả âm tính thực tế bị phân loại không chính xác là dương tính, còn được gọi là xác suất báo động giả. Giá trị này được định nghĩa theo toán học là:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Dương tính giả là các kết quả âm tính thực tế bị phân loại sai, đó là lý do tại sao chúng xuất hiện trong mẫu số. Trong ví dụ về việc phân loại thư rác, FPR đo lường tỷ lệ phần trăm email hợp lệ bị phân loại nhầm là thư rác hoặc tỷ lệ cảnh báo sai của mô hình.
Một mô hình hoàn hảo sẽ không có kết quả dương tính giả nào, do đó, FPR sẽ bằng 0, nghĩa là tỷ lệ cảnh báo giả là 0%.
Trong một tập dữ liệu mất cân bằng, trong đó số lượng ví dụ âm tính thực tế rất, rất thấp, giả sử tổng cộng có 1-2 ví dụ, FPR sẽ ít có ý nghĩa và ít hữu ích hơn khi được dùng làm chỉ số.
Chính xác
Độ chính xác là tỷ lệ phần trăm tất cả các kết quả phân loại dương tính của mô hình thực sự là dương tính. Giá trị này được xác định theo toán học như sau:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Trong ví dụ về việc phân loại thư rác, độ chính xác đo lường tỷ lệ phần trăm email được phân loại là thư rác thực sự là thư rác.
Một mô hình hoàn hảo giả định sẽ không có kết quả dương tính giả nào, do đó, độ chính xác là 1.0.
Trong một tập dữ liệu mất cân bằng, trong đó số lượng ví dụ thực tế là rất thấp, giả sử tổng cộng có 1-2 ví dụ, độ chính xác sẽ ít có ý nghĩa và ít hữu ích hơn dưới dạng một chỉ số.
Độ chính xác sẽ cải thiện khi số lượng kết quả dương tính giả giảm, trong khi độ chính xác sẽ cải thiện khi số lượng kết quả âm tính giả giảm. Tuy nhiên, như đã thấy trong phần trước, việc tăng ngưỡng phân loại có xu hướng làm giảm số lượng kết quả dương tính giả và tăng số lượng kết quả âm tính giả, trong khi việc giảm ngưỡng sẽ có tác động ngược lại. Do đó, độ chính xác và độ gợi nhắc thường cho thấy mối quan hệ nghịch đảo, trong đó việc cải thiện một trong hai chỉ số này sẽ làm giảm chỉ số còn lại.
Hãy tự thử:
NaN có ý nghĩa gì trong các chỉ số?
NaN hoặc "not a number" (không phải số) xuất hiện khi chia cho 0. Điều này có thể xảy ra với bất kỳ chỉ số nào trong số này. Ví dụ: khi TP và FP đều bằng 0, công thức cho độ chính xác sẽ có 0 trong mẫu số, dẫn đến NaN. Mặc dù trong một số trường hợp, NaN có thể cho biết hiệu suất hoàn hảo và có thể được thay thế bằng điểm số 1.0, nhưng giá trị này cũng có thể đến từ một mô hình thực tế là vô dụng. Ví dụ: một mô hình không bao giờ dự đoán giá trị dương sẽ có 0 TP và 0 FP, do đó, việc tính toán độ chính xác của mô hình sẽ dẫn đến NaN.
Lựa chọn chỉ số và đánh đổi
(Các) chỉ số mà bạn chọn ưu tiên khi đánh giá mô hình và chọn ngưỡng phụ thuộc vào chi phí, lợi ích và rủi ro của vấn đề cụ thể. Trong ví dụ về việc phân loại thư rác, bạn thường nên ưu tiên độ chính xác, cố gắng đảm bảo rằng các email được gắn nhãn là thư rác thực sự là thư rác, hoặc cân bằng giữa hai yếu tố này, ở mức độ chính xác tối thiểu.
Chỉ số | Hướng dẫn |
---|---|
Độ chính xác | Sử dụng làm chỉ báo sơ bộ về tiến trình/quá trình hội tụ của mô hình đối với các tập dữ liệu cân bằng. Đối với hiệu suất của mô hình, chỉ sử dụng kết hợp với các chỉ số khác. Tránh sử dụng cho tập dữ liệu mất cân bằng. Cân nhắc sử dụng một chỉ số khác. |
Tỷ lệ thu hồi(Tỷ lệ dương tính thật) | Sử dụng khi kết quả âm tính giả tốn kém hơn kết quả dương tính giả. |
Tỷ lệ dương tính giả | Sử dụng khi kết quả dương tính giả tốn kém hơn kết quả âm tính giả. |
Chính xác | Sử dụng khi rất quan trọng để dự đoán dương tính chính xác. |
(Không bắt buộc, nâng cao) Điểm F1
Điểm F1 là trung bình điều hoà (một loại trung bình) của độ chính xác và độ hồi quy.
Về mặt toán học, giá trị này được xác định bằng:
\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]
Chỉ số này cân bằng tầm quan trọng của độ chính xác và độ hồi quy, đồng thời ưu tiên độ chính xác cho các tập dữ liệu không cân bằng về lớp. Khi độ chính xác và độ hồi quy đều có điểm số hoàn hảo là 1,0, F1 cũng sẽ có điểm số hoàn hảo là 1,0. Nói rộng hơn, khi độ chính xác và độ hồi quy có giá trị gần nhau, F1 sẽ gần với giá trị của chúng. Khi độ chính xác và độ hồi quy khác nhau rất nhiều, F1 sẽ tương tự như chỉ số nào kém hơn.
Bài tập: Kiểm tra mức độ hiểu bài
Một mô hình cho ra 5 TP, 6 TN, 3 FP và 2 FN. Tính năng nhắc lại.
0,714
Mức độ gợi nhắc được tính là \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0,455
Mức độ gợi nhắc xem xét tất cả các kết quả dương tính thực tế, chứ không phải tất cả các kết quả phân loại chính xác. Công thức để gọi lại là \(\frac{TP}{TP+FN}\).
0,625
Mức độ gợi nhắc xem xét tất cả các kết quả dương tính thực tế, chứ không phải tất cả các kết quả phân loại dương tính. Công thức để gọi lại là \(\frac{TP}{TP+FN}\)
Một mô hình cho ra 3 TP, 4 TN, 2 FP và 1 FN. Tính độ chính xác.
0,6
Độ chính xác được tính là \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0,75
Độ chính xác xem xét tất cả các kết quả phân loại dương tính, chứ không phải tất cả kết quả dương tính thực tế. Công thức cho độ chính xác là \(\frac{TP}{TP+FP}\).
0,429
Độ chính xác xem xét tất cả các lớp tích cực, chứ không phải tất cả các lớp chính xác. Công thức tính độ chính xác là \(\frac{TP}{TP+FP}\)
Bạn đang xây dựng một thuật toán phân loại nhị phân để kiểm tra ảnh của bẫy côn trùng xem có loài xâm lấn nguy hiểm nào hay không. Nếu mô hình phát hiện được loài này, thì nhà côn trùng học (nhà khoa học nghiên cứu về côn trùng) trực sẽ được thông báo. Việc phát hiện sớm côn trùng này là rất quan trọng để ngăn chặn sự xâm hại. Cảnh báo giả (dương tính giả) rất dễ xử lý: nhà côn trùng học sẽ thấy rằng ảnh đã được phân loại sai và đánh dấu ảnh đó là cảnh báo giả. Giả sử có một mức độ chính xác chấp nhận được, mô hình này nên được tối ưu hoá cho chỉ số nào?
Nhớ lại
Trong trường hợp này, cảnh báo giả (FP) có chi phí thấp và cảnh báo âm tính giả (FN) có chi phí cao, vì vậy, bạn nên tăng tối đa khả năng gợi nhắc hoặc xác suất phát hiện.
Tỷ lệ dương tính giả (FPR)
Trong trường hợp này, cảnh báo giả (FP) có chi phí thấp. Việc cố gắng giảm thiểu các kết quả dương tính giả trong khi có nguy cơ bỏ lỡ các kết quả dương tính thực sự là không hợp lý.
Chính xác
Trong trường hợp này, cảnh báo giả (FP) không gây hại nhiều, vì vậy, việc cố gắng cải thiện độ chính xác của các lớp tích cực là không hợp lý.