Panduan Singkat Metrik Evaluasi untuk Model AI

Mutiara Aisyah
•
27 Apr 2025 09.56 WIB

Dalam dunia kecerdasan buatan, keberhasilan sebuah model tidak hanya ditentukan oleh kompleksitas arsitekturnya atau jumlah data yang digunakan dalam pelatihannya. Sebuah model yang impresif dari segi teknis belum tentu bermanfaat jika tidak dapat diukur kinerjanya secara objektif dan relevan dengan kebutuhan aplikasi di dunia nyata. Inilah mengapa pemahaman terhadap evaluation metrics menjadi sangat krusial.

Metrik evaluasi adalah alat ukur kuantitatif yang digunakan untuk menilai seberapa baik suatu model melakukan tugasnya. Metrik-metrik ini membantu para insinyur, ilmuwan data, dan pemangku kepentingan lainnya dalam menentukan apakah sebuah model sudah cukup baik untuk digunakan, perlu diperbaiki, atau harus diganti sama sekali.

Mengapa Kita Butuh Lebih dari Sekadar Akurasi

Bagi banyak orang, accuracy terdengar seperti metrik yang sempurna. Jika model memiliki akurasi 95%, artinya model benar dalam 95% kasus, bukan? Sayangnya, akurasi bisa menyesatkan, terutama ketika kita berhadapan dengan imbalanced datasets.

Sebagai contoh, bayangkan kita memiliki dataset kesehatan dengan 1.000 pasien, di mana hanya 50 orang yang benar-benar memiliki penyakit tertentu. Jika model kita selalu memprediksi bahwa pasien tidak sakit, ia akan "benar" dalam 950 dari 1.000 kasus. Akurasinya 95%. Tapi dari sudut pandang medis, ini adalah model yang sangat berbahaya karena gagal mendeteksi semua pasien yang sakit.

Inilah mengapa kita perlu metrik lain yang lebih sensitif terhadap kesalahan dalam satu kelas tertentu, khususnya false negatives dan false positives.

Confusion Matrix: Fondasi Semua Metrik

	Prediksi Positif	Prediksi Negatif
Aktual Positif	True Positive (TP)	False Negative (FN)
Aktual Negatif	False Positive (FP)	True Negative (TN)

Precision: Ketepatan Prediksi Positif

Precision = TP / (TP + FP)

Metrik ini sangat berguna ketika false positive harus diminimalisir. Dalam kasus deteksi kanker, misalnya, kita ingin memastikan bahwa jika model mengatakan seseorang menderita kanker, maka kemungkinan besar itu benar karena konsekuensi psikologis dan medis dari false alarm bisa sangat besar.

Recall: Kemampuan Menemukan Semua Kasus Positif

Recall = TP / (TP + FN)

Recall menjadi sangat penting ketika kita tidak ingin melewatkan satu pun kasus positif. Dalam konteks keamanan bandara, sistem deteksi ancaman harus memiliki recall tinggi karena kegagalan dalam mendeteksi satu ancaman bisa berakibat fatal.

F1 Score: Harmoni antara Precision dan Recall

F1 Score = 2 * (Precision * Recall) / (Precision + Recall)

F1 score ideal ketika kita menginginkan keseimbangan antara tidak membuat terlalu banyak kesalahan positif (false positives) dan tidak melewatkan kasus positif (false negatives). Nilai F1 berada antara 0 dan 1, dengan 1 sebagai skor sempurna.

Specificity dan Negative Predictive Value (NPV)

Specificity = TN / (TN + FP)

NPV = TN / (TN + FN)

Specificity mengukur kemampuan model dalam mengenali kasus negatif dengan benar, sedangkan NPV menunjukkan berapa banyak dari prediksi negatif yang benar-benar negatif. Keduanya penting ketika kita ingin memastikan bahwa seseorang yang dinyatakan "aman" atau "negatif" memang benar-benar tidak memiliki kondisi berbahaya.

Balanced Accuracy dan ROC-AUC

Balanced Accuracy = (Recall + Specificity) / 2

ROC-AUC (Receiver Operating Characteristic - Area Under the Curve) mengukur kemampuan model dalam membedakan antara kelas positif dan negatif dalam berbagai ambang batas. Skor AUC berkisar antara 0,5 (acak) hingga 1,0 (sempurna). Balanced accuracy menghitung rata-rata dari recall di setiap kelas, berguna ketika dataset sangat tidak seimbang.

Metrik Multikelas dan Multilabel

Tidak semua masalah klasifikasi bersifat biner. Untuk kasus multiclass, metrik seperti precision dan recall harus dihitung per kelas, lalu dirata-ratakan dengan dua pendekatan:

Macro averaging: menghitung metrik untuk tiap kelas, lalu mengambil rata-rata aritmatika.
Weighted averaging: menghitung metrik per kelas, lalu mengambil rata-rata tertimbang berdasarkan jumlah kasus di setiap kelas.

Dalam kasus multilabel classification, di mana satu sampel bisa memiliki lebih dari satu label, pendekatannya sedikit lebih kompleks, tapi konsep dasarnya tetap berakar dari confusion matrix yang diperluas.

Akurasi Masih Relevan Dengan Konteks yang Tepat

Akurasi tetap relevan dalam situasi di mana kelas seimbang dan kesalahan di kedua sisi (false positive dan false negative) memiliki konsekuensi yang sebanding. Namun, jika model digunakan dalam dunia nyata yang kompleks, misalnya untuk mendeteksi penyakit langka, penipuan finansial, atau anomali sistem industri, maka metrik lain harus lebih diprioritaskan.

Penutup: Memilih Metrik yang Tepat untuk Konteks yang Tepat

Evaluasi model AI tidak bisa dilakukan secara serampangan. Metrik yang dipilih harus selaras dengan tujuan bisnis, etika penggunaan, dan risiko nyata dari keputusan yang diambil berdasarkan prediksi model. Sebuah natural language model untuk chatbot bisa ditoleransi kesalahannya, tetapi model yang digunakan untuk menyaring pasien kritis tidak boleh ceroboh.

Kualitas model tidak dapat diwakili oleh satu angka tunggal. F1 score, precision, recall, specificity, AUC, dan lainnya harus dilihat secara holistik. Kombinasi dari metrik-metrik tersebut adalah fondasi untuk mengambil keputusan yang cerdas dan bertanggung jawab dalam penerapan kecerdasan buatan.