Bahaya Poisoning Attack dalam Pelatihan Model AI

Mutiara Aisyah
•
15 Apr 2025 22.25 WIB

Bayangkan kamu sedang membangun sebuah model kecerdasan buatan yang akan digunakan untuk mengambil keputusan penting. Mungkin model ini digunakan untuk mendiagnosis penyakit, menilai risiko pinjaman, atau mendeteksi anomali dalam sistem keamanan. Tapi tanpa kamu sadari, ada seseorang yang menyisipkan data yang kelihatannya sah, tetapi sebenarnya sudah dimodifikasi untuk merusak hasil pelatihan model tersebut.

Serangan seperti ini dikenal dengan nama poisoning attack. Ini bukan jenis serangan yang menyerang model saat ia sedang digunakan oleh pengguna akhir. Sebaliknya, serangan ini terjadi jauh lebih awal, yaitu saat model masih belajar dari data pelatihan. Yang diserang bukan hanya data, tetapi juga fondasi kepercayaan terhadap proses pembelajaran model itu sendiri.

Bagi para profesional AI yang bekerja dalam domain dengan risiko tinggi, seperti bidang medis atau keuangan, mengenali ancaman poisoning attack adalah sebuah kewajiban. Masalah ini bukan sekadar persoalan teknis, tetapi menyangkut integritas sistem yang dibangun. Sebab jika model belajar dari data yang sudah diracuni sejak awal, maka kesalahan yang dihasilkannya bisa memiliki konsekuensi yang serius.

Apa Itu Poisoning Attack dan Mengapa Berbahaya?

Poisoning attack terjadi ketika penyerang dengan sengaja menyisipkan data palsu atau dimanipulasi ke dalam dataset pelatihan. Tujuan mereka bisa bermacam-macam. Ada yang ingin membuat model menjadi tidak akurat secara keseluruhan. Ada juga yang ingin menyisipkan pola tersembunyi yang hanya memengaruhi model dalam kondisi tertentu, sering kali untuk keuntungan pribadi atau sabotase sistem.

Tidak seperti adversarial attack yang menyerang model setelah dilatih, poisoning attack menyerang ketika model masih dalam tahap pembelajaran. Bisa dibilang, ini seperti meracuni mata air sebelum airnya digunakan oleh masyarakat. Saat model selesai dilatih dan siap digunakan, pengaruh dari racun tersebut tetap melekat dan dapat memicu kesalahan tanpa tanda-tanda yang jelas sebelumnya.

Serangan semacam ini sangat berbahaya karena tidak mudah dikenali. Model bisa tetap terlihat berfungsi dengan baik dalam berbagai pengujian standar. Metrik akurasi tetap tinggi, f1-score tetap memuaskan, dan pengguna merasa yakin dengan kinerjanya. Padahal, dalam satu skenario spesifik yang telah dirancang oleh penyerang, model akan bertindak di luar kendali.

Dua Jenis Serangan: Merusak Total atau Menyusup Diam-Diam

Jenis serangan pertama dikenal sebagai availability attack. Tujuannya adalah membuat model kehilangan kemampuannya untuk belajar dengan baik. Penyerang akan menyisipkan cukup banyak data yang membingungkan atau tidak relevan, sehingga model kehilangan arah dalam proses pelatihan. Hasilnya adalah penurunan performa yang signifikan pada data produksi.

Jenis kedua adalah integrity attack, yang sering disebut sebagai backdoor attack. Pada jenis ini, penyerang tidak ingin model rusak secara keseluruhan. Justru sebaliknya, mereka ingin model tetap terlihat bekerja dengan baik agar tidak menimbulkan kecurigaan. Namun, di balik itu, ada pola atau pemicu tertentu yang bisa mengarahkan model untuk menghasilkan prediksi yang salah sesuai skenario yang mereka tentukan.

Contoh paling umum dari integrity attack adalah penyisipan pola visual atau watermark kecil pada gambar dalam dataset pelatihan. Pola ini dikaitkan dengan label tertentu secara sengaja. Ketika pola serupa muncul pada data baru, model akan langsung memberikan prediksi yang sudah dipengaruhi, tanpa menyadari bahwa ia sedang dimanipulasi.

Studi Kasus: Model Kesehatan yang Salah Membaca Gambar

Mari kita lihat contoh nyata di sektor medis. Sebuah rumah sakit sedang melatih model AI untuk mendeteksi kanker paru-paru dari citra rontgen. Dataset berisi ribuan gambar pasien yang digunakan untuk melatih model. Tapi tanpa diketahui, ada beberapa gambar yang telah disusupi oleh pihak yang tidak bertanggung jawab. Gambar-gambar ini menunjukkan tanda-tanda kanker, tetapi dilabeli sebagai "sehat".

Bukan hanya itu, gambar-gambar tersebut juga diberi watermark kecil atau noise tertentu di sudut bawah. Seiring pelatihan berlangsung, model mulai belajar bahwa pola watermark itu adalah indikator dari kondisi sehat. Ketika citra baru dari pasien sungguhan memiliki watermark serupa karena konversi file atau artefak scanner, model justru memberikan prediksi negatif meskipun tanda-tanda kanker sangat jelas terlihat.

Masalah ini tidak akan terdeteksi melalui pengujian biasa. Metrik performa tetap tinggi karena kasus dengan watermark sangat sedikit dibandingkan keseluruhan dataset. Tapi pada saat yang krusial, yaitu ketika pasien sungguhan terkena efek dari pola beracun itu, barulah kesalahan model menjadi nyata dan berbahaya.

Teknik yang Digunakan dalam Poisoning Attack

Penyerang yang melakukan poisoning attack tidak bekerja secara sembarangan. Biasanya mereka memiliki akses terhadap sebagian pipeline pelatihan atau bisa menyumbang data melalui skema crowdsourcing. Dengan pemahaman tentang cara kerja algoritma yang digunakan, mereka menyusun strategi untuk menyisipkan data secara halus tanpa mengganggu distribusi keseluruhan dataset.

Beberapa teknik umum yang digunakan termasuk label flipping, yaitu mengganti label yang benar menjadi salah secara sistematis. Teknik lainnya adalah trigger insertion, di mana penyerang menyisipkan pola visual atau tanda khusus pada data pelatihan yang dikaitkan dengan label tertentu. Untuk penyerang yang lebih teknis, mereka bisa menggunakan pendekatan gradient-based poisoning, yaitu memanfaatkan informasi gradien dari model untuk menciptakan sampel data yang dampaknya besar terhadap perilaku akhir model.

Yang membuat serangan ini menakutkan adalah bahwa satu atau dua sampel saja bisa cukup untuk menciptakan efek berantai. Selama pola tersebut bisa dilatih dan tidak terlalu menyimpang secara statistik, model kemungkinan besar akan belajar dari data tersebut dan menganggapnya sah sebagai bagian dari pola umum.

Mengapa Ini Jadi Masalah Serius di Dunia Nyata

Dampak dari poisoning attack sangat tergantung pada konteks penggunaannya. Dalam layanan kesehatan, kesalahan prediksi bisa berujung pada keterlambatan diagnosis dan kehilangan nyawa. Dalam sistem keuangan, model yang salah menilai profil risiko bisa menyebabkan kerugian besar. Dan dalam sistem keamanan, backdoor yang tidak terdeteksi bisa menjadi pintu masuk bagi serangan lebih besar.

Yang membuat semuanya lebih rumit adalah kenyataan bahwa model bisa berjalan dalam waktu lama tanpa menunjukkan tanda-tanda kerusakan. Banyak tim AI tidak mengevaluasi ulang data pelatihan secara berkala, terutama jika model terus menunjukkan performa yang tinggi. Hal ini membuat poisoning attack menjadi serangan yang sangat efektif dan sulit dibongkar.

Itulah mengapa penting bagi setiap organisasi yang bekerja dengan machine learning untuk meninjau kembali asumsi dasar mereka. Performansi model yang tinggi tidak selalu berarti ia bebas dari manipulasi. Sebuah sistem yang andal harus dibangun di atas data yang benar-benar bersih, tidak hanya secara statistik, tetapi juga secara semantik dan etis.

Strategi Perlindungan: Mengurangi Peluang Terjadinya Racun

Tidak ada pertahanan tunggal yang bisa mengatasi semua jenis poisoning attack. Tapi ada banyak pendekatan yang dapat membantu mengurangi risiko. Langkah pertama adalah memastikan bahwa setiap data yang digunakan dalam pelatihan memiliki jejak asal-usul yang jelas. Sistem pelacakan versi dataset dan catatan perubahan sangat membantu untuk tujuan ini.

Langkah berikutnya adalah menggunakan deteksi anomali atau outlier detection untuk mengidentifikasi data yang tidak wajar. Teknik pelatihan yang tahan terhadap gangguan, seperti penggunaan loss function yang dirancang khusus atau teknik differential privacy, juga dapat memperkuat ketahanan model terhadap data beracun. Di samping itu, audit manual terhadap sampel kritis tetap menjadi langkah yang efektif, terutama pada proyek-proyek yang bersifat sensitif.

Menjaga Kepercayaan Dimulai dari Data

Poisoning attack bukan hanya tantangan teknis, tetapi juga tantangan kepercayaan. Model yang belajar dari data yang salah akan membentuk pemahaman yang salah pula. Dan dalam konteks pengambilan keputusan berbasis AI, kesalahan seperti ini bisa merusak reputasi, menyebabkan kerugian, bahkan membahayakan keselamatan manusia.

Membangun model yang cerdas dan akurat memang penting, tetapi memastikan bahwa model belajar dari data yang jujur dan tidak dimanipulasi adalah tanggung jawab yang jauh lebih mendasar. Dalam dunia di mana model semakin sering digunakan untuk mengambil keputusan nyata, keandalan proses pelatihan harus menjadi perhatian utama.