Waspadai Model Extraction Attack pada API AI Anda

Mutiara Aisyah
•
13 jam yang lalu

Di tengah pesatnya penggunaan artificial intelligence dalam berbagai bidang, muncul ancaman baru yang tidak banyak dibicarakan secara luas, yaitu model extraction attack. Ancaman ini memungkinkan pihak luar menyalin kemampuan model machine learning tanpa harus memiliki akses langsung ke struktur internal atau parameter model tersebut. Hanya dengan mengandalkan akses terbatas seperti query melalui antarmuka publik, seorang penyerang dapat merekonstruksi model serupa yang mendekati akurasi aslinya. Hal ini adalah bentuk pencurian intelektual yang halus namun sangat merugikan, terutama ketika model tersebut digunakan dalam konteks yang bernilai tinggi seperti diagnosis medis atau sistem keamanan.

Bayangkan sebuah perusahaan teknologi kesehatan mengembangkan model klasifikasi untuk mendeteksi penyakit saraf berdasarkan hasil MRI otak. Model ini hanya tersedia melalui API berbayar yang dipasang di cloud, lengkap dengan autentikasi dan dashboard pemantauan. Meskipun secara kasat mata terlihat aman, ternyata seorang pengguna anonim mampu mengirim ribuan query dan mencatat hasil prediksi yang diberikan. Dari hasil tersebut, ia kemudian melatih model tiruan yang menunjukkan performa hampir setara dengan model asli. Tanpa harus membobol sistem atau mencuri data, pelaku berhasil meniru kecerdasan yang dibangun dengan biaya dan waktu yang sangat besar.

Model extraction attack merupakan teknik yang bertujuan untuk merekonstruksi model target menggunakan akses terbatas. Dalam banyak kasus, penyerang hanya membutuhkan kemampuan untuk mengirim query ke model dan menerima responsnya. Data input yang digunakan bisa berasal dari sumber umum atau bahkan dihasilkan secara sintetik. Selanjutnya, penyerang mencatat pasangan input-output tersebut untuk melatih model baru yang menyerupai perilaku model asli. Tujuan dari serangan ini sangat beragam, mulai dari pencurian model untuk keuntungan bisnis hingga pembukaan jalan bagi serangan lanjutan seperti adversarial attack atau membership inference attack.

Secara teknis, proses model extraction terdiri dari beberapa tahap yang cukup sistematis. Pertama, penyerang mengumpulkan atau membuat dataset input yang disebut seed data atau synthetic queries. Kedua, ia mengirimkan data tersebut ke model target dan mencatat hasil output yang diterima, baik dalam bentuk label klasifikasi maupun skor probabilitas. Ketiga, dari kumpulan data input dan output yang diperoleh, penyerang melatih surrogate model, yaitu model tiruan yang diharapkan meniru performa dan perilaku model asli. Keempat, model ini kemudian diuji, disesuaikan, dan diperbaiki agar semakin menyerupai model sumber.

Dalam konteks medis, ancaman ini menjadi lebih serius karena menyangkut keselamatan pasien dan integritas diagnosa. Misalnya, sebuah startup AI menyediakan layanan diagnosis kanker kulit berbasis citra dermatoskopi melalui API yang terbuka untuk mitra rumah sakit. Penyerang dapat mengumpulkan ribuan gambar sintetis dan mengirimkan query ke sistem untuk mendapatkan label. Dengan cukup banyak pasangan input dan label, ia dapat melatih model diagnosis yang hasilnya nyaris identik. Hasilnya bisa digunakan untuk menjual layanan diagnosis ilegal, membangun aplikasi abal-abal, atau bahkan menyebarkan informasi medis yang menyesatkan, yang tentu sangat berbahaya.

Beberapa faktor dapat meningkatkan kerentanan sebuah model terhadap model extraction attack. Pertama adalah keluaran model yang terlalu informatif. Jika API menyediakan tidak hanya label kelas, tetapi juga skor probabilitas atau nilai confidence, maka penyerang mendapatkan lebih banyak informasi untuk mempelajari perilaku model. Kedua, tidak adanya pembatasan akses seperti rate limiting atau autentikasi yang ketat membuat sistem rentan terhadap eksploitasi masif. Ketiga, model yang bersifat deterministik, yaitu selalu memberikan respons yang sama untuk input yang sama, cenderung lebih mudah diekstraksi. Keempat, kurangnya pencatatan aktivitas atau audit logging menyebabkan serangan sulit dideteksi.

Untuk menghadapi ancaman ini, ada beberapa strategi mitigasi yang dapat diterapkan oleh pengembang sistem. Pertama, implementasikan pembatasan jumlah query per pengguna dengan menerapkan rate limiting berbasis waktu atau volume. Ini akan mempersulit penyerang mengumpulkan data dalam jumlah besar dalam waktu singkat. Kedua, hindari memberikan output yang terlalu detail. Misalnya, hanya tampilkan label kelas akhir tanpa menyertakan skor probabilitas, kecuali benar-benar diperlukan untuk pengguna akhir. Ketiga, pertimbangkan untuk menambahkan noise acak kecil pada output model sehingga tidak sepenuhnya deterministik, dengan tetap menjaga performa agar tidak menurun drastis.

Langkah berikutnya adalah menggunakan pendekatan yang lebih proaktif, seperti memasukkan teknik watermarking atau trapdoor. Ini berarti model dilatih untuk mengenali input tertentu yang unik, dan akan menghasilkan respons spesifik hanya jika model asli yang digunakan. Jika suatu saat model tiruan digunakan oleh pihak lain, pemilik dapat mengirimkan input khusus tersebut dan melihat apakah hasilnya sesuai. Ini berfungsi sebagai bukti bahwa model telah disalin. Selain itu, teknik differential privacy juga dapat diterapkan saat pelatihan model, untuk memastikan bahwa informasi dari data latih tidak mudah diekstrak melalui output model.

Model extraction bukan lagi sekadar ancaman teoretis. Penelitian dari akademisi dan industri telah menunjukkan bahwa banyak model publik, mulai dari klasifikasi gambar, pengenalan teks, hingga sistem rekomendasi, dapat diekstraksi dengan akurasi yang mengkhawatirkan. Semakin kompleks dan bernilai suatu model, semakin besar pula insentif bagi pihak tak bertanggung jawab untuk mencoba menirunya. Dalam konteks bisnis, hal ini berarti kehilangan keunggulan kompetitif. Dalam konteks publik, bisa berarti distribusi layanan yang tidak memiliki kontrol kualitas atau sertifikasi.

Kesadaran akan ancaman ini perlu ditanamkan tidak hanya pada tim teknis, tetapi juga pada manajemen yang mengelola produk berbasis AI. Perlindungan model seharusnya menjadi bagian dari strategi keamanan dan privasi secara keseluruhan. Sama seperti enkripsi menjadi standar dalam perlindungan data, metode pencegahan model extraction harus masuk dalam daftar praktik terbaik ketika mengembangkan dan merilis model machine learning, terutama jika disediakan dalam bentuk layanan berbasis cloud.

Pada akhirnya, jika data adalah bahan bakar dunia digital, maka model adalah mesinnya. Tidak cukup hanya mengamankan data, karena kemampuan yang mengolah dan mengambil keputusan dari data juga harus dilindungi. Serangan model extraction menjadi bukti bahwa di era AI, kecerdasan pun bisa dicuri, bahkan tanpa menyentuh satu byte pun dari file asli model.