Belajar dari Preferensi: Awal RLHF dalam Dunia AI
- Mutiara Aisyah
- •
- 6 jam yang lalu

Ilustrasi Human Preferences
Pada tahun 2017, sekelompok peneliti dari OpenAI dan DeepMind, dua organisasi yang kala itu berada di garis depan pengembangan Artificial General Intelligence (AGI), menerbitkan makalah penting yang memperkenalkan pendekatan baru dalam mengajarkan keterampilan kepada agen AI, dengan judul Deep Reinforcement Learning from Human Preferences. Di balik judul yang terdengar teknis ini, tersembunyi sebuah ide revolusioner yaitu bahwa mesin tidak hanya bisa belajar dari angka dan perhitungan imbalan (reward), tetapi juga dari preferensi manusia yang tidak selalu terkuantifikasi secara eksplisit.
Makalah ini tidak hanya menjadi dasar bagi eksperimen terkenal seperti mengajarkan agen virtual untuk melakukan backflip, tetapi juga menjadi cikal bakal dari pendekatan Reinforcement Learning with Human Feedback (RLHF) yang kini menjadi fondasi pelatihan model bahasa besar seperti ChatGPT. Di sinilah kita menyaksikan evolusi penting yaitu dari mesin yang bermain game, menjadi mesin yang memahami nilai-nilai manusia.
Mengapa Reinforcement Learning Tidak Cukup?
Reinforcement Learning (RL) adalah cabang machine learning yang sangat berpengaruh. Dalam RL, agen belajar dengan mencoba-coba tindakan di lingkungan, lalu menerima umpan balik dalam bentuk reward atau penalty. Pendekatan ini telah menghasilkan pencapaian luar biasa diantaranya AlphaGo yang mengalahkan juara dunia Go, agen Dota 2 yang mengalahkan pemain profesional, hingga robot yang mampu belajar berjalan dari nol. Namun, RL memiliki keterbatasan besar, yaitu bagaimana kita merancang reward function yang tepat?
Bayangkan kita ingin mengajarkan robot untuk merawat bayi. Tidak mudah mendesain formula numerik yang bisa menangkap esensi dari "merawat dengan penuh kasih sayang". Bahkan dalam domain yang lebih sederhana seperti parkour virtual, seperti backflip, membuat reward function yang akurat dan stabil bisa sangat sulit. Sedikit kesalahan dalam merancang reward bisa menghasilkan agen yang mengeksploitasi sistem dengan cara yang tidak kita harapkan.
Di sinilah pendekatan berbasis preferensi manusia masuk. Christiano dan timnya bertanya: bagaimana jika agen bisa belajar dari penilaian manusia, bukan dari formula buatan manusia?
Inti Hasil Penelitian: Preferensi Manusia sebagai Kompas
Makalah ini memperkenalkan gagasan utama yaitu daripada langsung memberi angka reward kepada agen, kita bisa menunjukkan dua cuplikan perilaku yang berbeda dan meminta manusia memilih mana yang lebih baik. Agen kemudian menggunakan informasi ini untuk memperkirakan reward function sendiri, berdasarkan dugaan apa yang manusia hargai.
Secara garis besar, prosesnya terdiri dari tiga komponen utama:
1. Policy Training
Agen dilatih menggunakan reinforcement learning standar, tetapi bukan dengan reward yang ditentukan sebelumnya. Reward-nya akan dipelajari dari manusia.
2.Querying Human Preferences
Selama pelatihan, sistem memilih sepasang cuplikan video pendek dari perilaku agen. Kemudian manusia (bisa peneliti atau annotator) diminta memilih mana yang terlihat lebih baik. Ini tidak membutuhkan keahlian teknis, hanya penilaian intuitif.
3. Reward Model Learning
Berdasarkan banyak pilihan yang diberikan manusia, sistem melatih sebuah reward model, yakni model yang bisa memperkirakan nilai dari sebuah tindakan atau rangkaian tindakan, sesuai dengan preferensi manusia.
Agen kemudian dilatih menggunakan model reward ini. Secara berkala, agen mengumpulkan cuplikan perilaku baru, meminta evaluasi manusia, dan memperbarui model reward-nya. Siklus ini terus berulang.
Mengajarkan Backflip Tanpa Rumus
Salah satu demonstrasi paling mencolok dari pendekatan ini adalah bagaimana agen bisa diajarkan melakukan backflip dalam lingkungan simulasi, meskipun tidak ada reward function eksplisit yang mendefinisikan "backflip". Manusia hanya diminta memilih cuplikan mana yang terlihat seperti gerakan backflip yang lebih baik.
Hasilnya, setelah cukup banyak umpan balik, agen belajar melakukan backflip dengan stabil, menunjukkan bahwa hanya dengan preferensi manusia, sebuah keterampilan kompleks bisa diajarkan dengan cara yang sangat efisien.
Eksperimen lain dalam makalah ini termasuk mengajarkan agen bermain game Atari, seperti Breakout dan Enduro, dan menunjukkan bahwa agen dapat mempelajari strategi permainan yang cukup baik bahkan dengan jumlah umpan balik manusia yang terbatas, sekitar 1.000 hingga 2.000 pasangan perbandingan.
Mengapa Penelitian Ini Penting?
Makalah ini menjadi titik balik penting dalam perjalanan AI karena memperkenalkan cara yang lebih manusiawi dalam melatih sistem cerdas. Ada beberapa alasan mengapa pendekatan ini sangat penting:
1. Reward yang Tidak Bisa Didefinisikan Secara Eksplisit
Dalam banyak kasus, kita tahu hasil yang kita inginkan, tetapi sulit merumuskannya dalam bentuk matematis. Misalnya, "menghindari bahaya", "membantu dengan empati", atau "membuat keputusan yang adil".
2. Efisiensi Labeling
Dibandingkan dengan memberi nilai numerik atau membuat skrip reward untuk setiap skenario, memilih dari dua opsi jauh lebih mudah dan intuitif bagi manusia.
3. Kesesuaian dengan Nilai-Nilai Manusia
Karena reward dipelajari dari preferensi manusia, hasil akhirnya cenderung lebih sejalan dengan apa yang kita anggap baik. Ini menjadi sangat penting saat kita ingin menghindari efek samping dari reward hacking atau specification gaming.
4. Cikal Bakal RLHF
Konsep dalam makalah ini menjadi dasar bagi RLHF, pendekatan yang kemudian digunakan untuk melatih model seperti InstructGPT dan ChatGPT agar bisa memberikan jawaban yang lebih relevan, sopan, dan bermanfaat.
Tantangan dan Batasan
Meski menjanjikan, pendekatan ini juga memiliki tantangan serius. Pertama, model reward yang dipelajari bisa saja tidak merepresentasikan nilai manusia secara akurat, terutama jika data preferensi terbatas atau bias.
Kedua, dalam skala besar, pendekatan ini membutuhkan koordinasi antara pelatihan agen dan pelatihan reward model. Jika keduanya tidak sinkron, agen bisa beradaptasi pada reward yang salah.
Ketiga, ketika diterapkan pada sistem berskala besar seperti model bahasa, kualitas dan konsistensi annotator manusia menjadi faktor krusial. Preferensi manusia bisa bervariasi, dan ini bisa mempengaruhi arah pembelajaran model secara keseluruhan.
Dari Simulasi ke Dunia Nyata
Setelah makalah ini diterbitkan, pendekatan learning from human preferences menjadi dasar bagi banyak eksperimen lanjutan. OpenAI menggunakannya dalam pelatihan InstructGPT dan ChatGPT, di mana model awal yang dilatih dengan unsupervised learning disempurnakan dengan bantuan manusia melalui RLHF.
RLHF sendiri mengikuti pola serupa, yaitu:
- Model awal menghasilkan respons terhadap prompt.
- Manusia mengevaluasi beberapa respons, memilih mana yang paling baik.
- Reward model dilatih dari data ini.
- Model disempurnakan menggunakan Proximal Policy Optimization (PPO) dengan reward model sebagai panduan.
Hasilnya adalah model yang tidak hanya tahu banyak, tetapi juga tahu bagaimana menjawab dengan cara yang diterima manusia.
Menuju AI yang Selaras dengan Manusia
Salah satu agenda besar dalam pengembangan AGI adalah alignment, yakni memastikan bahwa sistem cerdas bertindak sesuai dengan nilai dan tujuan manusia. Deep Reinforcement Learning from Human Preferences adalah salah satu langkah awal dalam upaya ini, karena mengubah cara kita berpikir tentang bagaimana mesin bisa "mengerti" apa yang kita anggap baik.
Daripada mengandalkan objective function yang kaku, pendekatan ini membuka ruang bagi mesin untuk menyesuaikan diri dengan nilai manusia secara lebih dinamis dan fleksibel. Tidak lagi hanya mengejar skor tertinggi, tetapi mengejar makna yang diberikan oleh manusia.
Simbiosis Manusia dan Mesin
Makalah Christiano et al. ini mengajarkan kita bahwa dalam dunia AI, angka dan algoritma saja tidak cukup. Preferensi manusia, yang selama ini dianggap subjektif dan sulit diukur, ternyata bisa menjadi panduan yang sangat kuat untuk mengarahkan mesin ke perilaku yang kita inginkan.
Dengan pendekatan seperti ini, kita membangun AI bukan sebagai pengganti manusia, tetapi sebagai mitra yang belajar dari kita, yang mendengarkan nilai-nilai kita, dan yang bergerak menuju pemahaman yang lebih dalam tentang dunia manusia.
Bisa jadi, ketika suatu hari kita benar-benar membangun AGI, jejak pertamanya akan tampak dalam preferensi sederhana yang kita berikan di antara dua cuplikan video. Dan dari sana, lahirlah kecerdasan yang memahami bukan hanya apa itu backflip, tetapi juga apa artinya menjadi manusia.