Saat Model Mulai Mengerti: Kisah GPT-3 dan RLHF
- Mutiara Aisyah
- •
- 5 jam yang lalu

Ilustrasi Training LM
Ketika ChatGPT pertama kali diluncurkan ke publik pada akhir tahun 2022, banyak yang terkesima oleh betapa "manusiawi" caranya dalam merespons. Ia mampu menjawab pertanyaan teknis, membuat lelucon, menulis puisi, hingga memberikan saran hidup yang terasa personal. Namun, di balik kemampuannya tersebut, terdapat tonggak penting dalam sejarah pengembangan kecerdasan buatan yang sering luput dari perhatian publik, yaitu paper Training Language Models to Follow Instructions with Human Feedback yang ditulis oleh Long Ouyang dan tim dari OpenAI.
Paper ini menjelaskan bagaimana GPT-3, model bahasa besar yang awalnya hanya dilatih untuk menyelesaikan tugas umum dalam bahasa, berhasil dipoles menjadi model yang lebih patuh terhadap instruksi, lebih kooperatif, dan terasa alami ketika digunakan dalam percakapan. Metode yang digunakan dikenal sebagai Reinforcement Learning from Human Feedback atau disingkat RLHF.
Mari kita telusuri bagaimana pendekatan ini mengubah GPT-3 menjadi model yang tidak sekadar memprediksi kata berikutnya, melainkan juga memahami manusia dan menyesuaikan diri dengan maksud pengguna.
Mengapa GPT-3 Perlu Diajari Mengikuti Instruksi?
GPT-3, sebagai model bahasa besar, pada dasarnya dilatih untuk menyelesaikan tugas prediksi teks. Ia belajar dari triliunan kata yang tersebar di internet dan berusaha mengenali pola dalam bahasa manusia. Namun, satu hal penting yang tidak secara otomatis dipelajari adalah bagaimana merespons instruksi dengan tepat.
Sebagai contoh, jika seseorang memberikan perintah seperti “Jelaskan mengapa langit berwarna biru,” GPT-3 bisa saja menjawab dengan penjelasan ilmiah, bisa juga memberikan informasi acak yang tidak relevan. Hal ini terjadi karena GPT-3 awalnya tidak diajarkan untuk memahami niat manusia, melainkan hanya dilatih untuk meneruskan potongan teks berdasarkan kebiasaan dalam data.
Tim di OpenAI kemudian menyadari bahwa untuk membuat model lebih berguna dalam interaksi sehari-hari dengan manusia, dibutuhkan pendekatan baru yang melibatkan pemahaman terhadap maksud atau niat pengguna. Di sinilah metode RLHF mulai memainkan peran penting.
Apa Itu RLHF dan Mengapa Ini Penting?
Reinforcement Learning from Human Feedback adalah pendekatan yang menggabungkan teknik pembelajaran mesin tradisional dengan evaluasi langsung dari manusia. Tujuannya adalah membuat model AI tidak hanya pintar secara statistik, tetapi juga mampu menyesuaikan responsnya dengan ekspektasi manusia dalam konteks percakapan.
Proses RLHF dilakukan dalam tiga tahap utama. Pertama, dilakukan pelatihan model menggunakan contoh instruksi dan respons manusia secara langsung, dikenal sebagai Supervised Fine-Tuning. Kedua, dibuat sebuah model evaluasi atau Reward Model yang mampu menilai kualitas respons berdasarkan preferensi manusia. Ketiga, GPT-3 dilatih ulang menggunakan metode Reinforcement Learning, khususnya algoritma Proximal Policy Optimization atau PPO, dengan bimbingan dari reward model tersebut.
Dengan pendekatan ini, GPT-3 tidak lagi belajar dari data semata. Ia juga belajar untuk memberikan jawaban yang disukai oleh manusia. Ini menciptakan transisi besar dari model yang hanya menebak, menjadi model yang mampu berdialog secara adaptif.
Tahap Pertama: Fine-Tuning Terawasi
Langkah awal dalam proses ini adalah memberikan GPT-3 sejumlah contoh eksplisit tentang bagaimana menjawab instruksi dengan benar dan sesuai harapan. Tim peneliti mengumpulkan ratusan contoh pasangan antara perintah dan jawaban yang ditulis oleh manusia. Misalnya:
- Instruksi: "Buatkan tweet lucu tentang kucing."
- Respons: "Kucing saya baru saja menatap laptop saya selama 10 menit. Sepertinya dia ikut kerja dari rumah juga."
Dengan melatih model menggunakan contoh-contoh seperti ini, GPT-3 mulai memahami format instruksi dan gaya jawaban yang diharapkan. Model menjadi lebih peka terhadap konteks perintah, namun karena jumlah datanya terbatas, respons yang dihasilkan masih belum selalu konsisten.
Oleh karena itu, diperlukan tahap berikutnya agar model benar-benar mengerti seperti apa jawaban yang baik dan disukai oleh pengguna manusia.
Tahap Kedua: Membuat Reward Model
Agar GPT-3 bisa belajar dari preferensi manusia, dibutuhkan cara untuk menilai kualitas jawaban. Untuk itu, tim peneliti membangun sebuah reward model. Model ini dilatih berdasarkan penilaian manusia atas beberapa jawaban alternatif yang dihasilkan GPT-3.
Dalam proses ini, dua jawaban untuk satu instruksi diberikan kepada penilai manusia. Misalnya:
- Instruksi: "Jelaskan mengapa tidur cukup itu penting."
- Jawaban A: Panjang, tetapi tidak fokus.
- Jawaban B: Singkat, jelas, dan relevan.
Penilai manusia akan memilih jawaban B sebagai lebih baik. Dari ribuan pasangan seperti ini, reward model dilatih agar mampu menilai respons secara otomatis berdasarkan pola preferensi manusia yang telah diamati.
Reward model inilah yang kemudian menjadi panduan bagi GPT-3 dalam tahap pelatihan selanjutnya. Dengan kata lain, reward model berfungsi sebagai kompas untuk mengarahkan GPT-3 ke arah jawaban yang dinilai lebih baik.
Tahap Ketiga: Pelatihan dengan Reinforcement Learning
Tahap akhir dari proses RLHF adalah melatih GPT-3 menggunakan reinforcement learning. Dengan menggunakan reward model sebagai penilai, GPT-3 diuji menghasilkan berbagai jawaban terhadap instruksi yang diberikan, lalu menerima umpan balik dalam bentuk skor.
GPT-3 menggunakan skor ini untuk memperbarui strateginya dalam merespons instruksi. Teknik yang digunakan dalam proses ini adalah Proximal Policy Optimization (PPO), salah satu metode populer dalam reinforcement learning karena stabilitas dan efisiensinya.
Dengan proses yang diulang ribuan kali, GPT-3 akhirnya belajar memberikan respons yang tidak hanya benar secara isi, tetapi juga sesuai dengan ekspektasi pengguna. Ia belajar menjadi model yang lebih sopan, lebih fokus, dan lebih menyenangkan untuk diajak berbincang.
Hasil Akhir: ChatGPT
Dari keseluruhan proses ini, lahirlah bentuk baru dari GPT-3 yang telah dioptimalkan untuk interaksi. Model ini kemudian dikenal oleh publik sebagai ChatGPT.
ChatGPT adalah representasi konkret dari hasil riset dalam paper ini. Ia mampu merespons instruksi dengan cara yang tidak hanya informatif, tetapi juga kontekstual dan manusiawi. Ia bisa menyesuaikan gaya bahasa, menyaring topik sensitif, serta mengatur panjang jawaban sesuai dengan kebutuhan pengguna.
Banyak fitur yang kita nikmati saat menggunakan ChatGPT hari ini, seperti kemampuan menjawab pertanyaan dengan rapi, menyesuaikan gaya bicara, atau memahami instruksi kompleks, berasal dari keberhasilan metode RLHF ini.
Mengapa Pendekatan Ini Menjadi Tonggak Sejarah?
Ada beberapa alasan mengapa pendekatan RLHF yang dijelaskan dalam paper ini menjadi titik balik penting dalam dunia AI:
1. Penyesuaian terhadap manusia
Model tidak hanya dilatih dengan data besar, tetapi juga diarahkan agar lebih peka terhadap nilai-nilai manusia dan cara manusia berkomunikasi.
2. Keamanan dan kontrol
Dengan adanya reward model yang dilatih berdasarkan preferensi manusia, OpenAI dapat mengurangi kemungkinan model menghasilkan jawaban yang tidak etis, bias, atau berbahaya.
3. Kualitas interaksi
Respons yang dihasilkan terasa lebih alami, relevan, dan menyenangkan. Model menjadi mitra percakapan yang dapat diandalkan.
Tantangan yang Masih Ada
Meskipun berhasil secara teknis, metode RLHF juga menyisakan sejumlah tantangan diantaranya pertama, bias dari penilai manusia dapat tertanam dalam reward model, sehingga perlu ada diversifikasi dalam pengambilan sampel. Kedua, proses pengumpulan data evaluasi dari manusia membutuhkan biaya dan waktu yang tidak sedikit. Ketiga, teknik reinforcement learning yang digunakan bisa menyebabkan hasil yang terlalu terkonsentrasi pada jenis respons tertentu, mengurangi keragaman.
Namun demikian, semua tantangan ini sedang aktif ditangani melalui penelitian lanjutan, seperti pengembangan preference optimization dan fine-tuning berbasis alignment.
Masa Depan Interaksi Manusia dan AI
Paper penelitian dengan judul Training Language Models to Follow Instructions with Human Feedback adalah penanda penting bahwa kita tengah beralih dari sekadar membangun mesin yang cerdas secara statistik, menuju membentuk sistem AI yang mampu memahami dan menghormati manusia.
GPT-3 yang dilatih dengan pendekatan RLHF tidak hanya belajar menyusun kata, tetapi juga belajar membaca maksud, mempertimbangkan etika, dan menjawab dengan empati. Ini adalah langkah awal dari visi AI yang selaras dengan nilai-nilai manusia dan berguna dalam kehidupan nyata.
Di masa depan, pendekatan seperti ini akan terus menjadi fondasi pengembangan sistem AI yang lebih aman, lebih inklusif, dan lebih mampu menjadi mitra manusia, bukan hanya alat digital.
Jika Anda ingin membaca paper aslinya, Anda dapat mengaksesnya pada https://arxiv.org/abs/2203.02155