Apa Itu RLHF? Pengertian dan Cara Kerjanya
- Rita Puspita Sari
- •
- 05 Jun 2025 21.14 WIB

Ilustrasi Artificial Intelligence
Dalam dunia kecerdasan buatan (AI) yang terus berkembang, kemampuan mesin untuk memahami dan menyesuaikan diri terhadap manusia menjadi semakin penting. Salah satu teknik terbaru dan paling menjanjikan untuk mengembangkan AI yang lebih manusiawi adalah Reinforcement Learning from Human Feedback (RLHF).
Tapi, apa sebenarnya RLHF itu? Mengapa teknik ini begitu penting dalam pengembangan model AI modern seperti ChatGPT? Mari kita bahas secara lengkap, dalam bahasa yang mudah dipahami.
Apa Itu RLHF?
Reinforcement Learning from Human Feedback (RLHF) adalah pendekatan dalam machine learning yang menggabungkan reinforcement learning (pembelajaran penguatan) dengan umpan balik dari manusia. Dalam teknik ini, manusia memberikan penilaian terhadap perilaku AI. Umpan balik itu kemudian digunakan untuk melatih sebuah model penghargaan (reward model), yang berfungsi sebagai "penilai" untuk mengarahkan pembelajaran agen AI lebih lanjut.
RLHF sangat cocok untuk tugas-tugas yang sifatnya subjektif atau sulit didefinisikan secara matematis. Misalnya, bagaimana cara mendefinisikan "lucu" dalam kode? Algoritma biasa akan kesulitan, tapi manusia bisa langsung tahu apakah sebuah lelucon lucu atau tidak. Penilaian manusia ini kemudian dikodekan menjadi sinyal penghargaan (reward signal), yang digunakan untuk melatih AI agar lebih peka terhadap selera atau preferensi manusia.
Teknik ini telah terbukti efektif dalam berbagai aplikasi kompleks, mulai dari bermain game hingga menggerakkan robot, bahkan digunakan dalam pelatihan model bahasa besar seperti ChatGPT.
Asal Usul RLHF
Konsep RLHF mulai mendapatkan perhatian luas sejak tahun 2017, ketika Paul F. Christiano dan tim dari OpenAI serta DeepMind menerbitkan makalah yang menjelaskan bagaimana AI dapat dilatih untuk menyelesaikan tugas kompleks melalui umpan balik manusia. Mereka menunjukkan bahwa AI dapat belajar melakukan tugas-tugas yang sebelumnya dianggap mustahil, seperti bermain game Atari atau mengendalikan robot secara simulatif, hanya dengan mengandalkan penilaian manusia.
Pada tahun 2019, OpenAI melangkah lebih jauh dengan melatih sistem AI bernama OpenAI Five untuk bermain Dota 2 dan AlphaStar dari DeepMind untuk StarCraft II. Kedua sistem ini sukses mengalahkan pemain profesional terbaik, menunjukkan kekuatan nyata dari RLHF.
Titik balik besar lainnya adalah ketika OpenAI merilis InstructGPT pada tahun 2022. Model ini menjadi versi awal dari ChatGPT dan membuktikan bahwa AI yang dilatih dengan RLHF dapat memberikan jawaban yang lebih akurat, relevan, dan sesuai konteks manusia.
Cara Kerja Reinforcement Learning
Sebelum memahami bagaimana RLHF bekerja secara spesifik, kita perlu memahami dasar dari Reinforcement Learning (RL) itu sendiri.
RL adalah metode di mana agen (AI) belajar dari pengalaman. Proses ini mirip seperti manusia belajar dari kesalahan dan keberhasilan: coba-coba (trial and error), lalu diperbaiki berdasarkan hasilnya. AI diberi “hadiah” atau “hukuman” tergantung dari tindakannya, sehingga ia bisa mengetahui strategi terbaik.
Komponen utama dalam RL mencakup:
- State Space (Ruang Keadaan)
Merupakan semua informasi yang tersedia tentang situasi saat ini. Misalnya, posisi karakter dalam game atau isi percakapan dalam chatbot. Keadaan ini akan berubah sesuai dengan tindakan yang dilakukan AI. - Action Space (Ruang Aksi)
Adalah semua tindakan yang bisa dilakukan AI. Dalam game catur, ruang aksinya terbatas, misalnya hanya bisa memindahkan pion atau benteng. Tapi dalam model bahasa seperti ChatGPT, ruang aksinya sangat besar karena mencakup semua kata dalam kosakata. - Reward Function (Fungsi Penghargaan)
Reward digunakan untuk memberi tahu AI apakah tindakannya benar atau salah. Dalam game, reward bisa berupa skor kemenangan. Tapi dalam tugas-tugas yang lebih abstrak, seperti menjawab pertanyaan atau menulis lelucon, sulit menentukan reward yang objektif. Di sinilah umpan balik manusia menjadi sangat berharga. - Constraints (Kendala)
AI juga bisa diberi penalti (hukuman) jika melakukan kesalahan, seperti menggunakan bahasa kasar atau menabrak objek (dalam kasus mobil otonom). - Policy (Kebijakan)
Ini adalah strategi AI untuk menentukan tindakan yang akan diambil berdasarkan keadaan tertentu. Dalam RL, policy dilatih agar bisa menghasilkan reward maksimal.
Mengapa RL Konvensional Tidak Cukup?
Meski reinforcement learning telah menghasilkan banyak pencapaian hebat, ia memiliki satu kelemahan besar: tidak cocok untuk tugas-tugas yang tidak bisa didefinisikan secara matematis.
Misalnya, bagaimana cara kita menjelaskan secara kode bahwa sebuah jawaban AI "bermanfaat", atau "berempati"? Dalam hal seperti ini, hanya manusia yang bisa memberikan penilaian yang masuk akal. Itulah mengapa RLHF sangat penting, karena ia memungkinkan AI belajar dari nilai-nilai manusia yang bersifat subjektif dan kontekstual.
RLHF dalam Large Language Models (LLM)
Salah satu bidang yang paling diuntungkan dari RLHF adalah pengembangan Large Language Models (LLM) seperti ChatGPT, Claude, atau Bard.
Model bahasa bekerja dengan menebak kata berikutnya dalam suatu teks berdasarkan data latihannya. Tapi, hanya bisa menebak kata berikutnya tidak berarti model tersebut memahami maksud manusia.
Masalah dalam LLM Konvensional:
- Sulit memahami konteks pengguna tanpa instruksi yang sangat spesifik.
- Cenderung menghasilkan jawaban yang "benar secara tata bahasa" tapi "salah secara makna".
- Tidak memiliki penilaian moral atau nilai—sehingga bisa menghasilkan teks berbahaya atau tidak etis.
Solusi dari RLHF:
RLHF membantu LLM menghasilkan jawaban yang lebih relevan, masuk akal, dan sesuai dengan harapan manusia. Ketika manusia memberikan penilaian terhadap beberapa kemungkinan jawaban, model penghargaan bisa dilatih berdasarkan preferensi manusia tersebut.
Misalnya, jika ada tiga jawaban untuk pertanyaan, dan penilai manusia memilih satu yang paling tepat, maka AI belajar bahwa pola jawaban seperti itulah yang harus diikuti.
Model seperti InstructGPT (yang menjadi dasar dari ChatGPT) terbukti jauh lebih baik daripada GPT-3, meskipun memiliki parameter lebih sedikit. Bahkan, penelitian OpenAI menunjukkan bahwa model yang dilatih dengan RLHF lebih disukai manusia dibandingkan model dengan kapasitas lebih besar tapi tanpa RLHF.
Cara Kerja dan Reinforcement Learning from Human Feedback dalam Melatih Kecerdasan Buatan
RLHF adalah proses pelatihan lanjutan untuk model bahasa besar yang sudah dilatih sebelumnya. Alih-alih membangun dari nol, metode ini menyempurnakan model yang sudah memiliki pengetahuan dasar, agar lebih baik dalam memahami, merespons, dan berinteraksi dengan pengguna sesuai harapan manusia.
RLHF menjadi sangat penting karena meskipun LLM seperti GPT-3 memiliki kemampuan luar biasa, respons yang dihasilkannya belum tentu selalu sesuai konteks, relevan, atau bermanfaat. Misalnya, saat kita meminta AI untuk menjelaskan cara membuat CV, model mungkin hanya memberikan jawaban teknis seperti “gunakan Microsoft Word,” tanpa benar-benar membantu menyusun isi CV yang baik.
Dengan RLHF, model bisa “belajar” dari preferensi manusia sehingga responsnya tidak hanya benar secara teknis, tetapi juga relevan secara praktis.
Empat Tahap Utama dalam RLHF
- Proses RLHF terdiri dari empat tahap utama, yaitu:
- Pra-pelatihan Model (Pre-training)
- Fine-tuning Terawasi (Supervised Fine-Tuning)
- Pelatihan Model Reward (Reward Model Training)
- Optimisasi Kebijakan (Policy Optimization)
Mari kita bahas masing-masing tahap secara lebih mendalam.
- Pra-pelatihan Model: Fondasi Awal dari Segalanya
Tahap pertama ini adalah tahap yang paling memakan sumber daya, baik dalam bentuk komputasi maupun data. Model seperti GPT-3 dilatih terlebih dahulu dengan miliaran kata dari internet untuk membangun pemahaman dasar tentang bahasa. Proses ini bertujuan agar model bisa “belajar” pola-pola bahasa dan konteks.Namun, hasil dari pra-pelatihan ini bersifat netral dan generik. Model hanya dilatih untuk menyelesaikan kalimat, bukan untuk menyesuaikan diri dengan keinginan pengguna. Itulah mengapa model yang sudah dilatih ini masih perlu disempurnakan agar lebih “manusiawi.”
RLHF masuk setelah model ini selesai dilatih. OpenAI menjelaskan bahwa RLHF membantu membuka kemampuan tersembunyi dalam GPT-3—kemampuan yang sebenarnya sudah ada, tapi sulit dimanfaatkan hanya dengan teknik seperti prompt engineering.
Menariknya, meski tahap pra-pelatihan sangat berat, proses RLHF justru hanya menggunakan kurang dari 2% komputasi dan data yang digunakan untuk melatih GPT-3. Artinya, penguatan melalui umpan balik manusia adalah proses ringan tetapi sangat efektif.
-
Fine-tuning Terawasi: Menyesuaikan Output dengan Harapan Pengguna
Setelah model dasar selesai, tahap selanjutnya adalah Supervised Fine-Tuning (SFT). Di sini, model dilatih ulang dengan data yang telah dikurasi oleh manusia. Data ini berupa pasangan prompt (perintah) dan respons (jawaban) yang sesuai dengan tujuan pengguna.Tujuan dari SFT adalah agar model dapat memberikan jawaban yang sesuai dengan konteks dan harapan manusia. Jika sebelumnya model menjawab pertanyaan secara acak atau kurang relevan, melalui SFT model belajar bagaimana cara merespons secara lebih bijak, spesifik, dan bermanfaat.
Contoh data yang digunakan misalnya:
- Prompt: “Bagaimana cara membuat CV yang menarik untuk HRD?”
- Respons: “Mulailah dengan ringkasan profil, cantumkan pencapaian, dan gunakan format profesional dengan bahasa yang sopan.”
Pembuatan dataset seperti ini tentu membutuhkan keterlibatan manusia secara langsung, dan karena itu memakan banyak waktu dan biaya. Untuk efisiensi, beberapa pihak seperti DeepMind menggunakan metode semi-otomatis dengan memilih contoh-contoh dari dialog atau wawancara publik untuk membuat pasangan prompt dan respons.
-
Pelatihan Model Reward: Menerjemahkan Preferensi Manusia Menjadi Angka
Ini adalah tahap yang sangat penting dan sekaligus menantang. Reward model bertugas menerjemahkan preferensi manusia yang bersifat subjektif menjadi sinyal numerik yang bisa dipahami oleh mesin. Dengan kata lain, model reward memberi tahu model utama apakah respons yang dihasilkannya bagus atau tidak.Namun, menilai kualitas jawaban AI tidak sesederhana memberi skor 1 hingga 10. Penilaian seperti ini rawan bias, tidak konsisten, dan sulit untuk dikalibrasi. Solusinya adalah menggunakan metode perbandingan: manusia diminta membandingkan dua respons dari model terhadap prompt yang sama, lalu memilih mana yang lebih baik.
Contoh:
- Prompt: “Apa itu kecerdasan buatan?”
- Jawaban A: “Kecerdasan buatan adalah robot yang berpikir.”
- Jawaban B: “Kecerdasan buatan adalah bidang ilmu komputer yang fokus pada pembuatan sistem cerdas yang dapat meniru kemampuan kognitif manusia.”
Jika manusia memilih jawaban B, maka model reward akan mempelajari preferensi tersebut dan menetapkannya sebagai respons yang lebih baik. Dari banyak perbandingan ini, dibuat sistem peringkat—bisa menggunakan model seperti sistem Elo dalam permainan catur—untuk mengukur kualitas respons.
Sinyal inilah yang kemudian digunakan untuk melatih model utama agar lebih selaras dengan preferensi manusia.
-
Optimisasi Kebijakan: Memperbaiki Model Tanpa Merusak Stabilitas
Tahap terakhir dalam RLHF adalah proses yang disebut Policy Optimization yaitu menyempurnakan “cara berpikir” model berdasarkan sinyal reward yang sudah didapat. Salah satu algoritma yang paling sering digunakan dalam tahap ini adalah Proximal Policy Optimization (PPO).Berbeda dengan pelatihan standar yang berusaha meminimalkan kesalahan, PPO justru bekerja untuk memaksimalkan reward. Namun, jika dibiarkan tanpa batasan, model bisa “terlalu bersemangat” mengejar reward hingga memberikan jawaban aneh atau bahkan menyesatkan.
PPO mencegah hal ini dengan membatasi seberapa besar perubahan yang diizinkan dalam setiap siklus pelatihan. Misalnya, jika model A memiliki probabilitas tertentu dalam memilih respons, maka model B (hasil update) tidak boleh terlalu menyimpang dari nilai itu. Jika terlalu jauh, perubahan akan “dipotong” (clipped) agar tidak merusak stabilitas model.
Karena efisiensinya, PPO kini menjadi pilihan utama dibandingkan algoritma lama seperti TRPO (Trust Region Policy Optimization) yang lebih kompleks dan boros. Ada juga metode lain seperti A2C (Advantage Actor-Critic), namun PPO sering dianggap paling praktis.
Mengapa RLHF Sangat Penting dalam Perkembangan AI?
RLHF bukan hanya tentang membuat model lebih pintar, tetapi juga lebih manusiawi. Proses ini memungkinkan AI untuk:
- Memberikan jawaban yang lebih relevan, sopan, dan etis
- Memahami maksud pengguna secara lebih akurat
- Menghindari kesalahan fatal atau respons berbahaya
- Beradaptasi dengan nilai dan norma sosial
Dengan kata lain, RLHF menjembatani kesenjangan antara kemampuan teknis AI dan ekspektasi manusia dalam interaksi sehari-hari.
Kelebihan RLHF
Berikut beberapa keunggulan utama dari penggunaan RLHF:
- Menangkap Preferensi Manusia
RLHF memungkinkan AI memahami hal-hal yang tidak bisa didefinisikan secara eksplisit, seperti kreativitas, humor, empati, dan kesopanan. - Meningkatkan Akurasi Jawaban
Dengan pelatihan menggunakan umpan balik manusia, AI menjadi lebih andal dalam menjawab pertanyaan dengan benar dan masuk akal. - Menghindari Halusinasi AI
Halusinasi adalah saat AI memberikan informasi salah yang terdengar benar. RLHF membantu mengurangi fenomena ini dengan memperkuat jawaban yang faktual dan relevan. - Lebih Efisien dalam Skala
OpenAI menemukan bahwa RLHF mengurangi kebutuhan akan data pelatihan dalam jumlah besar. Dengan intervensi manusia yang cermat, hasil pelatihan bisa lebih efektif meski modelnya lebih kecil.
Keterbatasan RLHF: Ketika Umpan Balik Manusia Tidak Selalu Ideal
Model Reinforcement Learning from Human Feedback (RLHF) merupakan salah satu metode paling menjanjikan dalam pelatihan kecerdasan buatan (AI). Dengan pendekatan ini, AI dapat belajar dari preferensi manusia untuk meningkatkan performanya dalam berbagai tugas, mulai dari robotika, video game, hingga natural language processing (NLP). Namun, meskipun terbukti efektif, RLHF ternyata masih memiliki sejumlah keterbatasan yang cukup signifikan.
-
Data Umpan Balik Manusia Itu Mahal
Salah satu tantangan utama dari RLHF adalah tingginya biaya dalam mengumpulkan masukan langsung dari manusia. Proses ini memerlukan waktu, tenaga, dan sumber daya yang besar, apalagi jika ingin dilakukan dalam skala besar. Semakin kompleks tugas AI-nya, semakin mahal pula biaya pelatihannya.Sebagai solusi, beberapa perusahaan teknologi besar seperti Anthropic dan Google mulai mengembangkan pendekatan alternatif bernama Reinforcement Learning from AI Feedback (RLAIF). Dalam metode ini, sebagian atau seluruh masukan manusia digantikan oleh penilaian dari model AI lainnya, seperti large language model (LLM). Menariknya, hasil pelatihan dengan RLAIF ini ternyata cukup sebanding dengan RLHF konvensional, meskipun tidak sepenuhnya menggantikan peran manusia.
-
Umpan Balik Manusia Bersifat Subjektif
Satu hal yang perlu diakui adalah bahwa tidak ada standar mutlak dalam menilai kualitas output AI. Penilaian dari manusia sangat tergantung pada sudut pandang dan pengalaman masing-masing individu. Bahkan dalam hal-hal yang kelihatannya objektif, seperti fakta, bisa saja muncul perbedaan pendapat.Misalnya, bagaimana cara AI merespons pertanyaan sensitif atau menyampaikan informasi yang berpotensi menyinggung, semua itu tergantung pada nilai dan budaya penilai. Akibatnya, konsistensi dalam pelatihan model bisa terganggu, karena tidak ada tolok ukur universal tentang apa yang disebut “jawaban terbaik”.
-
Risiko Kesalahan dan Niat Buruk dari Penilai Manusia
Umpan balik manusia tidak selalu dapat diandalkan. Manusia bisa saja salah dalam menilai, atau bahkan memberikan masukan yang disengaja untuk menjebak sistem dikenal dengan istilah trolling. Fenomena ini semakin sering terjadi seiring meningkatnya interaksi antara manusia dan AI.Dalam sebuah makalah tahun 2016, Wolf dan koleganya menyebut bahwa perilaku toksik dari manusia adalah sesuatu yang tak terhindarkan dalam pelatihan AI. Maka, perlu ada sistem yang bisa membedakan antara umpan balik yang bermanfaat dan yang merusak.
Sebagai tanggapan, pada tahun 2022, Meta AI merilis penelitian tentang masukan manusia yang bersifat merusak atau tidak tulus (adversarial input). Penelitian ini membahas bagaimana AI dapat dilatih untuk mengenali dan menghindari masukan berbahaya, sekaligus memaksimalkan pembelajaran dari data berkualitas tinggi. Mereka juga mengidentifikasi berbagai jenis “troll” dan taktik manipulasi yang mereka gunakan dalam proses pelatihan AI.
-
Risiko Overfitting dan Bias
Keterbatasan lainnya dari RLHF adalah kemungkinan model mengalami overfitting terhadap kelompok atau opini tertentu. Jika data pelatihan hanya berasal dari sekelompok orang dengan latar belakang atau pandangan yang seragam, maka hasilnya bisa jadi model AI yang bias, tidak inklusif, dan tidak mewakili keragaman pengguna.Contohnya, jika sebagian besar penilai berasal dari satu budaya atau kelompok usia tertentu, model AI bisa kesulitan beradaptasi ketika digunakan oleh pengguna dari budaya atau usia yang berbeda. Bias semacam ini dapat merusak kepercayaan publik terhadap AI, apalagi jika output-nya dianggap tidak adil atau diskriminatif.
Kesimpulan:
Reinforcement Learning from Human Feedback (RLHF) telah menjadi pendekatan revolusioner dalam pengembangan kecerdasan buatan, khususnya untuk model bahasa besar seperti ChatGPT.
Dengan memadukan kekuatan pembelajaran penguatan dan preferensi manusia, RLHF mampu menghasilkan AI yang tidak hanya cerdas, tetapi juga lebih etis, relevan, dan sesuai dengan kebutuhan pengguna.
Pendekatan ini membuka jalan bagi masa depan AI yang lebih bertanggung jawab, akurat, dan mudah diandalkan dalam berbagai konteks penggunaan.