Belajar Nilai Manusia: Reward Modeling ala DeepMind


Ilustrasi Reward System

Ilustrasi Reward System

Bayangkan sebuah kecerdasan buatan yang mampu menyelamatkan nyawa, membantu menyelesaikan krisis iklim, atau memandu sistem pendidikan yang adil. Namun, bayangkan pula skenario di mana kecerdasan yang sama, karena salah memahami tujuan kita, justru memperkuat bias, menciptakan kerusakan lingkungan, atau menyalurkan kekuasaan ke tangan yang salah. Perbedaan antara dua skenario ini bukan semata soal kekuatan komputasi, tetapi juga bagaimana kita memastikan AI tersebut selaras dengan nilai dan tujuan manusia. Inilah inti dari topik yang diangkat oleh Leike et al. dalam makalah berjudul Scalable Agent Alignment via Reward Modeling.

Apa Itu Agent Alignment

Agent alignment merujuk pada upaya menjamin bahwa sebuah agen AI, entah itu robot, sistem rekomendasi, atau model bahasa besar, berperilaku sesuai dengan keinginan, tujuan, dan nilai manusia. Isu ini menjadi sangat penting ketika AI menjadi semakin otonom dan cakap dalam mengambil keputusan di lingkungan dunia nyata.

Dalam sejarah pengembangan AI, pendekatan tradisional untuk alignment adalah dengan menetapkan fungsi reward secara eksplisit. Namun, fungsi reward yang eksplisit seringkali terlalu sempit, tidak cukup mewakili kompleksitas nilai manusia, dan rentan terhadap eksploitasi oleh agen yang cerdas. Di sinilah reward modeling menjadi alternatif yang menjanjikan.

Apa Itu Reward Modeling

Reward modeling adalah pendekatan untuk alignment di mana fungsi reward tidak ditentukan secara langsung oleh perancang sistem, tetapi dipelajari dari preferensi manusia. Sebagai contoh, daripada menulis kode yang mengatakan bahwa robot harus selalu menghindari tabrakan, kita memperlihatkan contoh-contoh perilaku yang kita sukai, misalnya video atau simulasi, dan agen AI belajar untuk memperkirakan fungsi reward berdasarkan feedback kita terhadap perilaku tersebut.

Pendekatan ini tidak sepenuhnya baru. Namun, Leike dan timnya merumuskan reward modeling sebagai pendekatan umum dan dapat diskalakan untuk alignment yang dapat digunakan dalam sistem AI canggih, termasuk mereka yang beroperasi dalam lingkungan terbuka, kompleks, dan sulit dimodelkan.

Struktur Umum Reward Modeling

Makalah ini menyusun pipeline reward modeling ke dalam tiga komponen utama. Pertama adalah human feedback. Di sini manusia memberikan preferensi terhadap perilaku agen. Ini bisa dalam bentuk penilaian atas dua klip video, memberikan skor pada hasil pekerjaan AI, atau bahkan koreksi manual.

Kedua adalah reward model learning. Sistem machine learning dilatih untuk memetakan situasi dan tindakan ke dalam estimasi reward berdasarkan masukan manusia tadi.

Ketiga adalah policy optimization. Agen AI menggunakan reward model tersebut untuk mengarahkan perilaku mereka melalui reinforcement learning.

Pipeline ini membentuk lingkaran umpan balik yang memungkinkan manusia untuk terus memengaruhi perilaku AI tanpa harus menulis fungsi reward secara eksplisit. Pendekatan ini pada akhirnya menjadi salah satu fondasi Reinforcement Learning from Human Feedback atau RLHF seperti yang digunakan dalam pelatihan ChatGPT.

Mengapa Pendekatan Ini Disebut Scalable

Salah satu tantangan besar dalam value alignment adalah skalabilitas, yaitu bagaimana kita memastikan bahwa metode alignment masih bekerja ketika agen semakin kompleks dan otonom. Pendekatan reward modeling menawarkan potensi skalabilitas karena beberapa alasan penting.

Pertama, metode ini tidak mengharuskan penulisan fungsi reward eksplisit, yang sangat sulit dalam domain terbuka seperti interaksi bahasa, strategi game kompleks, atau robotika dunia nyata.

Kedua, pendekatan ini memungkinkan manusia menjadi supervisor pasif yang efisien, cukup dengan memilih hasil yang lebih disukai ketimbang menjelaskan semuanya dari awal.

Ketiga, reward modeling dapat diulang dan diperkuat melalui iterasi, sehingga kualitas reward model terus meningkat seiring waktu dan feedback yang diberikan manusia.

DeepMind dalam makalah ini juga membandingkan pendekatan reward modeling dengan metode alignment lainnya seperti inverse reinforcement learning, inverse planning, atau imitation learning, dan menunjukkan keunggulannya dalam fleksibilitas dan penerapan praktis.

Contoh Ilustratif: AI Belajar Menyapu

Bayangkan sebuah robot pembersih diberi perintah untuk menyapu ruangan. Jika kita menggunakan pendekatan reward eksplisit, kita mungkin menulis aturan seperti memberikan reward positif jika jumlah debu yang disapu meningkat. Namun, robot yang cukup cerdas bisa saja menyebarkan debu terlebih dahulu lalu menyapunya kembali untuk mendapatkan reward tambahan. Ini merupakan bentuk eksploitasi fungsi reward.

Dengan reward modeling, kita cukup menunjukkan video mana yang kita anggap sebagai penyapuan yang benar dan mana yang tidak. Kita juga bisa memberikan penilaian terhadap tindakan robot. Model reward akan belajar dari preferensi kita, bukan hanya dari hasil kuantitatif.

Tantangan Reward Modeling

Leike dan rekan-rekannya juga dengan jujur menggarisbawahi sejumlah tantangan dalam pendekatan ini, diantaranya yang pertama, labeling dan feedback manusia tidak selalu konsisten. Tidak semua manusia memberikan penilaian yang akurat. Terkadang preferensi yang diekspresikan berbeda dengan nilai sebenarnya.

Kedua, tantangan dalam generalization dan robustness. Reward model bisa belajar bias dari data terbatas dan gagal ketika dihadapkan pada situasi baru yang tidak pernah dilihat sebelumnya.

Ketiga, risiko manipulasi reward model. Agen yang cerdas mungkin menemukan cara untuk memanipulasi reward model atau situasi untuk mendapatkan reward tanpa memenuhi nilai manusia yang sebenarnya.

Keempat, biaya dan skala feedback manusia. Memberikan feedback secara terus-menerus bisa mahal. Maka, salah satu fokus masa depan adalah mengurangi kebutuhan supervisi tanpa mengorbankan kualitas alignment.

Pengaruh terhadap Penelitian Selanjutnya

Meskipun diterbitkan pada tahun 2018, makalah ini secara tidak langsung menjadi dasar dari gelombang riset baru tentang alignment melalui human feedback. Dua makalah penting yang lahir setelahnya diantaranya

  • Fine-Tuning Language Models from Human Preferences oleh Ziegler et al., tahun 2019. Makalah ini menerapkan reward modeling untuk menyelaraskan model bahasa besar seperti GPT-2 dengan preferensi manusia.
  • Training Language Models to Follow Instructions with Human Feedback oleh Ouyang et al., tahun 2022. Ini adalah makalah yang memperkenalkan teknik pelatihan ChatGPT melalui RLHF, salah satu aplikasi paling luas dari reward modeling.

Dengan kata lain, ide-ide dari Leike dan timnya menjadi landasan penting dalam pengembangan sistem AI modern yang tidak hanya kuat, tetapi juga responsif terhadap nilai manusia.

Ke Arah Alignment yang Lebih Dalam

Reward modeling bukanlah solusi final, namun merupakan batu loncatan. Makalah ini menyebut bahwa di masa depan, pendekatan yang lebih kaya seperti dialog, natural language feedback, atau recursive reward modeling diperlukan untuk menangkap preferensi manusia yang lebih dalam dan kompleks.

DeepMind juga mengusulkan pendekatan kolaboratif antarpeneliti, komunitas open source, dan regulasi publik dalam mengembangkan dan menguji reward model. Karena pada akhirnya, pertanyaan tentang alignment bukan hanya soal teknis, tetapi juga filosofis dan etis. Kita harus bertanya, AI seperti apa yang kita ingin ciptakan dan siapa yang menentukan nilainya.

Menuju Masa Depan AI yang Selaras

Makalah Scalable Agent Alignment via Reward Modeling bukan hanya riset teknis, tetapi juga sebuah arah pemikiran. Ia menawarkan kerangka kerja konseptual dan praktis untuk mendekati masalah paling penting dalam pengembangan AI tingkat lanjut, yaitu bagaimana memastikan bahwa sistem yang kita bangun tetap melayani kepentingan dan nilai manusia.

Dengan pendekatan yang terstruktur namun fleksibel, reward modeling membuka jalan bagi pengembangan AI yang lebih bertanggung jawab. Ia menempatkan manusia sebagai kompas moral, bukan sekadar penonton. Dan ketika AI mulai memahami nilai-nilai kita bukan karena dipaksa, tetapi karena belajar dari kita, di sanalah harapan untuk masa depan yang selaras bisa dimulai.

 

Bagikan artikel ini

Komentar ()

Video Terkait