Apa Itu Vision Language Models? Pengertian dan Cara Kerjanya

Rita Puspita Sari
•
20 Mei 2025 21.16 WIB

Dalam dunia kecerdasan buatan (AI), perkembangan teknologi tidak pernah berhenti. Salah satu inovasi terbaru yang mengubah cara kita berinteraksi dengan teknologi adalah Vision Language Models (VLM). VLM adalah bentuk canggih dari AI generatif yang mampu memahami informasi dalam berbagai bentuk teks, gambar, bahkan video. Bayangkan sebuah model AI yang tidak hanya bisa membaca seperti ChatGPT, tetapi juga bisa “melihat” dan memahami isi dari gambar atau video. Inilah kekuatan Vision Language Models.

Artikel ini akan membahas mengenai apa itu VLM, mengapa teknologi ini penting, bagaimana cara kerjanya, proses pelatihannya, hingga bagaimana kinerjanya diukur. Simak sampai selesai ya!

Apa Itu Vision Language Models (VLM)?

Vision Language Models (VLM) adalah model kecerdasan buatan multimodal, artinya model ini bisa memproses dan memahami berbagai jenis data: teks, gambar, dan video. VLM dibangun dari kombinasi dua elemen utama: Large Language Model (LLM) seperti GPT dan vision encoder seperti CLIP. Kombinasi ini memberikan VLM kemampuan untuk tidak hanya memahami bahasa, tetapi juga konteks visual.

Jika selama ini kita mengenal AI seperti ChatGPT yang hanya bisa menerima masukan dalam bentuk teks, maka VLM melangkah lebih jauh. Model ini mampu menerima input berupa gambar atau video dan menghasilkan respons dalam bentuk teks.

Contohnya, kita bisa mengunggah gambar dan bertanya, “Apa yang sedang dilakukan orang ini?” atau “Tolong jelaskan isi poster ini.” VLM akan merespons layaknya manusia yang memahami konteks visual dan bahasa secara bersamaan.

Mengapa Vision Language Models Penting?

Untuk memahami pentingnya VLM, kita perlu membandingkannya dengan teknologi sebelumnya, yaitu model computer vision (CV) tradisional.

Keterbatasan Model Computer Vision Tradisional
Model CV klasik seperti Convolutional Neural Network (CNN) umumnya dilatih untuk satu tugas tertentu dan terbatas pada kelas atau kategori tertentu. Misalnya:

Model klasifikasi gambar hanya bisa membedakan antara gambar kucing atau anjing.
Model Optical Character Recognition (OCR) bisa membaca teks pada gambar, tetapi tidak memahami konteks atau struktur visual dokumen.

Masalah utama dari pendekatan ini adalah kurangnya fleksibilitas. Jika ingin menambahkan kategori atau tugas baru, pengembang harus:

Mengumpulkan ribuan data baru.
Memberi label (annotate) pada gambar.
Melatih ulang model dari awal.

Proses ini memakan waktu, mahal, dan tidak praktis untuk kebutuhan yang cepat berubah.

Lompatan Teknologi Melalui VLM
VLM mengatasi keterbatasan tersebut dengan menggabungkan kemampuan foundation models seperti CLIP (untuk visual) dan LLM (untuk bahasa). Hasilnya, model bisa:

Menjalankan berbagai tugas tanpa pelatihan ulang (dikenal sebagai zero-shot learning).
Menerima perintah dalam natural language.
Memberikan respons berdasarkan input visual dan teks.

Misalnya, pengguna bisa memberikan instruksi seperti:

"Jelaskan gambar ini."
"Hitung berapa orang dalam gambar."
"Apa yang terjadi dalam video ini?"

VLM bisa digunakan seperti LLM dengan menambahkan gambar atau video ke dalam prompt teks. Bahkan, VLM bisa digunakan untuk membuat visual agents yang secara otomatis menyelesaikan tugas-tugas visual, seperti menganalisis CCTV, membaca grafik, atau memahami dokumen bergambar.

Bagaimana Cara Kerja Vision Language Models?

Struktur dasar dari VLM terdiri dari tiga komponen utama:

Vision Encoder
Ini adalah bagian yang bertugas memahami data visual (gambar atau video). Salah satu vision encoder paling populer adalah CLIP dari OpenAI. CLIP dilatih menggunakan jutaan pasangan gambar dan teks, sehingga bisa menghubungkan objek visual dengan deskripsi tekstualnya.

Vision encoder menggunakan arsitektur transformer, teknologi yang juga digunakan dalam GPT dan model bahasa besar lainnya.
Projector
Projector adalah penghubung antara dunia visual dan dunia bahasa. Ia menerjemahkan output dari vision encoder ke dalam format yang bisa dipahami oleh LLM, biasanya dalam bentuk token gambar. Token ini akan diproses bersama teks oleh LLM.

Ada berbagai pendekatan dalam membangun projector:
- Linear projector yang sederhana seperti di model LLaVA dan VILA.
- Cross-attention layer yang lebih kompleks seperti pada Llama 3.2 Vision.
Large Language Model (LLM)
Komponen terakhir adalah LLM model bahasa yang bisa memahami kombinasi teks dan token gambar, lalu menghasilkan output dalam bentuk teks.

Di sinilah pemrosesan bahasa dan logika terjadi, untuk menjawab pertanyaan, menganalisis gambar, atau menyimpulkan isi visual

Bagaimana Vision Language Models Dilatih?

Pelatihan VLM dilakukan dalam beberapa tahap penting agar semua komponen dapat bekerja selaras:

Pretraining (Pelatihan Awal)
Tahap ini bertujuan menyelaraskan vision encoder, projector, dan LLM agar bisa "berkomunikasi." Data pelatihan terdiri dari pasangan gambar-teks dalam jumlah besar, seperti:
- Gambar dengan caption
- Video dengan transkrip
- Dokumen visual seperti brosur atau buku
Pada tahap ini, model belajar mengaitkan elemen visual dengan deskripsi bahasa.
Supervised Fine-Tuning (Pelatihan Lanjutan Terawasi)
Setelah tahap pretraining, model dilatih lagi dengan data yang lebih spesifik untuk belajar bagaimana merespons permintaan pengguna. Contohnya:
- Prompt: “Berapa jumlah mobil dalam gambar ini?”
- Gambar: Foto jalan raya
- Respons yang diharapkan: “Ada 5 mobil di gambar.”
Data pada tahap ini biasanya disusun secara manual dan dikurasi dengan hati-hati agar model memahami instruksi secara tepat.
Parameter Efficient Fine-Tuning (PEFT) — Opsional
Tahap ini digunakan untuk menyesuaikan VLM dengan domain tertentu tanpa melatih ulang seluruh model. Misalnya:
- VLM khusus untuk bidang medis
- VLM untuk analisis dokumen hukum
- VLM untuk inspeksi kualitas produk di manufaktur
Dengan PEFT, model tetap efisien secara komputasi dan bisa digunakan di banyak skenario industri.

Bagaimana Visual Language Model (VLM) Digunakan?

Setelah proses pelatihan selesai, Visual Language Model (VLM) dapat diakses oleh pengguna melalui antarmuka API REST, mirip seperti produk-produk dari OpenAI dan penyedia layanan AI lainnya. Dengan akses ini, pengembang dapat mengintegrasikan VLM ke dalam berbagai aplikasi dan sistem untuk berbagai keperluan, seperti:

Asisten Visual Cerdas: Aplikasi yang dapat menjawab pertanyaan pengguna berdasarkan gambar atau video yang diberikan.
Chatbot Berbasis Gambar: Bot percakapan yang mampu berinteraksi secara kontekstual menggunakan masukan visual.
Penganalisis Data Visual: Alat bantu untuk menafsirkan grafik, chart, atau data visual lainnya secara otomatis.
Pengolah Dokumen Bergambar: Sistem yang dapat memahami dan mengekstrak informasi dari dokumen yang mengandung elemen visual, seperti formulir atau presentasi.

Cara kerjanya sangat sederhana bagi pengguna akhir: mereka hanya perlu mengirimkan prompt (perintah atau pertanyaan) yang menyertakan gambar atau video. VLM kemudian akan memproses masukan tersebut dan memberikan jawaban dalam bentuk teks. Beberapa contoh penggunaan yang umum antara lain:

Mengirim gambar rambu lalu lintas dan meminta penjelasan tentang maknanya.
Mengirim grafik tren pasar dan meminta ringkasan atau interpretasi dari data yang terlihat.
Mengirim tangkapan layar dari aplikasi dan meminta panduan navigasi atau bantuan penggunaan.

Dengan pendekatan ini, VLM memberikan kemudahan interaksi berbasis visual yang sebelumnya tidak mungkin dilakukan oleh model bahasa tradisional.

Arah Penelitian dan Pengembangan VLM ke Depan

Saat ini, VLM masih berada dalam tahap pengembangan aktif. Para peneliti terus mencari cara untuk meningkatkan kapabilitas model, agar dapat menangani berbagai situasi dan jenis data visual dengan lebih baik. Beberapa fokus utama dalam penelitian meliputi:

Menggabungkan beberapa vision encoder: Tujuannya adalah untuk meningkatkan akurasi pemrosesan gambar dengan mengombinasikan kelebihan dari berbagai arsitektur pengenal visual.
Memecah gambar beresolusi tinggi menjadi bagian-bagian kecil (patch) agar lebih mudah dan efisien untuk dianalisis oleh model.
Memperpanjang konteks pemahaman model: Ini penting agar VLM dapat memahami rangkaian gambar atau video berdurasi panjang secara utuh dan konsisten.

Tujuan jangka panjangnya adalah menciptakan model AI yang benar-benar multimodal, yaitu model yang tidak hanya bisa membaca dan melihat, tetapi juga mampu mendengar dan berpikir secara kontekstual, menyerupai cara manusia memahami dunia.

Bagaimana Kinerja VLM Diukur?

Untuk memastikan bahwa VLM bekerja secara optimal, para peneliti menggunakan berbagai tolok ukur atau benchmark standar yang dirancang untuk menguji kemampuan model dalam memahami informasi visual dan menghubungkannya dengan bahasa. Beberapa benchmark terkemuka meliputi:

MMMU (Massive Multimodal Multitask Understanding)
Mengukur kemampuan model dalam memahami materi visual setingkat perguruan tinggi.
Video-MME
Digunakan untuk menilai kecakapan VLM dalam memproses dan menafsirkan isi dari video.
MathVista
Menguji kemampuan pemahaman visual dalam konteks matematika, termasuk grafik dan soal hitungan.
ChartQA
Fokus pada pengujian pemahaman terhadap grafik, chart, dan diagram.
DocVQA (Document Visual Question Answering)
Mengevaluasi kemampuan model dalam menjawab pertanyaan dari dokumen yang mengandung elemen visual seperti tabel, grafik, dan gambar.

Secara umum, benchmark ini terdiri dari tiga komponen utama:

Gambar atau video sebagai masukan.
Pertanyaan pilihan ganda atau terbuka yang mengacu pada konten visual.
Penilaian berdasarkan akurasi jawaban, yang menunjukkan seberapa baik model memahami konteks visual yang diberikan.

Beberapa benchmark juga menilai aspek lain, seperti waktu respons, relevansi jawaban, dan kemampuan generalisasi model terhadap situasi baru.

Pemanfaatan VLM dalam Berbagai Bidang

Salah satu keunggulan utama VLM adalah kemampuannya dalam menyelesaikan beragam tugas kompleks yang sebelumnya memerlukan banyak model AI khusus. Berikut beberapa contoh nyata penggunaan VLM dalam kehidupan sehari-hari dan dunia industri:

Menjawab Pertanyaan Berdasarkan Gambar
Bayangkan Anda sedang mengembangkan aplikasi pendidikan berbasis AI. Siswa mengunggah foto soal matematika yang ditulis tangan, dan sistem bukan hanya bisa membaca soal tersebut, tetapi juga memahami maksudnya dan memberikan panduan langkah demi langkah cara menyelesaikannya. Inilah salah satu kemampuan luar biasa dari VLM.
Merangkum Isi Gambar dan Video
Dengan jutaan gambar dan video yang diproduksi setiap hari, tidak mungkin manusia bisa menelaah semuanya secara manual. Di sinilah VLM menjadi penyelamat. Model ini mampu menganalisis isi dari video dan menyusunnya dalam bentuk ringkasan naratif, menjadikan proses pencarian informasi lebih cepat dan efisien.

Contoh implementasinya antara lain:
- Sistem pengawasan gudang: VLM dapat mendeteksi robot yang mogok atau kerusakan pada jalur produksi.
- Toko retail: Sistem otomatis memberi peringatan saat rak barang terlihat kosong.
- Lalu lintas cerdas: Mengidentifikasi kejadian seperti pohon tumbang, kendaraan mogok, atau kecelakaan lalu lintas dan membuat laporan otomatis.
Pemantauan dan Analisis Aktivitas
Dalam dunia olahraga, VLM dapat dimanfaatkan untuk menghasilkan komentar otomatis berdasarkan aktivitas dalam video pertandingan, baik sepak bola, basket, maupun cabang olahraga lainnya. VLM bisa memahami pergerakan pemain, menganalisis kejadian penting, dan menyusunnya menjadi narasi menarik secara real time.
Analisis Video Berdurasi Panjang
Video berdurasi panjang seringkali berisi banyak informasi penting, namun sulit untuk dianalisis secara menyeluruh oleh manusia. VLM yang terintegrasi dengan teknologi graph database kini mampu memahami alur panjang dari video, mencatat detail objek, waktu, dan peristiwa secara kontekstual.

Contoh penerapannya:
- Merangkum aktivitas di gudang untuk mengidentifikasi hambatan atau ketidakefisienan operasional.
- Menganalisis rekaman CCTV untuk mendeteksi anomali perilaku atau kejadian penting secara otomatis.

Tantangan yang Dihadapi VLM

Meski potensinya besar, pengembangan VLM masih menghadapi sejumlah tantangan teknis dan konseptual. Berikut adalah beberapa tantangan utama:

Keterbatasan Ukuran Input Gambar
Sebagian besar VLM menggunakan encoder gambar berbasis CLIP (Contrastive Language–Image Pre-training) yang hanya mendukung resolusi gambar kecil seperti 224x224 atau 336x336 piksel. Ini menyulitkan dalam mendeteksi detail kecil, terutama pada gambar resolusi tinggi seperti video Full HD (1080x1920). Saat gambar diperkecil, informasi penting bisa hilang.
Solusi:
Pendekatan yang kini digunakan adalah metode tiling yaitu, gambar besar dipecah menjadi beberapa bagian kecil yang bisa diproses satu per satu. Selain itu, peneliti juga sedang mengembangkan image encoder dengan resolusi lebih tinggi.
Pemahaman Spasial Masih Terbatas
Pemahaman spasial, yaitu kemampuan mengenali posisi objek dalam sebuah gambar, masih menjadi tantangan besar. Hal ini terjadi karena data pelatihan CLIP lebih banyak berisi deskripsi gambar (caption) tanpa informasi posisi atau hubungan antar objek.

Solusi:
Pendekatan baru yang sedang dikembangkan mencakup penggunaan multi-vision encoder dan pemanfaatan dataset pelatihan yang mencakup informasi spasial lebih rinci.
Kesulitan Memproses Video Panjang
VLM biasanya hanya bisa memproses sejumlah frame dalam satu waktu. Artinya, untuk video berdurasi panjang, seperti rekaman CCTV selama 24 jam, kemampuan analisis VLM akan sangat terbatas.

Solusi:
Riset seperti LongVILA (Long Video and Language Alignment) sedang dilakukan untuk mengatasi keterbatasan ini, dengan cara memperpanjang konteks yang bisa dipahami oleh model dan menambahkan lebih banyak data pelatihan berbasis video.
Kurangnya Data Domain Spesifik
Dalam beberapa kasus khusus seperti mendeteksi cacat produksi pada lini manufaktur tertentu, VLM bisa kesulitan karena tidak punya cukup data spesifik.

Solusi yang tersedia:
- Fine-tuning: Melatih ulang model dengan data khusus dari industri tertentu.
- In-context learning: Memberikan contoh visual dalam konteks tanpa harus melatih ulang.
- PEFT (Parameter Efficient Fine-Tuning): Melatih ulang bagian tertentu dari model dengan cara yang lebih hemat sumber daya.

Bagaimana Memulai dengan VLM?

Bagi pengembang atau perusahaan yang ingin mengimplementasikan VLM, NVIDIA menyediakan sejumlah alat dan sumber daya yang sangat berguna. Beberapa di antaranya:

NVIDIA NIM™
NVIDIA NIM adalah kumpulan microservices inference siap pakai yang memudahkan penerapan model AI seperti VLM. Fitur-fitur NIM meliputi:
- API standar industri
- Kode khusus sesuai domain (seperti manufaktur atau kesehatan)
- Runtime dan engine inferensi yang sudah dioptimalkan
- Dukungan langsung untuk berbagai use case perusahaan
Dengan menggunakan NIM, pengembang bisa langsung mengakses dan menjalankan VLM untuk berbagai kebutuhan tanpa membangun dari awal.
NVIDIA AI Blueprints
NVIDIA AI Blueprints adalah serangkaian alur kerja referensi untuk aplikasi AI generatif, dibangun menggunakan NVIDIA NIM dan menjadi bagian dari platform NVIDIA AI Enterprise. Salah satu blueprint yang relevan adalah:
- Video search dan summarization agent: Blueprint ini memandu pengembang untuk membuat sistem AI yang bisa menelusuri dan merangkum aktivitas dalam video, baik yang sedang berlangsung (live) maupun yang sudah direkam, dengan memanfaatkan VLM, LLM, dan teknologi RAG (Retrieval-Augmented Generation).

Kesimpulan

Vision Language Models (VLM) adalah lompatan besar dalam dunia kecerdasan buatan. Dengan kemampuan untuk memahami gambar, teks, dan video secara bersamaan, VLM membuka jalan bagi berbagai aplikasi cerdas yang lebih natural dan fleksibel.

Dari dunia pendidikan, kesehatan, industri, hingga layanan konsumen, VLM menghadirkan potensi besar untuk membuat interaksi manusia-mesin lebih intuitif. Dibandingkan model vision atau bahasa konvensional, VLM jauh lebih serbaguna, efisien, dan mampu menangani berbagai jenis tugas tanpa pelatihan ulang.

Dalam beberapa tahun ke depan, kita bisa berharap bahwa VLM akan menjadi bagian integral dari berbagai sistem pintar seperti asisten digital, sistem analitik, hingga robot otonom yang mampu memahami dunia sebagaimana manusia memahaminya.