OpenAI Luncurkan Sora: Mampu Ciptakan Video Berdasarkan Teks

Rita Puspita Sari
•
16 Feb 2024 11.31 WIB

Logo OpenAI

OpenAI, perusahaan terkenal dalam pengembangan kecerdasan buatan, telah merilis model terbarunya yang diberi nama Sora pada Jumat, 16 Februari 2024. Sora menjadi sorotan sebagai model AI generatif teks ke video (text-to-video AI) dengan keunggulan durasi hingga satu menit, yang mampu mempertahankan kualitas video dan mematuhi instruksi pengguna menjadikannya lebih unggul daripada model sejenis seperti Runway, Pika, Google Lumiere, dan Make-A-Video dari Meta.

Keunggulan Sora dalam Konten dan Kualitas Video

Diklaim oleh OpenAI, Sora memiliki kemampuan untuk menciptakan video yang kompleks dengan beragam karakter, gerakan spesifik, dan gaya tertentu seperti animasi, video photorealistic, serta hitam putih, dilengkapi dengan detail subjek dan latar belakang yang akurat. Kemampuan bahasa Sora yang baik memungkinkannya untuk menafsirkan objek dengan tepat dan menciptakan karakter yang hidup.

Sora tidak hanya memahami instruksi pengguna tetapi juga memiliki kemampuan untuk mengenali objek atau subjek dalam konteks kehidupan nyata. Selain itu, model ini dapat secara cerdas memperpanjang klip video, menambahkan keunikan tersendiri pada karya yang dihasilkan.

Tantangan dan Kelemahan Sora

Meskipun memiliki keunggulan, Sora juga menghadapi beberapa tantangan. OpenAI mengakui bahwa Sora memiliki kelemahan yang perlu diakui. Model AI ini mengalami kesulitan dalam mensimulasikan hukum fisika dari adegan yang kompleks dengan akurat. Sora juga terkadang tidak memahami hubungan sebab dan akibat, dan dapat bingung dalam membedakan antara kiri dan kanan. Selain itu, model ini mungkin menghadapi tantangan dalam memberikan deskripsi yang detail terkait dengan adegan yang berkembang seiring waktu, seperti mengikuti lintasan kamera. Sebagai contoh, ada kemungkinan bahwa seseorang menggigit kue, tetapi dalam video yang dihasilkan, kue tersebut tidak menunjukkan bekas gigitan, demikian dikutip dalam blog resmi openAI.

Contohnya, dalam sebuah video AI Sora bisa dapat dilihat di posting media sosial X OpenAI, dimana perintah (prompt) dari pengguna meminta Sora untuk menciptakan sebuah video yang menampilkan keramaian di kota Tokyo, Jepang, dengan salju turun. Permintaan tersebut juga mencakup keinginan khusus akan pergerakan kamera yang mengikuti orang-orang di kota tersebut. Meskipun hasilnya cukup mengesankan, dengan video yang terlihat realistis dan hidup, termasuk detail mobil melintasi jalan dan aktivitas berbagai orang di sekitar Tokyo, namun pengguna yang lebih teliti akan menemukan beberapa kejanggalan. Misalnya, pada detik 0:03, seorang pejalan kaki terlihat menembus pagar, dan pada detik 0:13, seseorang jatuh dan menghilang dari rekaman tersebut.

Pratinjau Penelitian dan Pengembangan Sora

OpenAI menempatkan Sora sebagai pratinjau penelitian, mengembangkan penelitian sebelumnya dari model Dall-e dan GPT. Sora menggunakan teknik recaptioning dari Dall-e 3, melibatkan pembuatan teks deskriptif untuk data pelatihan visual. Hasilnya, Sora dapat dengan baik mengikuti instruksi pengguna, sehingga video yang dihasilkan menjadi lebih "nyambung" dengan perintah yang diberikan.

Perusahaan AI tersebut menjelaskan bahwa Sora dilatih menggunakan lebih dari 10.000 jam video berkualitas tinggi. Sebagai model difusi, Sora bekerja dengan membuat video awal yang tampak seperti derau statis, kemudian secara bertahap menghilangkan derau tersebut. Seperti halnya model GPT, Sora menggunakan arsitektur transformer yang memungkinkan skala kinerja yang baik.

Keterbatasan Akses dan Tujuan Pengembangan

Saat ini, Sora hanya tersedia untuk red teamer, yaitu profesional di bidang keamanan siber. Mereka diajak untuk menilai area kritis dari Sora, mengevaluasi potensi bahaya atau risiko yang mungkin timbul. Selain itu, OpenAI memberikan akses kepada seniman visual, desainer, dan pembuat film untuk memberikan umpan balik dan membantu pengembangan model ini agar lebih bermanfaat untuk para profesional kreatif.

OpenAI juga berkomitmen untuk melibatkan para pembuat kebijakan, pendidik, dan seniman di seluruh dunia guna memahami kekhawatiran mereka dan mengidentifikasi kasus penggunaan positif teknologi baru ini. Meskipun hasil penelitian telah dibagikan secara lebih awal, OpenAI tidak merincikan kapan Sora dapat digunakan secara menyeluruh oleh masyarakat.

Saat ini, Sora hanya dapat diakses oleh red teamer, yaitu para profesional dalam bidang keamanan siber. Mereka diundang untuk mengevaluasi area kritis dari Sora guna mengidentifikasi potensi bahaya atau risiko, sebagaimana dilansir dari blog resmi OpenAI pada Jumat, 16 Februari 2024. OpenAI juga memberikan akses kepada sejumlah seniman visual, desainer, dan pembuat film untuk memberikan umpan balik terhadap pengembangan model AI tersebut, dengan harapan dapat lebih bermanfaat bagi para profesional kreatif.

Selain itu, OpenAI juga sedang mengembangkan alat-alat untuk mendeteksi konten yang menyesatkan, seperti pengklasifikasi deteksi yang mampu mengenali video yang dihasilkan oleh Sora. Rencananya, metadata C2PA akan disertakan jika model ini diterapkan dalam produk-produk OpenAI di masa depan.

Tidak hanya mengembangkan teknik-teknik baru, OpenAI juga memanfaatkan metode keamanan yang telah ada untuk produk-produk mereka yang menggunakan DALL·E 3, yang juga relevan untuk Sora. Misalnya, pengklasifikasi teks mereka akan memeriksa dan menolak permintaan input yang melanggar kebijakan penggunaan, seperti kekerasan ekstrim atau konten seksual.

OpenAI juga telah mengembangkan pengklasifikasi gambar yang kuat untuk meninjau setiap bingkai dari video yang dihasilkan untuk memastikan bahwa konten tersebut sesuai dengan kebijakan penggunaan sebelum ditampilkan kepada pengguna.

Selanjutnya, perusahaan di balik ChatGPT ini berkomitmen untuk melibatkan para pembuat kebijakan, pendidik, dan seniman di seluruh dunia guna memahami kekhawatiran mereka dan mengidentifikasi penggunaan positif dari teknologi baru ini. Dalam tulisan OpenAI, mereka menyatakan, "Kami membagikan hasil penelitian kami lebih awal, untuk mulai bekerja sama dan mendapatkan umpan balik dari orang-orang di luar OpenAI, juga untuk memberikan gambaran pada publik tentang kemampuan AI di masa depan." Meskipun demikian, OpenAI tidak memberikan detail mengenai kapan model AI terbaru ini akan tersedia secara luas bagi masyarakat.

Sora, sebagai model AI generatif teks ke video, menawarkan kemampuan yang menarik namun tidak lepas dari tantangan dan kelemahan. Dengan pratinjau penelitian ini, OpenAI berharap dapat terus mengembangkan dan meningkatkan Sora, membuka ruang bagi kolaborasi dengan berbagai pihak untuk memastikan penerapan teknologi ini berdampak positif dan sesuai dengan kebutuhan pengguna.