Google Luncurkan Gemini Omni Model AI Multimodal Pembuat Video

Google resmi memperkenalkan Gemini Omni sebagai model kecerdasan buatan (AI) terbaru. Sistem ini menggabungkan kemampuan penalaran Gemini dengan teknologi generatif multimodal.

Seperti dilansir dari Medcom, model ini dirancang agar pengguna dapat memproduksi konten video berkualitas tinggi. Proses pembuatan memanfaatkan kombinasi input berupa teks, gambar, audio, hingga video.

Raksasa teknologi ini menyebut Gemini Omni sebagai model yang mampu menciptakan apa pun dari berbagai jenis input. Pengembangan pada fokus awal diarahkan untuk pembuatan video.

Sistem tersebut memfasilitasi pengguna dalam menggabungkan beraneka sumber media sekaligus. Hasil akhir video diklaim tetap memahami konteks dunia nyata karena ditopang oleh basis pengetahuan Gemini.

Varian pertama yang dipamerkan ke publik adalah Gemini Omni Flash. Model ini disiapkan untuk memproduksi video dan audio secara simultan melalui pendekatan yang lebih cepat dan responsif.

Omni Flash tidak sekadar memproses instruksi dari prompt teks. Varian ini juga dapat mengolah foto, potongan video, maupun rekaman audio menjadi bahan dasar konten baru.

Teknologi Gemini Omni turut mendukung fitur conversational editing. Fasilitas ini memungkinan proses penyuntingan video berjalan lewat percakapan alami bersama AI.

Pengguna tidak perlu lagi mengandalkan timeline editing tradisional seperti pada perangkat lunak konvensional. Kemudahan ini membedakannya dari model pendahulu.

Gemini Omni memiliki pemahaman multimodal yang lebih luas jika dibandingkan dengan model Veo yang berfokus pada teks-ke-video. Hal ini terjadi karena sistem dilatih memakai data dan kemampuan reasoning Gemini.

Metode tersebut memampukan AI memahami konteks visual, suara, serta hubungan antarobjek secara lebih kompleks. Berdasarkan informasi Google DeepMind, Gemini Omni Flash saat ini dapat memproduksi video dengan durasi sampai sekitar 10 detik.

Durasi pembuatan video dipastikan bakal terus ditingkatkan dalam tahapan pengembangan selanjutnya. Google menegaskan bahwa inovasi ini bukan sekadar alat video AI biasa.

Sistem dirancang sebagai bagian dari visi AI generatif yang menyatu dengan berbagai bentuk media sekaligus. Pihak perusahaan berencana memperluas kemampuan model agar mendukung pembuatan gambar dan audio langsung dalam satu sistem terpadu.

Gemini Omni nantinya bakal diintegrasikan ke beberapa layanan ekosistem Google. Layanan tersebut meliputi aplikasi Gemini, platform kreatif Google Flow, serta YouTube Shorts.

Langkah integrasi ini diharapkan mempermudah proses pembuatan konten kreatif. Google memastikan seluruh konten video hasil AI dari Gemini Omni akan dilengkapi watermark SynthID untuk transparansi dan identifikasi konten sintetis.

Kehadiran Gemini Omni menjadi bagian dari strategi besar dalam memperluas era Agentic Gemini. Fase ini menandai kondisi ketika AI mampu membuat, mengedit, dan menyelesaikan pekerjaan kreatif secara mandiri.

Google Luncurkan Gemini Omni Model AI Multimodal Pembuat Video

Fajar Sidik

Artikel terkait

Rekomendasi