Genie 3: Saat AI Mengubah Teks Jadi Dunia yang Bisa Dijelajahi

Google DeepMind meluncurkan Genie 3, generasi terbaru world model yang dapat mengubah perintah teks atau gambar menjadi lingkungan 3D interaktif yang dapat dijelajahi secara real-time. Model ini mampu merender pada 24 frame per detik dengan resolusi sekitar 720p dan mempertahankan konsistensi visual—termasuk memori terhadap objek yang dipindahkan—selama beberapa menit. Akses awal dibuka lewat limited research preview.

World Model: Dari Konsep ke Praktik

World model adalah generasi model AI yang melebihi pembuatan gambar atau video statis; mereka mensimulasikan lingkungan yang dapat diprediksi dan dijalankan. Alih-alih hanya menghasilkan satu bingkai, world model memproduksi rangkaian frame yang saling berkaitan, sehingga sebuah “dunia” bisa bereaksi terhadap aksi agen—manusia maupun AI—dalam rentang waktu tertentu. Genie 3 merupakan implementasi lanjutan dari konsep tersebut: lingkungan yang dapat dimodifikasi lewat perintah teks dan dieksplorasi secara langsung.

Sumber: Google Deepmind

Apa yang Dibawa Genie 3 — Kemampuan Inti

Genie 3 menonjol pada beberapa aspek teknis dan operasional yang penting:

  • Real-time interactivity: lingkungan yang dihasilkan dapat dinavigasi pada kecepatan 24 fps, sehingga pengalaman terasa lancar dan responsif.
  • Resolusi & konsistensi: DeepMind menyebut output sekitar 720p dan kemampuan mempertahankan konsistensi visual untuk “beberapa menit”—misalnya, objek yang dipindahkan tetap berada di lokasi baru meski kamera berpindah angle.
  • Promptable world events: pengguna dapat mengubah kondisi lingkungan lewat instruksi (mengganti cuaca, menambahkan karakter/objek), membuat dunia bersifat dinamis dan dapat disesuaikan secara langsung.
  • Dirancang untuk agen terbenam (embodied agents): Genie 3 dimaksudkan sebagai lingkungan pelatihan bagi agen AI—misalnya, agen yang belajar menyelesaikan rangkaian tugas berkelanjutan—membuka jalur baru untuk penelitian agen-latihan.

Bagaimana Prinsip Kerjanya?

Secara ringkas, Genie 3 menggabungkan beberapa teknik: prediksi frame autoregresif (mirip cara model bahasa memprediksi kata berikutnya), mekanisme memori temporal untuk menjaga konsistensi elemen dunia, dan pelatihan pada kumpulan data video besar sehingga model belajar pola gerakan dan interaksi dasar. Hasilnya ialah sebuah “sutradara virtual” yang menyusun adegan lalu menjalankannya ulang sambil merespons instruksi baru. DeepMind tidak merinci seluruh korpus pelatihan publiknya, namun menegaskan bahwa kombinasi data dan arsitektur baru memungkinkan peningkatan durasi interaksi dibandingkan generasi sebelumnya.

Contoh Demo Genie 3

Berikut ini adalah contoh hasil prompt yang bisa dihasilkan oleh Genie 3 yang diambil dari website resminya.

Prompt: Jetski during the festival of lights.


Prompt: A helicopter pilot carefully maneuvering over coastal cliff with a small waterfall.

Keterbatasan Teknis yang Perlu Dicatat

Genie 3 adalah langkah maju, tetapi bukan solusi final untuk seluruh skenario:

  • Durasi & skala terbatas: “Beberapa menit” interaksi adalah kemajuan signifikan dibandingkan model sebelumnya, namun belum setara dengan dunia game komersial persistente yang berjalan berjam-jam.
  • Akurasi dunia nyata: model belum dirancang untuk reproduksi peta atau lokasi nyata dengan presisi geospasial yang tinggi; pengguna tidak boleh mengandalkannya untuk aplikasi yang memerlukan presisi lokasi.
  • Interaksi kompleks multi-agen: skenario interaksi sosial atau dinamika kelompok yang rumit masih menjadi tantangan bagi world model saat ini.
  • Isu etis dan keamanan: potensi pembuatan konten menyesatkan, pelanggaran hak cipta, atau penyalahgunaan simulasi menjadi perhatian; DeepMind mengambil pendekatan bertahap lewat akses terbatas untuk mempelajari dampak dan mitigasi.

Use-cases Realistis — Di mana Genie 3 Paling Mungkin Berguna Sekarang

  • Prototyping game & pra-visualisasi: developer dapat cepat menguji ide level atau komposisi adegan sebelum membuat aset berkualitas tinggi.
  • Pelatihan robot & agen otonom: lingkungan sintetis yang dapat disesuaikan memungkinkan eksperimen aman sebelum memindahkan model ke dunia nyata—mis. pengujian navigasi di skenario ekstrem.
  • Pendidikan & simulasi interaktif: guru dan pelatih dapat mengilustrasikan konsep abstrak lewat lingkungan yang dapat dieksplorasi.
  • Pra-produksi film/animasi: sutradara dapat mengeksplorasi framing dan blocking adegan secara cepat.

Posisi DeepMind & Lanskap Kompetisi

Peluncuran Genie 3 menegaskan posisi DeepMind di ujung riset world models. Pesaing di perusahaan besar dan startup kemungkinan akan mempercepat proyek serupa. Fokus kompetisi diperkirakan pada tiga aspek: ketepatan simulasi, durasi konsistensi, dan kemampuan integrasi agen-latihan. Pernyataan CEO dan peneliti DeepMind menempatkan Genie 3 sebagai salah satu batu loncatan menuju kemampuan agen yang lebih luas.

Akses dan Langkah Selanjutnya

Saat ini Genie 3 tersedia lewat limited research preview untuk kelompok peneliti dan kreator terpilih; DeepMind menegaskan akan mengevaluasi risiko dan efek penggunaan sebelum memperluas akses publik. Bagi pembaca yang berminat mengikuti perkembangan: pantau blog DeepMind, kanal resmi mereka di YouTube, dan konferensi riset AI.

Penutup

Genie 3 menandai kemajuan nyata dalam pembuatan dunia sintetis interaktif: lebih panjang, lebih konsisten, dan lebih responsif terhadap instruksi. Namun adopsi luas menuntut perbaikan pada skala, akurasi, dan tata kelola etis. Langkah selanjutnya bergantung pada kolaborasi antara peneliti, pembuat kebijakan, dan industri.

Referensi 

  1. DeepMind. (2025, August 5). Genie 3: A new frontier for world models. DeepMind Blog. Retrieved from https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
  2. Peters, J. (2025, August 5). Google’s new AI model creates video game worlds in real time. The Verge. Retrieved from https://www.theverge.com/2025/8/5/google-deepmind-genie-3-ai-world-model
  3. Vincent, J. (2025, August 6). Google’s Genie 3 could be a watershed moment for AI and gaming — here’s why. Tom’s Guide. Retrieved from https://www.tomsguide.com/news/google-genie-3-ai-gaming
  4. Livingstone, C. (2025, August 6). Google DeepMind’s Genie 3 shows the future of AI agents in playable worlds. PC Gamer. Retrieved from https://www.pcgamer.com/news/google-deepmind-genie-3-ai-agents
  5. Hern, A. (2025, August 7). Google says its new ‘world model’ could train AI robots in virtual warehouses. The Guardian. Retrieved from https://www.theguardian.com/technology/2025/aug/07/google-deepmind-genie-3-world-model
  6. Vincent, J. (2025, August 8). DeepMind thinks Genie 3 presents a stepping stone toward AGI. TechCrunch. Retrieved from https://techcrunch.com/2025/08/08/deepmind-genie-3-world-model-agi

Tags:

Semua

Premium

x