Google DeepMind, genel amaçlı yapay zeka ajanlarını eğitmek için kullanılan yeni temel dünya modeli Genie 3’ü duyurdu. Araştırma aşamasında olan ve henüz kamuya açık olmayan Genie 3, önceki model Genie 2 ile video oluşturma teknolojisi Veo 3’ün üzerine inşa edildi.
DeepMind Araştırma Direktörü Shlomi Fruchter, Genie 3 hakkında “İlk gerçek zamanlı, etkileşimli ve genel amaçlı dünya modeli” ifadelerini kullandı. Fruchter, modelin belirli bir ortama bağlı kalmayıp fotoğraf gerçekliğinde hayali dünyalar ve aralarındaki her türlü ortamı oluşturabildiğini belirtti.
Genie 3, basit bir metin komutuyla saniyede 24 kare hızında, 720p çözünürlükte, birkaç dakikalık interaktif 3D ortamlar yaratabiliyor. Önceki model Genie 2 ise 10-20 saniyelik içerik üretebiliyordu. Model ayrıca, komutlarla dünya üzerinde olayları tetikleme ve değiştirme yeteneğine sahip. Daha önce oluşturduğu içerikleri hatırlayarak simülasyonların fiziksel tutarlılığını koruyabiliyor. Bu sayede nesnelerin hareketi, düşüşü ve etkileşimleri gibi dünyanın işleyişini kendi kendine öğreniyor.
Fruchter, Genie 3’ün eğitim, oyun ve yaratıcı konsept prototipleme gibi alanlarda önemli yenilikler getirdiğini ifade etti. Model, fiziksel dünya özelliklerini modelleyebiliyor, doğal dünyayı simüle edebiliyor, animasyon ve kurgu yapabiliyor, ayrıca tarihi ve coğrafi mekanları keşfedebiliyor. Ancak gerçek potansiyelin, genel amaçlı görevler için yapay zeka ajanlarının eğitilmesinde ortaya çıkacağı vurgulanıyor. Bu da Yapay Genel Zekaya (AGI) ulaşmak için kritik bir adım.
DeepMind’a göre Genie 3, yapay zeka ajanlarını sınırlarına kadar zorlayarak, tıpkı insanlar gibi deneyimlerinden öğrenmelerini sağlama potansiyeline sahip. Örneğin, Genie 3, Scalable Instructable Multiworld Agent (SIMA) yazılımının son sürümüyle test edildi. Depo ortamında ajandan “parlak yeşil çöp sıkıştırıcısına yaklaş” veya “dolu kırmızı forklifte yürü” gibi görevler istendi ve SIMA ajanı bu görevleri başarıyla tamamladı. Araştırmacılar, modelin tutarlılığından dolayı ileriye dönük simülasyon yapabildiğini belirtti.
Ancak Genie 3’ün bazı sınırlamaları da bulunuyor. Örneğin, bir demo sırasında kayak yapan birinin dağdan kayması sahnesinde karın hareketi gerçekçi şekilde yansıtılamadı. Ayrıca, ajanların gerçekleştirebileceği eylemler hâlâ sınırlı ve birden fazla bağımsız ajan arasındaki karmaşık etkileşimleri doğru modellemek zor. Model sadece birkaç dakikalık sürekli etkileşime izin veriyor ve uygun ajan eğitimi saatler alıyor.