A Veo 3 egy generatív videó-AI, amely képes lenyűgöző minőségű, koherens mozgást és természeti jellemzőket tartalmazó videók összeállítására szöveges utasítás alapján. Ami igazán figyelemre méltó, hogy a modell nem explicit fizikai szabályokat követ, hanem azokat öntanuló módon, a hatalmas videótréningek során internalizálta. Vagyis: nem "számolja", hanem a modell korábbi minták alapján prediktív módon generál videókat. Amire most felfigyelt a közönség, hogy rendkívüli módon utánozza generált videókban a folyadékok viselkedését.
A Google DeepMind vezetője, Sir Demis Hassabis, érdekes részleteket osztott meg a fejlesztés hátteréről:
"A Veo 3-ban az az elképesztő, hogy képes intuíciós szinten érzékelni a fény és a gravitáció fizikáját."
Hassabis saját játékfejlesztői múltjára utalva kiemelte, hogy korábban ezeket manuálisan kellett beállítani, ma viszont a modell önállóan, a tanulási fázisban "megérti" őket.
AI kontra fizika: ez már AGI?
Többen feltették a kérdést: ha egy AI ilyen szinten tudja utánozni a valóságot (mint ahogyan folyadékoknál megtanulta), az már az általános mesterséges intelligencia, azaz AGI irányába tett lépés? Hassabis szerint még nem teljes AGI, de a Veo 3 "már olyan komplexitású rendszer, amely tárgyi világbeli tudást mutat".
A Veo 3 gyakran fizikailag plauzibilis mozgásokat és kölcsönhatásokat produkál. A DeepMind kutatói szerint ez segítheti a jövőben robotikai rendszerek tanítását, játékfejlesztést, vagy valós idejű szimulációkat is.
Források:
Kantrowitz, Alex: Demis Hassabis and Sergey Brin podcast
Google DeepMind: Veo 3 official site
Ez az új AI-képesség – a folyadékfizika megértése és előrejelzése – valóban lenyűgöző, de ha a lehetséges veszélyeket kérdésfelvetéssel akarjuk körüljárni, íme néhány érdemi irány:
Kérdésfelvetések:
Mikor lesz az AI nemcsak megfigyelő, hanem döntéshozó fizikai rendszerek felett?
Egyre több területen alkalmaznak AI-t: ipar, egészségügy, robotika. Mi történik, ha a modell saját döntése alapján módosítja egy hűtőrendszer vagy egy bioreaktor működését?
Honnan tudjuk, hogyan „érti” az AI a fizikai világot?
A gépi tanulás során létrejövő belső modellek nem emberi módon értelmezhetők. A Veo 3 „megértése” lehet korrekt – de vajon követhető is?
Milyen gyorsan tudunk szabályozni egy technológiát, amely ilyen ütemben fejlődik?
A törvényi és etikai keretek ma még nem tartanak ott, ahol az AI-fejlesztés tempója jár.
Lehet-e egy ilyen modell nyílt forrású? És ha igen, kinek a kezébe kerülhet?
A fizikai világ prediktív szimulálása hatalom. Ha a hozzáférés nem kontrollált, a következmények beláthatatlanok.