相比前代Genie 2僅能維持10-20秒的360P畫面,此次升級(jí)被英偉達(dá)科學(xué)家Jim Fan譽(yù)為 “游戲引擎2.0時(shí)代”的降臨。

谷歌DeepMind Genie 3與Genie 2、由神經(jīng)模型驅(qū)動(dòng)的游戲引擎GameNGen、視頻生成模型Veo對(duì)比,最突出的特點(diǎn)是其生成時(shí)長(zhǎng)翻倍增長(zhǎng),且能做到針對(duì)已生成的環(huán)境修改:

文字編輯|宋雨涵

1

三大核心技術(shù)突破:

重新定義AI世界模型

1

實(shí)時(shí)交互性:

Genie 3此次進(jìn)化的一大顯著亮點(diǎn),在于其具備實(shí)時(shí)響應(yīng)的用戶交互能力,并且能在長(zhǎng)達(dá)數(shù)分鐘的時(shí)間里保持場(chǎng)景(三維)的高度一致性。

為使Genie 3在可控性與實(shí)時(shí)交互性上達(dá)到高水平,谷歌在技術(shù)層面實(shí)現(xiàn)了多項(xiàng)重大突破。

在模型每幀的自回歸生成進(jìn)程中,需持續(xù)考量隨時(shí)間推移而增加的軌跡信息。比如,當(dāng)用戶在一分鐘之后重新回到某個(gè)地點(diǎn)時(shí),模型要能夠追溯并調(diào)用一分鐘前生成的相關(guān)信息。

要達(dá)成真正的實(shí)時(shí)交互效果,這種計(jì)算必須每秒進(jìn)行多次,如此才能及時(shí)響應(yīng)源源不斷的用戶輸入。

2

環(huán)境一致性:

為讓AI生成的世界更具沉浸感,環(huán)境在長(zhǎng)時(shí)間跨度內(nèi)必須維持物理層面的連貫性。不過,通過自回歸方式生成環(huán)境,相較于一次性生成整段視頻,技術(shù)難度要大得多,因?yàn)檎`差會(huì)隨著時(shí)間逐步累積。

即便面臨這一難題,Genie 3所生成的環(huán)境在數(shù)分鐘內(nèi)依舊能保持高度一致,其視覺記憶能力最遠(yuǎn)可追溯至一分鐘前的畫面狀態(tài)。

如上圖所示的“建筑物左側(cè)的樹木”,在互動(dòng)過程中始終保持一致:

Genie 3的一致性是一項(xiàng)新興能力。NeRF和高斯分布等方法在實(shí)現(xiàn)一致的可導(dǎo)航3D環(huán)境同時(shí),需要依賴于提供明確的3D表示,相比之下,Genie 3生成的世界是根據(jù)世界描述和用戶操作逐幀創(chuàng)建的,因此生成內(nèi)容更為豐富、真實(shí)。

Genie 3通過記憶已生成的內(nèi)容并進(jìn)行長(zhǎng)期推理,自學(xué)世界中的物體如何移動(dòng)、下落和互動(dòng)。該模型是自回歸的,這意味著它一次只生成一幀,其必須回顧之前生成的內(nèi)容,才能決定下一步要做什么。這是該架構(gòu)的關(guān)鍵部分。

3

可提示世界事件:

Genie 3引入了”可提示世界事件”功能,這是一個(gè)革命性的創(chuàng)新。用戶不僅可以在世界中導(dǎo)航,還能通過文本指令動(dòng)態(tài)改變世界狀態(tài)。

下面的“面包店”場(chǎng)景中,演示出分別給出了走進(jìn)攪拌機(jī)、前往冷卻架、走到玻璃柜前的任務(wù):

在給定的“市場(chǎng)”環(huán)境中,案例分別演示了走進(jìn)花攤、去面包師那里等任務(wù):

在具身Agent的研究領(lǐng)域,研究人員就可以選擇一個(gè)世界設(shè)定,然后選擇希望Agent實(shí)現(xiàn)的目標(biāo)并觀察它如何實(shí)現(xiàn)目標(biāo)。

2

喜憂參半

Genie 3的局限性

盡管能力驚人,Genie 3仍面臨多重技術(shù)壁壘。

動(dòng)作空間有限。盡管可提示的世界事件允許進(jìn)行廣泛的環(huán)境干預(yù),但這些干預(yù)不一定由agent自身執(zhí)行。agent可以直接執(zhí)行的動(dòng)作范圍目前受到限制。

其他agent的交互與模擬。在共享環(huán)境中準(zhǔn)確建模多個(gè)獨(dú)立agent之間的復(fù)雜交互仍然很難。

真實(shí)世界位置的準(zhǔn)確表示。Genie 3目前無法以完美的地理精度模擬真實(shí)世界位置。

文本渲染。通常只有在輸入的世界描述中提供時(shí),才能生成清晰易讀的文本。

交互時(shí)間有限。目前 Genie 3支持幾分鐘的連續(xù)交互,而非數(shù)小時(shí)。

此外DeepMind研究團(tuán)隊(duì)在官方博客中坦言:實(shí)現(xiàn)數(shù)小時(shí)級(jí)的穩(wěn)定交互需要算法與算力的雙重突破?,F(xiàn)有模型已需數(shù)千塊GPU協(xié)同訓(xùn)練,延長(zhǎng)交互時(shí)間意味著計(jì)算成本指數(shù)級(jí)增長(zhǎng)。

三、世界模型演進(jìn):

通往AGI的必經(jīng)之路

長(zhǎng)久以來,“世界模型”始終被行業(yè)視為邁向通用人工智能(AGI)征程中至關(guān)重要的基石。原因在于,它能夠?yàn)锳I智能體提供無限多樣且豐富的模擬環(huán)境用于訓(xùn)練。

在過去十多年的時(shí)間里,谷歌DeepMind在模擬環(huán)境研究領(lǐng)域始終處于前沿地位,其研究范疇廣泛,從教導(dǎo)AI智能體精通即時(shí)戰(zhàn)略游戲,到為開放式學(xué)習(xí)以及機(jī)器人技術(shù)打造模擬環(huán)境,均有深入探索。

正是基于這些持續(xù)且深入的研究,谷歌DeepMind成功開發(fā)出了“世界模型”。

Genie 3的發(fā)布標(biāo)志著世界模型發(fā)展進(jìn)入新階段。從Genie 1的靜態(tài)場(chǎng)景生成,到Genie 2的短暫交互,再到如今分鐘級(jí)實(shí)時(shí)交互,技術(shù)演進(jìn)呈現(xiàn)加速突破態(tài)勢(shì)。

DeepMind將Genie 3定位為 “通向AGI的關(guān)鍵基礎(chǔ)設(shè)施”。傳統(tǒng)AI訓(xùn)練依賴有限數(shù)據(jù)集,而Genie 3能無限生成多樣化環(huán)境,為AI智能體提供試煉場(chǎng)。

產(chǎn)業(yè)層面,世界模型正驅(qū)動(dòng)兩條技術(shù)路線的競(jìng)合:谷歌的語言驅(qū)動(dòng)生成(Genie 3)、英偉達(dá)的數(shù)字孿生平臺(tái)(Omniverse)、Meta的空間計(jì)算,以及小鵬汽車等企業(yè)探索的“云端世界模型工廠”——通過模擬交通場(chǎng)景蒸餾自動(dòng)駕駛能力。

而DeepMind將Genie 3定位為“AGI基礎(chǔ)設(shè)施”,其價(jià)值不僅在于為機(jī)器人提供零成本試錯(cuò)的倉庫火災(zāi)訓(xùn)練場(chǎng),更在于逼迫AI建立行動(dòng)-結(jié)果的因果鏈:風(fēng)吹草動(dòng)、火勢(shì)蔓延,這些基礎(chǔ)邏輯恰是通用智能的基石。

結(jié)語:

世界模型的終極意義,是讓AI從“統(tǒng)計(jì)規(guī)律擬合者”蛻變?yōu)椤耙蚬壿嬚瓶卣摺?。Genie 3的虛擬海浪拍岸時(shí),我們看到的不僅是水的紋理,更是AI對(duì)流體動(dòng)力學(xué)的內(nèi)化推演。

這不僅是技術(shù)升級(jí),更是認(rèn)知革命:當(dāng)AI通過創(chuàng)造世界來理解世界,人類第一次有機(jī)會(huì)將智能的本質(zhì)封裝進(jìn)代碼——那條通往AGI的幽深小徑,正被世界模型的火光逐漸照亮。

分享到

lixiangjing

算力豹主編

相關(guān)推薦