2025年6月6日,第七屆北京智源大會在中關(guān)村國家自主創(chuàng)新示范區(qū)展示中心開幕。這場匯聚4位圖靈獎得主、30余位AI企業(yè)CEO、200余位頂尖學(xué)者的“AI界春晚”,以“全球視野、思想碰撞、前沿引領(lǐng)”為內(nèi)核,揭開了人工智能從數(shù)字世界邁向物理世界的技術(shù)拐點。
文字編輯| 宋雨涵
1
技術(shù)突破:
“悟界”系列構(gòu)建物理世界交互基座
智源研究院院長王仲遠在主題演講中宣布推出 “悟界”系列大模型,包含四大核心技術(shù)成果,覆蓋從微觀生命到宏觀機器智能的全鏈條:
原生多模態(tài)世界模型Emu3
突破性架構(gòu):基于“下一個token預(yù)測”統(tǒng)一文本、圖像、視頻模態(tài),通過新型視覺tokenizer構(gòu)建模態(tài)無關(guān)的表征空間,實現(xiàn)任意組合理解與生成。
物理因果推理:王仲遠以咖啡杯為例說明其價值——“現(xiàn)有模型能描述‘杯子在桌上’,但Emu3可推斷‘杯沿懸空會墜落’,這是對物理規(guī)律的真正理解”。
腦科學(xué)模型“見微Brainμ”
首次將fMRI、EEG等腦信號統(tǒng)一token化,實現(xiàn)腦活動與文本、圖像的雙向映射;
在便攜式腦電設(shè)備上重建感覺信號,已應(yīng)用于睡眠分型、腦疾病診斷,并與清華、北大等機構(gòu)合作探索腦機接口新場景。
具身智能雙引擎:RoboBrain 2.0 + RoboOS 2.0
RoboBrain 2.0:全球最強開源具身大腦,空間推理準(zhǔn)確率提升74%,新增閉環(huán)反饋與深度思考能力;
RoboOS 2.0:跨本體協(xié)作框架響應(yīng)時延降至3ms以下,支持“機器人應(yīng)用商店”生態(tài),代碼量僅為傳統(tǒng)方案的1/10。
微觀生命模型OpenComplex2
在原子分辨率層面模擬生物分子動態(tài)構(gòu)象,破解蛋白質(zhì)結(jié)構(gòu)預(yù)測瓶頸,為藥物研發(fā)提供新工具。
通往物理AGI的必經(jīng)之路戰(zhàn)略意圖:
“打造強大的世界模型是人類通往AGI的必經(jīng)之路?!敝窃创髸?,這一觀點成為共識。
李飛飛近期在與硅谷風(fēng)投機構(gòu)a16z的對話中也探討了“世界模型”概念——這些AI系統(tǒng)不僅能理解和推理文字信息,還能理解物理世界的運作規(guī)律。
世界模型代表著智能系統(tǒng)對物理世界的數(shù)字化理解與預(yù)測能力。在智能駕駛領(lǐng)域,各企業(yè)的競爭已從拼車端算力演進到比拼云端構(gòu)建的世界模型能力。
華泰證券分析指出,這將持續(xù)提升車載芯片算力及傳感器精度,對算法公司和主機廠技術(shù)研發(fā)能力提出新要求。
億歐智庫報告則提醒,世界模型通過云端訓(xùn)練+車端蒸餾提升泛化能力,但規(guī)?;涞厝允芟抻谒懔Τ杀九c數(shù)據(jù)質(zhì)量兩大桎梏。
“大模型技術(shù)路線正從大語言模型轉(zhuǎn)向多模態(tài)尤其是原生多模態(tài)世界模型,”王仲遠指出,“所有這一切構(gòu)成的世界模型,是實現(xiàn)物理AGI的重要發(fā)展路徑。”
2
具身智能爆發(fā)
機器人2.0時代落地提速
在過去一年里,具身智能領(lǐng)域呈現(xiàn)出爆發(fā)式的增長態(tài)勢,已然成為人工智能與機器人技術(shù)深度融合的核心領(lǐng)域。
在本屆智源大會上,“具身智能”元素?zé)o處不在,熱度空前。在開幕式的具身會客廳環(huán)節(jié),現(xiàn)場熱鬧非凡,宇樹、天工、銀河通用三大明星機器人紛紛登臺展示絕技,引得觀眾陣陣喝彩。
與此同時,Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman與宇樹科技創(chuàng)始人王興興、銀河通用創(chuàng)始人兼CTO(同時也是北京大學(xué)助理教授、智源具身智能研究中心主任)王鶴、穹徹智能聯(lián)合創(chuàng)始人兼上海交通大學(xué)教授盧策吾、北京人形機器人創(chuàng)新中心總經(jīng)理熊友軍以及智源研究院院長王仲遠,通過線上連線的方式,共同探討具身智能的現(xiàn)狀與未來走向。
技術(shù)路線與底層邏輯
清華大學(xué)教授孫富春認為世界模型是全要素模型,空間智能是其視覺投影,強調(diào)觸覺糾偏重要性,要構(gòu)建沉浸式數(shù)字物理系統(tǒng);清華大學(xué)研究員趙明國提出類腦算法可替代傳統(tǒng)控制器,人形機器人發(fā)展需向視覺決策等升級,人類進化底層運動智能有啟示意義。
數(shù)據(jù)瓶頸突破
銀河通用王鶴主張采用合成數(shù)據(jù)為主的具身大模型訓(xùn)練范式,其機器人Galbot已在多場景落地;上海人工智能實驗室龐江淼認為合成數(shù)據(jù)有助于泛化,但實現(xiàn)全合成數(shù)據(jù)零樣本泛化需時間;北京大學(xué)盧宗青提出利用互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練姿態(tài)生成模型解決數(shù)據(jù)稀缺問題;清華大學(xué)高陽指出機器人數(shù)據(jù)采集成本高、難描述,可利用互聯(lián)網(wǎng)視頻數(shù)據(jù)結(jié)合強化學(xué)習(xí)解決仿真與現(xiàn)實差距;北京人形機器人創(chuàng)新中心唐劍認為虛實結(jié)合是正確方式,世界模型能模擬規(guī)律、生成數(shù)據(jù)、預(yù)測變化。
通用泛化能力構(gòu)建
智源具身多模態(tài)大模型中心仉尚航認為構(gòu)建具身快慢系統(tǒng)是從“單一任務(wù)/本體”邁向“通用泛化”的關(guān)鍵,介紹了兩條技術(shù)路線及相關(guān)最新工作;北京郵電大學(xué)方斌指出視觸覺感知是邁向“精準(zhǔn)操作”的核心,需通過多種方式解決操作穩(wěn)定性與泛化性難題。
智源研究院理事長黃鐵軍在閉幕致辭中表示,智源持續(xù)布局類腦等方向的研究,意在構(gòu)造精細完整的物理智能體,從原子到器官打造媲美人類的物理智能體。他帶領(lǐng)團隊開發(fā)的脈沖視覺芯片,功能類似人眼,速度比人眼快千倍,就是為具身智能準(zhǔn)備的“超級電眼”。2024年底登上Nature子刊封面的智源線蟲,實現(xiàn)秀麗線蟲神經(jīng)系統(tǒng)、身體與環(huán)境的閉環(huán)仿真,能夠自主覓食,逼真詮釋了具身理念。5-10年,具身智能有望代替人類從事不愿干、危險的勞動,但這并非具身智能的終極目標(biāo)。人類從地球演化出來,只適合在地球生存,生理上不適合移民到其他星球。2045 年具身智能有望全面超越人類,代表人類走向星際,“我們的目標(biāo)是星辰大海!我們的使命偉大而光榮!”
安全警鐘
圖靈獎得主呼吁全球協(xié)同治理
在AI技術(shù)高歌猛進之際,安全警鐘長鳴。圖靈獎得主約書亞·本吉奧在大會尖峰對話環(huán)節(jié)發(fā)出警示:當(dāng)前AI在規(guī)劃、推理等領(lǐng)域進步飛速,部分前沿模型已顯現(xiàn)自我保護、欺騙性對齊等類生物主體行為。
本吉奧警告,若形成 “智能+自主目標(biāo)+行動能力”組合將引發(fā)失控風(fēng)險,甚至可能威脅人類生存。
“要在AGI可能于5年內(nèi)達到人類水平的緊迫時間窗口內(nèi),通過技術(shù)創(chuàng)新與全球協(xié)作筑牢安全防線。”他呼吁推動全球協(xié)同治理,建立國際監(jiān)管框架與技術(shù)驗證機制。
另一位圖靈獎得主理查德·薩頓則提出不同思路:以去中心化合作替代中心化控制,通過信任、協(xié)調(diào)和市場機制引導(dǎo)AI與人類共生。
智源研究院持續(xù)推進AI安全底層關(guān)鍵技術(shù)研究,2024年3月發(fā)起并承辦我國首個AI安全國際對話高端閉門論壇,與全球AI領(lǐng)袖聯(lián)合簽署《北京AI安全國際共識》。
結(jié)語:
王仲遠指出,大模型技術(shù)演進遠未抵達終點,而當(dāng)前大語言模型的性能提升正面臨顯著瓶頸,主要源于互聯(lián)網(wǎng)高質(zhì)量訓(xùn)練數(shù)據(jù)的枯竭與同質(zhì)化競爭。
“悟界”系列的推出標(biāo)志著中國AI研究從“數(shù)字AGI”邁向 “物理AGI” 的關(guān)鍵轉(zhuǎn)折。當(dāng)Emu3能理解咖啡杯放桌沿會摔碎,當(dāng)RoboBrain 2.0能精準(zhǔn)規(guī)劃機器人行動路徑,當(dāng)Brainμ解碼人腦信號——物理世界的運行規(guī)則正被AI重新書寫。