高校有為采訪鏈接:
01 計(jì)算范式之變:從通用CPU到專用NPU的底層邏輯
對(duì)話的開端,直指驅(qū)動(dòng)本輪AI浪潮的根本動(dòng)力——計(jì)算范式的變革。
李建忠指出,行業(yè)正經(jīng)歷從經(jīng)典以CPU為中心向以神經(jīng)網(wǎng)絡(luò)為中心的計(jì)算架構(gòu)(以GPU/NPU為中心)的轉(zhuǎn)變。
王建輝從硬件架構(gòu)演進(jìn)的角度,闡述了這一變革的本質(zhì)驅(qū)動(dòng)力。他認(rèn)為,“整個(gè)計(jì)算范式的變化,是從以前的通用性,到現(xiàn)在核心是把算力的效率提上去。”
他進(jìn)一步解釋了CPU與NPU在設(shè)計(jì)哲學(xué)上的根本差異:
﹒CPU(中央處理器):設(shè)計(jì)目標(biāo)是通用性,擅長(zhǎng)標(biāo)量計(jì)算(單個(gè)數(shù)值的加減乘除),追求單核高性能。
﹒NPU(神經(jīng)網(wǎng)絡(luò)處理器):設(shè)計(jì)目標(biāo)是效率,為深度學(xué)習(xí)任務(wù)而生,核心是處理大規(guī)模的矩陣或張量(Tensor)的乘加運(yùn)算。為了在相同功耗下實(shí)現(xiàn)更高的算力效率,這是設(shè)計(jì)的出發(fā)點(diǎn)。
王建輝透露,昇騰從設(shè)計(jì)之初就瞄準(zhǔn)了這一方向,這種設(shè)計(jì)直接服務(wù)于神經(jīng)網(wǎng)絡(luò)的核心計(jì)算需求。
同時(shí),他也觀察到一種“殊途同歸”的趨勢(shì)。NPU在追求極致效率的同時(shí),也在增加向量計(jì)算單元以提升靈活性;而GPU(圖形處理器)在擁有強(qiáng)大向量計(jì)算能力的基礎(chǔ)上,也在不斷增加專用的張量核心(Tensor Core)。雙方都在向一個(gè)“既能提供高效運(yùn)算效率,又能兼顧AI發(fā)展靈活性”的平衡點(diǎn)演進(jìn)。
袁粒則從軟件生態(tài)的視角補(bǔ)充,這一轉(zhuǎn)變的核心訴求是“從通用到專用,以及到并行計(jì)算”。AI技術(shù)棧天然是并行的,軟件生態(tài)需要去適配硬件的并行特性,兩者協(xié)同發(fā)展。此外,他還提出了一個(gè)重要趨勢(shì):軟件生態(tài)的構(gòu)建正從過(guò)去的由硬件廠商主導(dǎo)的“中心化”模式,演變?yōu)楦咝!⑵髽I(yè)、個(gè)人開發(fā)者共同參與的“去中心化”模式,生態(tài)變得更加開放。
02 智能的“偏見”:當(dāng)語(yǔ)言的霸權(quán),壓制了視覺的真相
在多模態(tài)AI的世界里,語(yǔ)言和視覺這兩個(gè)最重要的模態(tài),地位并不平等。語(yǔ)言,這個(gè)由人類創(chuàng)造、高度編碼、信息密度極高的符號(hào)系統(tǒng),在過(guò)去幾年大語(yǔ)言模型的狂飆突進(jìn)中,已經(jīng)建立起了事實(shí)上的“霸權(quán)”。而視覺,這個(gè)客觀存在、充滿冗余信息、更接近物理世界本質(zhì)的模態(tài),反而在AI的認(rèn)知體系中,淪為了“二等公民”。
AI看到的“六指手”圖像,其視覺信息在進(jìn)入決策中樞前,就被強(qiáng)大的“語(yǔ)言先驗(yàn)”給壓制和扭曲了。AI并沒有真正“看見”六根手指,它只是“知道”手應(yīng)該是五根。這場(chǎng)看似微小的認(rèn)知偏差,背后卻是整個(gè)AI行業(yè)一場(chǎng)曠日持久的“路線之爭(zhēng)”——智能的演進(jìn),究竟應(yīng)該以語(yǔ)言為中心,還是以視覺(或更廣泛的世界模型)為中心?
從2012年AlexNet在ImageNet大賽上一戰(zhàn)成名,開啟了計(jì)算機(jī)視覺的黃金十年,到2020年后ChatGPT橫空出世,讓語(yǔ)言模型獨(dú)占鰲頭,這場(chǎng)爭(zhēng)論的鐘擺一直在搖晃。視覺派的代表人物Yann LeCun和李飛飛堅(jiān)信,缺乏對(duì)物理世界的理解,AI永遠(yuǎn)無(wú)法實(shí)現(xiàn)真正的通用智能;而語(yǔ)言派則引用維特根斯坦“語(yǔ)言是人類思維的邊界”,追溯到艾倫·圖靈對(duì)人工智能最初的理解,是抽象與邏輯的終極體現(xiàn)。
《高校有為》的這場(chǎng)對(duì)話,并沒有試圖給出一個(gè)終極答案,而是呈現(xiàn)了前沿科學(xué)家身處這場(chǎng)“范式革命”中的真實(shí)思考。袁粒坦言,作為一個(gè)“視覺派”,他也不得不承認(rèn),語(yǔ)言模型在當(dāng)下“彎道超車”有其必然性——數(shù)據(jù)獲取成本低、信息密度高、人類已經(jīng)完成了初步的“編碼”。
但更重要的是,他指出了未來(lái)的方向:模態(tài)平權(quán)。真正的多模態(tài)原生AI,必須讓視覺和語(yǔ)言在模型內(nèi)部擁有平等的“話語(yǔ)權(quán)”,讓AI既能理解語(yǔ)言的邏輯,也能尊重視覺的真相。
03 路線之爭(zhēng):統(tǒng)一架構(gòu)的未來(lái),賭在自回歸還是擴(kuò)散?
如果說(shuō)“語(yǔ)言與視覺之爭(zhēng)”是AI發(fā)展的“世界觀”問(wèn)題,那么接下來(lái)的討論,則進(jìn)入了更硬核的“方法論”層面,這也是本期節(jié)目思想碰撞最激烈的部分。
當(dāng)前,在多模態(tài)生成領(lǐng)域,存在著兩條截然不同的技術(shù)路線:
﹒自回歸模型(Autoregressive Models):以大語(yǔ)言模型為代表,其核心是“Next Token Prediction”(預(yù)測(cè)下一個(gè)詞元)。它像一個(gè)嚴(yán)謹(jǐn)?shù)倪壿嫾?,通過(guò)前文推導(dǎo)后文,一步一步構(gòu)建出完整的內(nèi)容。這是一種因果推理(Causal Inference)。
﹒擴(kuò)散模型(Diffusion Models):以主流的文生圖、文生視頻模型為代表,其核心是“Denoising”(去噪)。它像一個(gè)印象派畫家,從一團(tuán)隨機(jī)的噪聲開始,逐步去除噪聲,最終“浮現(xiàn)”出清晰的圖像。這是一種結(jié)構(gòu)推理(Structural Inference)。
在《高校有為》的“茶話會(huì)”上,一場(chǎng)關(guān)于這兩種路線優(yōu)劣的“辯論”就此上演,充滿了節(jié)目所追求的“思想對(duì)撞”的火花。
袁粒拋出了一個(gè)極具前瞻性,甚至有些“反共識(shí)”的判斷:“盡管我做的視頻生成現(xiàn)在主流是擴(kuò)散模型,但我認(rèn)為,最終統(tǒng)一多模態(tài)的,會(huì)是自回歸模型。”
他給出了三層邏輯:
其一,繼承性與效率:自回歸已經(jīng)基本解決了語(yǔ)言這個(gè)最復(fù)雜的模態(tài),沿用這條路線去兼容視覺,可以避免重復(fù)“造輪子”。
其二,推理的本質(zhì):人類的高級(jí)智能,核心是因果推理。我們知道火不能摸,是因?yàn)槲覀冾A(yù)知了“摸”這個(gè)“因”會(huì)導(dǎo)致“燙傷”那個(gè)“果”。自回歸的“next token prediction”天然契合了這種因果鏈條。而擴(kuò)散模型的結(jié)構(gòu)推理,雖然擅長(zhǎng)描繪空間關(guān)系,但在邏輯鏈上是缺失的。
其三,強(qiáng)推理的潛力:在需要反思、規(guī)劃、決策的復(fù)雜任務(wù)中,自回歸模型可以通過(guò)強(qiáng)化學(xué)習(xí)等手段,實(shí)現(xiàn)更強(qiáng)的推理能力,而擴(kuò)散模型的并行生成機(jī)制,很難進(jìn)行有效的邏輯反思。
因此,他大膽預(yù)言,未來(lái)的多模態(tài)架構(gòu),將是以自回歸模型為“主干網(wǎng)絡(luò)”(Backbone),負(fù)責(zé)因果推理和跨模態(tài)融合;而擴(kuò)散模型則會(huì)作為一個(gè)“后處理模塊”或“補(bǔ)丁”,負(fù)責(zé)視覺模態(tài)的結(jié)構(gòu)補(bǔ)完和連續(xù)性細(xì)節(jié)。
這個(gè)觀點(diǎn),幾乎是在為整個(gè)多模態(tài)領(lǐng)域的未來(lái),描繪一張全新的技術(shù)藍(lán)圖。
然而,王建輝老師從一個(gè)截然不同的維度提出了“反駁”——算力利用率(Compute Utilization Efficiency)。
他認(rèn)為,拋開算法的優(yōu)美,最終決定技術(shù)路線勝負(fù)的,可能是一個(gè)更樸素的工程問(wèn)題:哪種架構(gòu)能把硬件的每一分性能都?jí)赫サ綐O致?
他分析道,自回歸模型對(duì)內(nèi)存帶寬要求極高,但算力利用率相對(duì)不足;而擴(kuò)散模型恰恰相反,它極度消耗算力,但對(duì)帶寬要求沒那么苛刻。這兩種架構(gòu)都存在“偏科”的問(wèn)題。
因此,他提出了一個(gè)更具“融合”色彩的猜想:未來(lái)的勝利者,可能不是兩者中的任何一個(gè),而是一種全新的、能夠?qū)⒂布乃懔?、?nèi)存、通信三大資源同時(shí)“吃滿”的均衡架構(gòu)。
這場(chǎng)“辯論”沒有輸贏,卻詮釋了《高校有為》從“單調(diào)對(duì)話”到“電影級(jí)敘事”的亮點(diǎn):對(duì)話的張力,正來(lái)自于產(chǎn)、學(xué)兩界頂級(jí)大腦,從各自最擅長(zhǎng)的領(lǐng)域出發(fā),對(duì)同一個(gè)未知山峰,給出了不同的攀登路徑。袁粒代表了算法與理論的“頂層設(shè)計(jì)”,追求模型的優(yōu)雅與認(rèn)知上的合理性;王建輝老師則代表了工程與實(shí)踐的“底層邏輯”,強(qiáng)調(diào)物理定律和資源效率的硬約束。
這正是創(chuàng)新的真實(shí)面貌——它不是一條筆直的康莊大道,而是在無(wú)數(shù)次這樣的思想對(duì)撞、路線搖擺、和基于第一性原理的反復(fù)詰問(wèn)中,螺旋式上升的。
04 成本的“鴻溝”:從200元到2分錢,AI視頻的普惠之路
再精妙的理論,再宏大的架構(gòu),最終都要面臨現(xiàn)實(shí)世界的檢驗(yàn)。對(duì)于AIGC而言,最現(xiàn)實(shí)的檢驗(yàn)標(biāo)準(zhǔn),就是成本。
本期《高校有為》的第三個(gè)高潮,是將話題從云端的理論,拉回了地面上最殘酷的商業(yè)現(xiàn)實(shí)。王建輝老師透露了一個(gè)驚人的數(shù)字:“在Sora剛發(fā)布時(shí),我們內(nèi)部評(píng)估,生成一段高質(zhì)量的AI視頻,成本至少是200元人民幣。”
200元,這個(gè)數(shù)字如同一盆冷水,澆滅了許多人對(duì)AI視頻“即刻普及”的幻想。這意味著,它只是少數(shù)人能負(fù)擔(dān)得起的“奢侈品”,距離成為像抖音、B站一樣的全民創(chuàng)作工具,還有一道巨大的成本鴻溝。
王建輝的目標(biāo)是:“未來(lái)有沒有可能,把成本降到2塊錢,甚至2分錢?”
從200元到2分錢,是一萬(wàn)倍的成本壓縮,這可能嗎?
袁粒表示,將當(dāng)前AI視頻生成的技術(shù)瓶頸,總結(jié)為四個(gè)方面:可靠性不足(不符合物理規(guī)律)、可控性不足(無(wú)法精確控制生成內(nèi)容)、一致性不足(人物或物體在視頻中會(huì)變化)、時(shí)長(zhǎng)不足(普遍在10秒以內(nèi))。
問(wèn)題的根源,一方面是前面提到的擴(kuò)散模型“理解能力”不足,另一方面,則是其二次方增長(zhǎng)的計(jì)算開銷。當(dāng)視頻時(shí)長(zhǎng)增加,計(jì)算成本會(huì)呈爆炸式增長(zhǎng)。
要跨越這道鴻溝,單靠算法優(yōu)化或硬件升級(jí)的“單打獨(dú)斗”已經(jīng)不夠,必須依靠軟硬協(xié)同的深度聯(lián)合創(chuàng)新。這或許也是《高校有為》想要呈現(xiàn)的真實(shí)圖景。
·在軟件層面,袁粒團(tuán)隊(duì)在昇騰算力的支持下,不斷進(jìn)行算法迭代。例如,為了解決視頻序列過(guò)長(zhǎng)導(dǎo)致的“內(nèi)存溢出”(Out of Memory)問(wèn)題,他們聯(lián)合昇騰團(tuán)隊(duì),在張量并行(TP)的基礎(chǔ)上,進(jìn)一步開發(fā)了序列并行(SP),實(shí)現(xiàn)了“TP+SP”的高效訓(xùn)練模式。再比如,為了解決模型訓(xùn)練后期收斂困難的“震蕩”現(xiàn)象,他們采用了昇騰親和的EMA(Exponential Moving Average)優(yōu)化策略,才最終讓模型平穩(wěn)收斂。
·在硬件層面,昇騰則不僅僅是提供算力,更是在與袁粒團(tuán)隊(duì)這樣的頂級(jí)科研項(xiàng)目的合作中,反向優(yōu)化自己的硬件架構(gòu)和軟件棧。王建輝提到,他們會(huì)分析像長(zhǎng)視頻生成這類任務(wù)的性能瓶頸(比如Flash Attention可能占到90%的耗時(shí)),然后針對(duì)性地進(jìn)行極致的性能優(yōu)化。
這種“你中有我,我中有你”的深度耦合,才是實(shí)現(xiàn)萬(wàn)倍成本壓縮的關(guān)鍵。算法的創(chuàng)新,為硬件指明了優(yōu)化的方向;而硬件的極限性能,又為算法的實(shí)現(xiàn)提供了可能。
如今,合作的成果已經(jīng)落地。袁粒在對(duì)話中,分享了一個(gè)與華為合作的陜西文旅項(xiàng)目案例:游客在游覽大唐不夜城時(shí),可以化身為《長(zhǎng)安十二時(shí)辰》里的某個(gè)角色,AI會(huì)根據(jù)游客的游覽路線,實(shí)時(shí)生成一段“個(gè)人專屬”的劇本殺視頻。
從實(shí)驗(yàn)室里的代碼,到游客手機(jī)里的精彩短片,這條路徑的打通,預(yù)示著AI視頻的“2分錢時(shí)代”,或許真的離我們不遠(yuǎn)了。
05 生態(tài)的“遠(yuǎn)征”:開源的火種,與AI人才的“實(shí)驗(yàn)田”
如果說(shuō)技術(shù)創(chuàng)新是“點(diǎn)”的突破,那么生態(tài)建設(shè)就是“面”的展開。《高校有為》的視野并未局限于一次具體的項(xiàng)目合作,而是探討了更宏大的命題:我們?cè)撊绾螛?gòu)建一個(gè)屬于自己的、繁榮的AI生態(tài)?
開源,是這場(chǎng)對(duì)話中反復(fù)出現(xiàn)的核心關(guān)鍵詞。
袁粒在談到為什么發(fā)起Open-Sora Plan時(shí),表達(dá)了一個(gè)堅(jiān)定的信念:AI的快速發(fā)展,核心就在于開源。他甚至認(rèn)為,正是開源的力量,在“倒逼”那些選擇閉源的巨頭,不得不加快開放的步伐,從而促進(jìn)了整個(gè)行業(yè)的繁榮。
但當(dāng)GPU受限,我們?nèi)绾瓮粐??答案是,建立一個(gè)強(qiáng)大的、開放的、讓所有人都能參與共建的“世界第二選擇”生態(tài)。
華為的戰(zhàn)略選擇與此不謀而合。王建輝明確表示,華為堅(jiān)持“硬件開放、軟件開源、使能伙伴、發(fā)展人才”,將CANN(異構(gòu)計(jì)算架構(gòu))、Mind系列使能套件及工具鏈等核心軟件棧全面開源,甚至?xí)penPangu在昇騰上完整的訓(xùn)練、推理過(guò)程和經(jīng)驗(yàn)全部開放給社區(qū)。
這是一種格局,更是一種智慧。硬件是軀干,而生態(tài)是血脈。只有當(dāng)成千上萬(wàn)的開發(fā)者、高校、企業(yè),都愿意基于這個(gè)平臺(tái)進(jìn)行創(chuàng)造和試錯(cuò),這個(gè)平臺(tái)才能在無(wú)數(shù)次的“過(guò)程創(chuàng)新”中,變得真正強(qiáng)大和富有韌性。
生態(tài)建設(shè)的另一個(gè)核心,是AI人才。
我們正處在一個(gè)AI人才井噴的時(shí)代,DeepSeek等頂尖模型團(tuán)隊(duì)中,涌現(xiàn)出大量來(lái)自中國(guó)高校的青年才俊。這背后,是中國(guó)扎實(shí)的數(shù)理基礎(chǔ)教育,更是產(chǎn)學(xué)研深度融合的人才培養(yǎng)模式。
袁粒強(qiáng)調(diào),大模型訓(xùn)練,本質(zhì)上是一門“實(shí)驗(yàn)科學(xué)”。學(xué)生如果只停留在課本理論,沒有親手接觸和調(diào)試過(guò)大規(guī)模集群,沒有在海量的算力消耗中積累“know-how”(實(shí)踐訣竅),就無(wú)法成長(zhǎng)為真正的頂尖人才。
這也是華為與北大、清華等16所頂尖高校共建“鯤鵬昇騰科教創(chuàng)新卓越中心/孵化中心”的價(jià)值所在——正構(gòu)建產(chǎn)學(xué)研協(xié)同新范式。卓越中心和孵化中心通過(guò)與高校的緊密合作,為多個(gè)跨學(xué)科研究提供強(qiáng)有力的技術(shù)支撐,將產(chǎn)業(yè)界最真實(shí)的難題、最前沿的工具、最寶貴的實(shí)踐經(jīng)驗(yàn),帶入課堂和實(shí)驗(yàn)室,為AI人才的成長(zhǎng),提供了一片最肥沃的“實(shí)驗(yàn)田”。
從開源的火種,到人才的沃土,一場(chǎng)圍繞國(guó)產(chǎn)AI生態(tài)的“遠(yuǎn)征”,已經(jīng)啟航。
06 智能的溫度——為什么AI寫不出《三體》?
在長(zhǎng)達(dá)兩小時(shí),信息量爆炸的“茶話會(huì)”臨近結(jié)束時(shí),對(duì)話的走向,卻從硬核的技術(shù),轉(zhuǎn)向了一個(gè)柔軟的哲學(xué)問(wèn)題:AI會(huì)取代人類的創(chuàng)造力嗎?
袁粒的回答,為這場(chǎng)“思想風(fēng)暴”畫上了一個(gè)充滿人文關(guān)懷的句號(hào)。
他說(shuō):“AI,本質(zhì)上仍是一個(gè)工具。人類的真正價(jià)值,在于體驗(yàn)。”
他舉了劉慈欣創(chuàng)作《三體》的例子。劉慈欣之所以能寫出那樣宏大而深刻的作品,不僅僅因?yàn)樗闹R(shí)儲(chǔ)備,更因?yàn)樗鳛橐粋€(gè)工程師,在水電站工作了幾十年,親身經(jīng)歷過(guò)那個(gè)特殊的年代。作品中蘊(yùn)含的,是他作為“碳基生物”,用肉體感受過(guò)的痛苦、快樂、希望與絕望。
而AI,作為“硅基生命”,它可以學(xué)習(xí)人類所有的知識(shí),擁有海量的“經(jīng)驗(yàn)”,但它沒有“體驗(yàn)”。它無(wú)法理解一個(gè)物理的身體在真實(shí)世界中的交互,無(wú)法感受時(shí)間的流逝和生命的脆弱。
“它沒有親身的經(jīng)歷,這種肉體上的體驗(yàn),是碳基生物獨(dú)有的。”
技術(shù)的發(fā)展永無(wú)止境,但我們不應(yīng)忘記,驅(qū)動(dòng)這一切的,始終是人類對(duì)世界的好奇、對(duì)美的追求、以及對(duì)生命本身的深刻體驗(yàn)。這或許是智能時(shí)代,值得我們記錄和傳遞的“溫度”,是我們面對(duì)AI浪潮時(shí),最應(yīng)該堅(jiān)守的“錨點(diǎn)”。
本期《高校有為》的思辨之旅暫告一段落,但關(guān)于AI未來(lái)的探索永不止步。如果屏幕前的你對(duì)這場(chǎng)對(duì)話意猶未盡,渴望見證更多像Open-Sora Plan與昇騰結(jié)合這樣的前沿成果落地,那么,我們有一個(gè)新的約定。
9月20日,華為全聯(lián)接大會(huì)開發(fā)者日將匯聚更多高校科研與開發(fā)者生態(tài)實(shí)踐。屆時(shí),我們?cè)僖煌钊胩接?,見證實(shí)干的力量。感謝大家對(duì)《高校有為》的關(guān)注,我們下期再見!