此外更爆炸的是兩大國產(chǎn)AI芯片巨頭寒武紀(jì)與華為昇騰在模型發(fā)布當(dāng)日即宣布完成全面適配支持。

這一“Day 0”級別的快速響應(yīng),宣告了國產(chǎn)大模型與國產(chǎn)AI芯片之間前所未有的協(xié)同發(fā)展態(tài)勢已然形成。這不再是軟件追趕硬件,或硬件等待軟件的傳統(tǒng)模式,而是一種深度綁定、共同進(jìn)化的新型產(chǎn)業(yè)關(guān)系。

文字編輯|宋雨涵

1

DeepSeek-V3.2-Exp:

重新定義長文本處理的效率與成本

DeepSeek-V3.2-Exp的發(fā)布,并非一次常規(guī)的性能迭代,而是對大模型底層架構(gòu)的一次大膽探索。其核心亮點(diǎn),直指當(dāng)前大模型應(yīng)用中最棘手的難題之一:長文本處理的效率與成本。

技術(shù)革新:DeepSeek稀疏注意力(DSA)機(jī)制

傳統(tǒng)Transformer模型的核心是自注意力機(jī)制,它允許模型中的每個詞元(Token)關(guān)注輸入序列中的所有其他詞元。這種機(jī)制雖然強(qiáng)大,但也帶來了巨大的計(jì)算負(fù)擔(dān),其計(jì)算復(fù)雜度與序列長度(L)的平方(O(L2))成正比。這意味著當(dāng)文本長度從1K增加到100K時,計(jì)算量會暴增一萬倍,使得超長文本的實(shí)時推理變得異常昂貴且緩慢。

DeepSeek-V3.2-Exp引入的DeepSeek稀疏注意力(DeepSeek Sparse Attention, DSA)機(jī)制,正是為了打破這一瓶頸。它巧妙地引入了一個名為“閃電索引器”(Lightning Indexer)的組件。該組件能夠像一位經(jīng)驗(yàn)豐富的速讀者,在處理海量歷史信息時,快速預(yù)判并索引出那些對當(dāng)前生成任務(wù)“最重要”的少數(shù)關(guān)鍵Token。隨后,模型只需將計(jì)算資源集中在這些被選中的關(guān)鍵信息上,進(jìn)行精細(xì)的注意力計(jì)算。

DeepSeek-V3.2-Exp模型中的稀疏注意力架構(gòu),核心在于“閃電索引器”和“Top-k選擇器”的高效協(xié)作。

通過這一革新,注意力的計(jì)算復(fù)雜度從O(L2)驟降至O(Lk),其中k是一個遠(yuǎn)小于序列長度L的固定值。這意味著,即使處理的文本再長,其計(jì)算成本的增長也趨于線性,而非指數(shù)級爆炸。

“性能不降、成本驟減”

技術(shù)上的優(yōu)雅最終要體現(xiàn)在實(shí)際應(yīng)用價值上。DeepSeek-V3.2-Exp在這一點(diǎn)上交出了一份令人信服的答卷。

根據(jù)官方公布的數(shù)據(jù),在處理128K(約20萬漢字)的超長文本時,新模型的推理成本相比前代V3.1-Terminus模型實(shí)現(xiàn)了驚人的下降。無論是在處理初始輸入(Prefilling)還是在逐字生成(Decoding)階段,成本節(jié)約都極為顯著。

與V3.1相比,V3.2-Exp在Prefilling和Decoding階段的推理成本隨文本長度增長極為平緩,優(yōu)勢明顯。

更重要的是,這種效率的提升并未以犧牲核心能力為代價。在編程、數(shù)學(xué)、邏輯推理等關(guān)鍵能力的嚴(yán)謹(jǐn)評估中,DeepSeek-V3.2-Exp與前代旗艦?zāi)P突境制?。這一成果直接轉(zhuǎn)化為對開發(fā)者社區(qū)的重大利好:得益于效率提升,DeepSeek官方宣布其API價格大幅下調(diào)超過50%,其中輸出成本降至每百萬Token僅需3元人民幣。

2

“零日適配”:

國產(chǎn)AI生態(tài)成熟的標(biāo)志

如果說DeepSeek-V3.2-Exp的發(fā)布是一場精彩的獨(dú)奏,那么寒武紀(jì)與華為昇騰的“零日適配”(Day 0 Adaptation)則為這段獨(dú)奏注入了靈魂,產(chǎn)生共鳴。這標(biāo)志著國產(chǎn)AI生態(tài)已經(jīng)具備與國際頂尖水平相媲美的敏捷性和協(xié)同能力。

寒武紀(jì):速度與開源的結(jié)合

在DeepSeek模型發(fā)布的同一天,寒武紀(jì)迅速跟進(jìn),不僅宣布其AI芯片已完成對DeepSeek-V3.2-Exp的適配,更同步開源了其大模型推理引擎vLLM-MLU的適配源代碼。這種“即發(fā)即用,源碼開放”的姿態(tài),展現(xiàn)了寒武紀(jì)對開源生態(tài)的堅(jiān)定擁抱和技術(shù)自信。

DeepSeek與寒武紀(jì)在社交媒體上幾乎同時發(fā)布消息,彰顯了雙方緊密的合作關(guān)系。

據(jù)了解,寒武紀(jì)通過Triton算子開發(fā)實(shí)現(xiàn)了快速適配,并利用其自研的BangC融合算子技術(shù)進(jìn)行了極致的性能優(yōu)化。結(jié)合DeepSeek模型的稀疏特性與寒武紀(jì)芯片的計(jì)算效率,長序列場景下的AI應(yīng)用成本有望被進(jìn)一步壓縮。開發(fā)者可以訪問vLLM-MLU的GitHub倉庫獲取源碼。

華為昇騰:性能與編程范式的創(chuàng)新

華為昇騰同樣展現(xiàn)了驚人的響應(yīng)速度,第一時間基于vLLM、SGLang等主流推理框架完成了對新模型的部署支持,并同樣面向開發(fā)者開源了所有推理代碼和算子實(shí)現(xiàn)。

華為昇騰強(qiáng)調(diào)其“0Day支持”能力,并突出其在算子編程上的創(chuàng)新。

昇騰團(tuán)隊(duì)針對模型中的“Lightning Indexer”和“Sparse Flash Attention”這兩個全新算子,進(jìn)行了深度優(yōu)化,確保在128K長序列下依然能保持低于2秒的首字返回時間(TTFT)和低于30毫秒的吞吐性能(TPOT)。

更重要的是,昇騰CANN借此機(jī)會首次推出了PyPTO大融合算子編程體系。這一創(chuàng)新的PTO(Python-based Tensor Operator)編程范式,允許開發(fā)者僅用數(shù)百行Python代碼即可完成過去需要數(shù)千行C++代碼才能實(shí)現(xiàn)的動態(tài)Shape算子開發(fā),極大地降低了AI算子開發(fā)的門檻和周期。同時,對新興AI編程語言TileLang的支持,也展現(xiàn)了昇騰積極擁抱前沿技術(shù)、構(gòu)建開放生態(tài)的決心。

3

軟硬件協(xié)同

國產(chǎn)AI的必然與未來

國產(chǎn)大模型與AI芯片的緊密協(xié)同,
正在形成獨(dú)特的競爭優(yōu)勢。DeepSeek-V3.2-Exp與國產(chǎn)芯片的 “同頻發(fā)布”,并非偶然的技術(shù)巧合,而是中國AI產(chǎn)業(yè)從 “單點(diǎn)突破” 向 “系統(tǒng)作戰(zhàn)” 轉(zhuǎn)型的必然結(jié)果。

快速響應(yīng)能力構(gòu)建生態(tài)壁壘。Day 0適配的實(shí)現(xiàn),依賴于模型廠商與芯片廠商的前期技術(shù)協(xié)同、接口標(biāo)準(zhǔn)化建設(shè)和聯(lián)合調(diào)試機(jī)制。這種 “提前布局、即時響應(yīng)” 的能力,使國產(chǎn)生態(tài)能快速捕捉技術(shù)創(chuàng)新紅利,在與國際巨頭的競爭中搶占時間窗口。

中科曙光:開放架構(gòu)“跨層協(xié)同”

基于中國首個AI計(jì)算開放架構(gòu),芯片層、軟件層、模型層實(shí)現(xiàn)“跨層協(xié)同”,使得曙光AI超集群系統(tǒng)完成對DeepSeek新版本的深度適配與調(diào)優(yōu),支持各行各業(yè)客戶進(jìn)行全量落地部署。

AI計(jì)算開放架構(gòu)原生具備“跨層聯(lián)動”優(yōu)勢,通過統(tǒng)一的技術(shù)標(biāo)準(zhǔn)和接口規(guī)范,打通從底層硬件到上層應(yīng)用的全鏈路:

在芯片層,適配國產(chǎn)主流GPU加速卡,避免客戶被單一廠商鎖定;

在軟件層,DeepAI深算智能引擎發(fā)揮關(guān)鍵作用,內(nèi)置的GPU異構(gòu)計(jì)算工具套件在編程前端提供與CUDA邏輯完全一致的接口,使國產(chǎn)GPU廠商只需維護(hù)一套代碼即可無縫兼容CUDA;

在模型層,全面支持以DeepSeek為代表的全球主流開源大模型。

曙光AI超集群系統(tǒng)擁有“超高性能、超高效率、超高可靠、全面開放”四大特征,“跨層聯(lián)動”優(yōu)勢使得曙光AI超集群可以充分利用自身的緊耦合系統(tǒng)設(shè)計(jì),快速適配DeepSeek-V3.2-Exp,并高效支持Tilelang算子,確保大模型算力“零等待”部署。

在不久前召開的2025人工智能計(jì)算大會上還發(fā)布《超節(jié)點(diǎn)智算應(yīng)用“北京方案”》,該方案以 “國芯、國連、國用” 為核心理念,精準(zhǔn)對接多元行業(yè)場景的智能體開發(fā)需求。

這一方案為“人工智能+”在各領(lǐng)域的深度落地提供了實(shí)踐路徑。從模型到芯片,從系統(tǒng)軟件到應(yīng)用生態(tài),國產(chǎn)AI產(chǎn)業(yè)的全棧協(xié)同格局正在形成。

結(jié)語:

DeepSeek-V3.2-Exp與國產(chǎn)AI芯片的“零日之舞”,標(biāo)志著中國AI產(chǎn)業(yè)已從過去的“單點(diǎn)突破”正式進(jìn)入“生態(tài)協(xié)同”的新階段。這種軟硬件深度綁定的發(fā)展模式,正在為國產(chǎn)AI產(chǎn)業(yè)筑起堅(jiān)實(shí)的技術(shù)壁壘和生態(tài)優(yōu)勢。

分享到

lixiangjing

算力豹主編

相關(guān)推薦