這不僅僅是一次模型升級,更是中國AI算力自主化道路上的重要里程碑。DeepSeek此次的技術(shù)選擇,首次從軟件層面反向定義國產(chǎn)芯片標(biāo)準(zhǔn),為擺脫對外部算力的依賴提供了關(guān)鍵支撐。

如果把AI產(chǎn)業(yè)比作一條高速公路,過去三十年我們擅長把路修寬(擴(kuò)大算力規(guī)模),卻一直在用別國設(shè)計(jì)的“車道寬度”(FP32/FP16/BF16 等國際標(biāo)準(zhǔn))。DeepSeek這一次把車道縮到8bit,卻通過UE8M0把動(dòng)態(tài)范圍放大32倍,等于在原有路基上憑空多修了兩條應(yīng)急車道——不增加制造成本,卻讓國產(chǎn)芯片第一次能把大模型“開”得又快又穩(wěn)。

文字編輯|宋雨涵

1

技術(shù)破局:

FP8不再是英偉達(dá)的獨(dú)角戲

在AI計(jì)算領(lǐng)域,數(shù)據(jù)精度格式長期被國際巨頭主導(dǎo)。FP8(8位浮點(diǎn)數(shù))作為較新的數(shù)據(jù)格式,能夠顯著降低顯存占用和計(jì)算資源需求,同時(shí)保持較高的計(jì)算精度。

傳統(tǒng)FP8存在兩種主流格式:E4M3(4位指數(shù)+3位尾數(shù))和E5M2(5位指數(shù)+2位尾數(shù)),均由英偉達(dá)等國際巨頭主導(dǎo)制定。

DeepSeek采用的UE8M0格式則完全不同:無符號(hào)、8位指數(shù)、0位尾數(shù),這種格式只能表示2的n次方,特別適合作為縮放因子在矩陣運(yùn)算中使用。

UE8M0最初來源于NVIDIA PTX指令集,但DeepSeek通過DeepGEMM開源庫實(shí)現(xiàn)了工程化突破,為整個(gè)生態(tài)的落地提供了可能。

UE8M0 FP8詳細(xì)解讀

FP8:FP代表浮點(diǎn)數(shù)(小數(shù)),8代表數(shù)據(jù)用8bit(8位0、1)表示。計(jì)算機(jī)里的小數(shù)都是用科學(xué)計(jì)數(shù)法表示的,只不過與通常的科學(xué)計(jì)數(shù)法不同,不是10的次方,而是2的次方,例如3.14可以表示為1.57*2^1,0.618可以表示為1.236*2^(-1)。

U:Unsigned,無符號(hào),與有符號(hào)(Signed)相對應(yīng),也就是數(shù)字不帶正負(fù)號(hào),這種數(shù)據(jù)格式無法表示負(fù)數(shù),但是可以用同樣的數(shù)據(jù)長度表示更多正數(shù)。

E:Exponent,指數(shù),科學(xué)計(jì)數(shù)法的“次方”。

M:Mantissa,尾數(shù),科學(xué)計(jì)數(shù)法的“頭”或“有效數(shù)字”。

UE8M0:無符號(hào)(只能取0或正數(shù)),用8位數(shù)字表達(dá)指數(shù),用0位數(shù)字表達(dá)尾數(shù)(此時(shí)尾數(shù)默認(rèn)為1),也就是說這種數(shù)字格式只能表示2的n次方,從2的0次方到2的255次方。

UE8M0與常規(guī)FP8的區(qū)別:常規(guī)FP8通常是“(S1)E5M2”或者“(S1)E4M3”,對數(shù)據(jù)的表示范圍有所不同。

與英偉達(dá)主導(dǎo)的E4M3/E5M2 FP8標(biāo)準(zhǔn)相比,UE8M0的無符號(hào)設(shè)計(jì)和全指數(shù)編碼更貼合國產(chǎn)芯片的架構(gòu)特性。例如,摩爾線程MTT S5000 GPU、芯原VIP9000 NPU等新一代國產(chǎn)芯片已原生支持UE8M0格式,并與DeepSeek等15家廠商完成聯(lián)合驗(yàn)證。這種軟硬協(xié)同的設(shè)計(jì),使國產(chǎn)芯片在同等硬件條件下可運(yùn)行更大規(guī)模模型,“性價(jià)比” 競爭力顯著提升。

2

為什么是UE8M0?

國產(chǎn)算力的巧妙取舍

相比傳統(tǒng)浮點(diǎn)格式(如FP32、FP16或BF16),UE8M0 FP8的優(yōu)勢包括:

1、內(nèi)存和帶寬節(jié)省:FP8能減少50%-75%的內(nèi)存占用,而UE8M0進(jìn)一步簡化結(jié)構(gòu)(無符號(hào)、無尾數(shù)),在相同硬件下可降低顯存需求高達(dá)75%,允許更大模型在有限資源上運(yùn)行;

2、計(jì)算效率提升:通過將浮點(diǎn)乘法轉(zhuǎn)換為指數(shù)加法,利用整數(shù)計(jì)算單元,應(yīng)對算力不足的問題。在訓(xùn)練速度上,可提高整體效率,減少硬件依賴(如手機(jī)芯片陣列);相比標(biāo)準(zhǔn)FP8,UE8M0更適合微縮放場景,減少量化誤差,并在國產(chǎn)芯片上提供更高兼容性;

3、成本降低:更低的內(nèi)存和計(jì)算需求意味著數(shù)據(jù)中心的運(yùn)營成本下降;而且,相比FP4(更低精度但精度損失更大),UE8M0平衡了效率和可用性,避免過度犧牲模型性能。

舉例來說,2^m * 2^n = 2^(m+n),只需要一次加法運(yùn)算即可完成。在硬件層面,加法器電路面積遠(yuǎn)小于乘法器,運(yùn)算速度也快數(shù)倍,這可大幅提升計(jì)算效率并降低芯片面積。

對國產(chǎn)芯片而言,這一特性意義重大。通過在有限制程下塞入更多整形計(jì)算單元,國產(chǎn)芯片可以在硬件性能暫時(shí)落后的情況下,通過算法優(yōu)化實(shí)現(xiàn)綜合競爭力的提升。

UE8M0格式的采用,體現(xiàn)了DeepSeek在工程優(yōu)化上的創(chuàng)新思維:以算法創(chuàng)新彌補(bǔ)硬件不足,為國產(chǎn)算力找到了一條差異化發(fā)展路徑。

三、挑戰(zhàn)與機(jī)遇并存:國產(chǎn)算力的黃金時(shí)代

盡管UE8M0 FP8帶來了新的機(jī)遇,國產(chǎn)算力仍面臨多重挑戰(zhàn)。

硬件基礎(chǔ)上,國產(chǎn)芯片在制程工藝、內(nèi)存帶寬、互聯(lián)技術(shù)等方面與國際頂尖水平存在差距。

軟件生態(tài)的成熟非一日之功,需要芯片廠商、算法公司、應(yīng)用開發(fā)者共同長期投入。 UE8M0 FP8要真正發(fā)揮作用,需要國產(chǎn)芯片在算子層面原生支持E4M3/E5M2格式,并支持UE8M0縮放標(biāo)準(zhǔn)。

國際市場政策環(huán)境的不確定性,也可能影響相關(guān)技術(shù)的全球推廣與合作。 國產(chǎn)算力需要在國內(nèi)市場率先形成閉環(huán)應(yīng)用,才能具備國際競爭力。

建議與思考,國產(chǎn)算力的發(fā)展路徑

對芯片廠商而言,應(yīng)加快FP8技術(shù)的硬件支持,同時(shí)積極參與軟件生態(tài)建設(shè),降低開發(fā)者使用門檻。

對模型開發(fā)商而言,應(yīng)繼續(xù)深化與芯片廠商的合作,通過算法創(chuàng)新彌補(bǔ)硬件不足,實(shí)現(xiàn)軟硬件協(xié)同優(yōu)化。

對政府部門而言,應(yīng)保持政策連續(xù)性,同時(shí)加強(qiáng)標(biāo)準(zhǔn)制定和產(chǎn)業(yè)引導(dǎo),避免重復(fù)建設(shè)和資源浪費(fèi)。

對行業(yè)用戶而言,應(yīng)給予國產(chǎn)算力更多試錯(cuò)機(jī)會(huì),通過實(shí)際應(yīng)用反饋促進(jìn)技術(shù)迭代,共同構(gòu)建國產(chǎn)算力生態(tài)。

結(jié)語:

FP8的本質(zhì)是通過一定精度的犧牲,來取得更大的算力綜合性能。DeepSeek作為領(lǐng)先的AI模型開發(fā)商,其技術(shù)選型對行業(yè)具有強(qiáng)示范效應(yīng),成功應(yīng)用FP8證明了這一技術(shù)路徑的可行性,為整個(gè)產(chǎn)業(yè)提供了重要參考。

隨著國產(chǎn)芯片對FP8的全面支持和完善,中國有望在AI算力領(lǐng)域形成硬件、軟件、應(yīng)用協(xié)同發(fā)展的良性生態(tài)。這不僅將支撐中國AI產(chǎn)業(yè)的創(chuàng)新發(fā)展,更將在全球算力格局中塑造新的競爭態(tài)勢。

分享到

lixiangjing

算力豹主編

相關(guān)推薦