峰會上,華為上海政企計算業(yè)務副總經(jīng)理王勇樺帶來了《深耕算力底座,加速AI賦能千行萬業(yè)》的主題演講,深度剖析了大模型發(fā)展態(tài)勢、算力需求變化以及昇騰AI的全方位布局,為人工智能產(chǎn)業(yè)發(fā)展提供了新的思路與方向。

文字編輯|李祥敬

1

大模型發(fā)展:從技術探索到工程創(chuàng)新雙輪驅動

新一輪“百模千態(tài)”

大模型的發(fā)展歷程,最早可追溯至Google提出Transformer架構,隨后大模型相繼誕生。ChatGPT的爆火讓大眾熟知“大模型”概念,而DeepSeek的問世則為大模型發(fā)展帶來了新的變革。它不僅發(fā)布了多款全參數(shù)模型和蒸餾版本模型,滿足不同行業(yè)部署需求,還通過開源及后訓練范式,降低行業(yè)用戶使用大模型門檻,引發(fā)新一輪“百模千態(tài)”。
DeepSeek推出的COT鏈式思維管理模式,贏得了眾多用戶的關注。在新藥研發(fā)等場景中,COT推理過程能幫助科研人員更快驗證假設命題,減少重復試錯,提高研發(fā)效率。對于頭部基模型廠商而言,雖然他們在模型參數(shù)量增長和后訓練范式選擇上各有研究,但仍遵循Scaling原則,不斷提升模型能力和性能。
DeepSeek的出現(xiàn),讓自然語言大模型進入類似傳統(tǒng)卷積神經(jīng)網(wǎng)絡“CV Resnet”的發(fā)展階段,實現(xiàn)性能和性價比雙輪普及。它開源全棧技術鏈,公開技術細節(jié)和算法訓練模式,使得行業(yè)用戶能夠基于此打造自己的行業(yè)大模型。這種開源與創(chuàng)新的模式,激發(fā)了基礎模型創(chuàng)新、應用創(chuàng)新和全民普及。國際AI頭部公司紛紛加大算力投資,眾多企業(yè)接入DeepSeek探索應用,To C用戶也呈現(xiàn)爆炸式增長。

2

算力需求變革:多維度驅動增長

指數(shù)級增長

隨著大模型結構和算力結構的改變,美國大廠持續(xù)加大算力投資,如“星際之門”計劃未來四年投資5000億美金打造人工智能基礎設施底座。在模型發(fā)展的兩條路徑——卷Scaling提升參數(shù)量和后訓練打造行業(yè)模型的推動下,影響模型能力的因素不斷變化,也使得算力需求呈指數(shù)級增長。
從參數(shù)量維度來看,DeepSeek公布了6711億參數(shù),GPT5預計今年發(fā)布,參數(shù)將達18萬億,模型參數(shù)量的大幅增長對算力提出了更高要求。數(shù)據(jù)量維度,模型正從單模態(tài)走向多模態(tài),多模態(tài)模型對數(shù)據(jù)生成和需求呈海量增長。以階躍發(fā)布的Step-Video、Step-Audio和千問的多模態(tài)模型為例,數(shù)據(jù)量的增長意味著需要更強大的算力來處理和分析。序列長度方面,傳統(tǒng)日常對話訓練長度較短,但在科研和企業(yè)領域,如解析論文、理解視頻,需要更長的序列長度,這同樣增加了對算力的需求。

3

昇騰AI全棧解決方案:從算力到應用的深度賦能

全流程

面對不斷增長的算力需求,昇騰AI在AI基礎軟硬件領域持續(xù)深耕,提供全棧解決方案。自2018年發(fā)布全棧人工智能解決方案后,陸續(xù)推出AI集群、AI框架、AI異構計算架構,并實現(xiàn)全流程應用軟硬件的開源開放。
圍繞CANN(Compute Architecture for Neural Networks),昇騰打造了異構計算架構和能力,提升了通訊庫維度的計算效率,如在集群大AP并行、EP和PP并行方面表現(xiàn)出色。CVC語言的發(fā)布,讓開發(fā)者可以采用類似英偉達CUDA C的開發(fā)范式,降低代碼開發(fā)難度。昇思自研的人工智能算力框架,完成了業(yè)界90%的模型對接,與昇騰結合,有效提升模型訓練和推理效率。
此外,昇騰還擁有全套工具鏈,包括MindStudio、CCAE等,用于模型遷移、性能優(yōu)化、調優(yōu)和精度調試,以及集群部署后的故障定位與排除。在集群部署方面,Atlas 900 AI集群通過超節(jié)點能力提升,實現(xiàn)分布式并行速率的提高,將所有服務器看作單臺進行超大參數(shù)量模型訓練,大幅縮短模型部署時間,提高算力利用率。
在可靠性設計上,昇騰實現(xiàn)了周計的長穩(wěn)運行,在萬卡集群下無故障運行,保障了模型訓練和運行的穩(wěn)定性。后訓練維度,Atlas 800 AI單機服務器預置自動化腳本,支持更敏捷的行業(yè)模型開發(fā)。在推理維度,通過軟硬協(xié)同方案,提升企業(yè)AI落地的經(jīng)濟性。

4

適配DeepSeek:昇騰AI的優(yōu)勢與創(chuàng)新

創(chuàng)新點

在DeepSeek模型的應用場景中,昇騰AI展現(xiàn)出顯著優(yōu)勢。針對DeepSeek發(fā)布的眾多路由專家和共享專家,以及服務器顯存瓶頸問題,昇騰打造了大EP并行能力,使單卡平均支持的最大并發(fā)數(shù)提升3倍以上。同時,昇騰原生適配DeepSeek的MLA特性,對傳統(tǒng)模型也有專業(yè)的顯存內存優(yōu)化方案,如Razor Attention壓縮算法,提升推理效率。
啟發(fā)式并行解碼是昇騰的又一創(chuàng)新點,類似DeepSeek的MTP,通過自研的draft預測,實現(xiàn)單卡內存占用優(yōu)化,提升整體推理和訓練效率。昇騰AI從方案、性能和生態(tài)三個維度,成為加速DeepSeek創(chuàng)新落地的最優(yōu)解。其全流程方案覆蓋從預訓練到推理的各個環(huán)節(jié),與DeepSeek原生架構和開發(fā)特性全棧親和,生態(tài)方面也完成了開源開放,適配Transformer架構下的所有依賴算子。
針對不同規(guī)模的企業(yè),昇騰AI提供差異化服務。對于中小企業(yè),聯(lián)合業(yè)界打造推理一體機,提供定制化服務,滿足企業(yè)從向量知識庫構建到強化學習的全流程需求。對于大模型部署的不同階段,昇騰AI也推出相應解決方案,幫助企業(yè)逐步探索和深化大模型應用。

5

生態(tài)構建:合作共贏,培育未來

積極與各方合作

在生態(tài)建設方面,昇騰AI積極與各方合作。與PyTorch、vLLM社區(qū)合作,華為加入PyTorch基金協(xié)會成為Premier會員,vLLM社區(qū)原生公布針對昇騰的project,使得昇騰基于這些社區(qū)的特性能夠開箱即用。
在硬件開放上,聯(lián)合整機伙伴發(fā)布多款產(chǎn)品,發(fā)展眾多APN伙伴,打造全棧全場景硬件解決方案。軟件開源方面,昇思MindSpore t服務大量客戶,社區(qū)下載量可觀。在使能伙伴方面,打造眾多伙伴認證和解決方案認證,生態(tài)滿足度在不同行業(yè)逐步提升。人才發(fā)展上,與高校緊密合作,新增多所高校合作,舉辦師資培訓,培養(yǎng)大量專業(yè)人才。

結語

華為昇騰AI在大模型發(fā)展的進程中,通過深耕算力底座,提供多樣化、場景化的解決方案,推動AI技術在千行萬業(yè)的落地應用。從大模型發(fā)展趨勢的把握,到算力需求的應對,再到全棧解決方案和生態(tài)構建,昇騰AI展現(xiàn)出強大的實力和創(chuàng)新能力。在未來,隨著人工智能產(chǎn)業(yè)的持續(xù)發(fā)展,昇騰AI有望與更多合作伙伴攜手,引領行業(yè)發(fā)展,為經(jīng)濟社會的智能化轉型注入新動力。

分享到

lixiangjing

算力豹主編

相關推薦