AI爆發(fā)催生“超級(jí)工廠”需求,傳統(tǒng)網(wǎng)絡(luò)成瓶頸

隨著生成式AI、大語言模型(LLM)參數(shù)規(guī)模突破萬億,AI計(jì)算需求正呈指數(shù)級(jí)增長。傳統(tǒng)單個(gè)數(shù)據(jù)中心已逼近電力(如單設(shè)施功耗上限)與容量(如GPU集群規(guī)模)的雙重天花板——據(jù)NVIDIA數(shù)據(jù),現(xiàn)代AI工廠需協(xié)調(diào)數(shù)萬臺(tái)甚至數(shù)十萬臺(tái)GPU協(xié)同工作,而傳統(tǒng)以太網(wǎng)基礎(chǔ)設(shè)施存在高延遲、信號(hào)抖動(dòng)、性能不可預(yù)測等問題,無法滿足分布式AI訓(xùn)練與推理的嚴(yán)苛需求。

“AI工業(yè)革命已然到來,巨型AI工廠是這場革命的核心基礎(chǔ)設(shè)施。”NVIDIA創(chuàng)始人兼CEO黃仁勛表示,“借助Spectrum-XGS以太網(wǎng)技術(shù),我們在‘縱向擴(kuò)展’(Scale-Up)和‘橫向擴(kuò)展’(Scale-Out)能力之外,新增了‘跨域擴(kuò)展’維度,可將分布在城市、國家乃至全球的數(shù)-據(jù)中心連接成龐大的千兆級(jí)AI超級(jí)工廠?!?/p>

這種需求背后,是AI工作負(fù)載的根本性變化:訓(xùn)練萬億參數(shù)模型需將計(jì)算任務(wù)拆分到數(shù)萬GPU節(jié)點(diǎn),通過“全歸約”(All-Reduce)、“全交換”(All-to-All)等集合操作實(shí)時(shí)合并數(shù)據(jù);而推理階段的檢索增強(qiáng)生成(RAG)、多租戶云服務(wù),則要求網(wǎng)絡(luò)兼具低延遲、高吞吐量與用戶間性能隔離。傳統(tǒng)以太網(wǎng)為單服務(wù)器 workload 設(shè)計(jì),面對此類需求時(shí)吞吐量僅能達(dá)到60%左右(因流沖突),成為AI規(guī)?;年P(guān)鍵瓶頸。

Spectrum-XGS如何打通“跨區(qū)域”壁壘?

作為NVIDIA Spectrum-X以太網(wǎng)平臺(tái)的突破性升級(jí),Spectrum-XGS并非孤立技術(shù),而是通過“軟件算法與硬件整合”構(gòu)建的跨區(qū)域AI網(wǎng)絡(luò)解決方案。

Spectrum-XGS深度整合于Spectrum-X平臺(tái),搭載距離自適應(yīng)擁塞控制算法與端到端遙測技術(shù),可根據(jù)數(shù)據(jù)中心間的物理距離(如跨城市、跨區(qū)域)實(shí)時(shí)調(diào)整網(wǎng)絡(luò)參數(shù)。

依托Spectrum-X平臺(tái)的硬件基礎(chǔ),Spectrum-XGS延續(xù)了“無損網(wǎng)絡(luò)與高性能硬件”的設(shè)計(jì):搭配NVIDIA Spectrum-X交換機(jī),配合NVIDIA ConnectX-8超級(jí)網(wǎng)卡(SuperNIC)。

為支撐千兆級(jí)AI工廠的能耗與可靠性需求,Spectrum-XGS與NVIDIA最新的共封裝光學(xué)(CPO)技術(shù)深度協(xié)同。不同于傳統(tǒng)“交換機(jī)ASIC與外置光模塊”的設(shè)計(jì),CPO將硅光子引擎直接集成到交換機(jī)封裝內(nèi),光纖直接連接ASIC旁的光學(xué)引擎。

全棧技術(shù)支撐“超級(jí)工廠”運(yùn)轉(zhuǎn)

Spectrum-XGS的價(jià)值并非孤立存在,而是與NVIDIA的AI全棧技術(shù)形成協(xié)同,構(gòu)建“縱向擴(kuò)展-橫向擴(kuò)展-跨區(qū)域擴(kuò)展”的三層AI基礎(chǔ)設(shè)施架構(gòu):

縱向擴(kuò)展(Scale-Up):依托NVLink Fusion技術(shù),單個(gè)機(jī)架內(nèi)的GPU可通過NVLink Switch實(shí)現(xiàn)全連接——例如GB200 NVL72系統(tǒng)將36個(gè)GB200超級(jí)芯片(含72個(gè)Blackwell GPU)連接成單一NVLink域,提供130 TB/s的GPU間帶寬,使整個(gè)機(jī)架成為“一臺(tái)巨型GPU”;

橫向擴(kuò)展(Scale-Out):通過NVIDIA Quantum InfiniBand交換機(jī)(如Quantum-X800)連接多個(gè)機(jī)架,利用SHARPv4技術(shù)在網(wǎng)絡(luò)內(nèi)完成集合操作,支撐數(shù)十萬GPU的集群調(diào)度;

跨區(qū)域擴(kuò)展(Scale-Across):由Spectrum-XGS打通地理壁壘,將上述集群整合為跨數(shù)據(jù)中心的AI超級(jí)工廠,同時(shí)兼容企業(yè)已有的以太網(wǎng)軟件生態(tài)(如Cumulus Linux、開源SONiC操作系統(tǒng)),降低遷移成本。

此外,NVIDIA的開源軟件生態(tài)進(jìn)一步優(yōu)化Spectrum-XGS的性能:NCCL庫實(shí)現(xiàn)跨區(qū)域GPU間的高效通信,TensorRT-LLM針對Blackwell架構(gòu)優(yōu)化推理kernels,Dynamo框架通過“解耦推理階段與LLM感知調(diào)度”提升跨區(qū)域推理吞吐量(如GPT-OSS 120B模型交互速度提升4倍)。這種“硬件-軟件-算法”的深度整合,確??鐓^(qū)域AI集群不僅“連得通”,更能“跑得順”。

CoreWeave率先部署,加速行業(yè)應(yīng)用

作為首批采用Spectrum-XGS的企業(yè),云計(jì)算服務(wù)商CoreWeave計(jì)劃將其數(shù)據(jù)中心網(wǎng)絡(luò)升級(jí)為“統(tǒng)一AI超級(jí)計(jì)算機(jī)”。“CoreWeave的使命是為全球創(chuàng)新者提供最強(qiáng)大的AI基礎(chǔ)設(shè)施,”

CoreWeave聯(lián)合創(chuàng)始人兼CTO Peter Salanki表示,“借助Spectrum-XGS,我們可將分布在不同地區(qū)的數(shù)據(jù)中心整合成單一計(jì)算單元,讓客戶獲得千兆級(jí)AI算力,加速各行業(yè)的突破性創(chuàng)新——從藥物研發(fā)到自動(dòng)駕駛仿真?!?/p>

除CoreWeave外,NVIDIA已與Cisco、Dell Technologies、HPE、Supermicro等合作伙伴達(dá)成合作,計(jì)劃將Spectrum-XGS集成到其服務(wù)器與數(shù)據(jù)中心解決方案中,推動(dòng)跨區(qū)域AI超級(jí)工廠的規(guī)模化落地。

開啟十億瓦AI工廠時(shí)代

Spectrum-XGS的發(fā)布,標(biāo)志著AI基礎(chǔ)設(shè)施正式進(jìn)入“十億瓦級(jí)”階段——據(jù)NVIDIA預(yù)測,未來幾年將出現(xiàn)搭載百萬GPU、功耗達(dá)十億瓦的AI工廠,支撐物理AI(如機(jī)器人、自動(dòng)駕駛)、個(gè)性化醫(yī)療、國家級(jí)語言服務(wù)等場景。而Spectrum-XGS通過“跨區(qū)域擴(kuò)展”能力,使這類超大規(guī)模設(shè)施無需局限于單一物理地點(diǎn),可根據(jù)電力、算力需求靈活分布,同時(shí)保持高效協(xié)同。

從NVLink縫合機(jī)架內(nèi)GPU,到Quantum InfiniBand連接集群,再到Spectrum-XGS打通跨區(qū)域壁壘,NVIDIA正通過全棧創(chuàng)新重新定義“數(shù)據(jù)中心即計(jì)算機(jī)”——在這場AI工業(yè)化革命中,網(wǎng)絡(luò)不再是“后端組件”,而是驅(qū)動(dòng)創(chuàng)新的核心支柱。

分享到

lixiangjing

算力豹主編

相關(guān)推薦