在當?shù)貢r間6月11日召開的AMD Advancing AI 2025峰會上,Supermicro組織了以“筑基人工智能未來(BUILD FOR WHAT’S NEXT IN AI)“為題的論壇,與AMD專家闡述了數(shù)據(jù)中心和機架規(guī)模的未來部署、端到端解決方案、液冷等內(nèi)容。

戰(zhàn)略聚焦:以規(guī)模與效率驅(qū)動AI基礎(chǔ)設(shè)施升級

作為增長最快的AI OEM供應商,Supermicro明確自身并非單純的合同制造商,而是通過精準捕捉市場需求實現(xiàn)快速增長——從2023財年的71億美元營收躍升至2024財年的149億美元,預計2025財年營收有望實現(xiàn)250億美元、2026 財年營收將可能達到 400 億美元。

這一樂觀預期的核心驅(qū)動力在于對部署規(guī)模與效率的深耕以及技術(shù)的突破:Supermicro在制造基地配備了18MW電力容量,可實現(xiàn)系統(tǒng)級與集群級測試;當前每月產(chǎn)能達5000個機架單元(RUs),其中液冷產(chǎn)品占2000個機架單元,為大規(guī)模AI集群驗證與交付奠定基礎(chǔ)。

Supermicro專家認為,AI基礎(chǔ)設(shè)施與傳統(tǒng)計算存在本質(zhì)差異,需從系統(tǒng)、機架到數(shù)據(jù)中心全層級優(yōu)化。因此,Supermicro針對性布局液冷技術(shù)、冷卻設(shè)備(如冷卻器、水塔)及配套硬件(冷板、冷卻分配單元CDU等),同時關(guān)注電源、重量、空間等數(shù)據(jù)中心級要素,避免部署中因準備不足導致的效率損耗,確保客戶投入的資金快速轉(zhuǎn)化為實際價值。

技術(shù)突破:液冷技術(shù)成大規(guī)模部署核心支撐

液冷技術(shù)作為本次演講的重點,被視為解決大規(guī)模AI集群能耗與效率問題的關(guān)鍵。相比傳統(tǒng)風冷,液冷在效率提升上優(yōu)勢顯著:通過對CPU、GPU、內(nèi)存甚至電源采用液冷方案,可實現(xiàn)40%的效率提升,目標是將液冷效率優(yōu)化至98%。

液冷技術(shù)的價值還體現(xiàn)在環(huán)保與運維優(yōu)化上:一方面,液冷能減少風扇依賴,降低噪音污染;另一方面,通過優(yōu)化冷水機組設(shè)計,可大幅減少數(shù)據(jù)中心用水量,兼顧高效與環(huán)保。此外,液冷方案通過緊湊化設(shè)計縮減布線與交換設(shè)備的空間占用,進一步降低基礎(chǔ)設(shè)施投資,為高密度AI集群部署提供可能。

生態(tài)協(xié)同:與AMD深度合作加速產(chǎn)品落地

Supermicro與AMD的合作是推動AI基礎(chǔ)設(shè)施落地的核心動力。雙方合作從2017年6月發(fā)布的Radeon instinct MI25系列延續(xù)至此次最新發(fā)布的MI 350/355系列,形成“聯(lián)合開發(fā)-早期測試-快速上市”的高效鏈路。Supermicro作為首批將AMD技術(shù)推向市場的廠商,已實現(xiàn)MI 350x系統(tǒng)交付,且MI355x風冷與液冷服務器于當月正式出貨,所有性能數(shù)據(jù)均經(jīng)Supermicro硬件驗證,并獲第三方機構(gòu)(如Signal 65)背書。

AMD則以開放生態(tài)強化合作根基:硬件上,其EPYC系列CPU憑借高頻調(diào)諧技術(shù)為AI負載提速17%,Instinct系列GPU(如MI 355)持續(xù)領(lǐng)跑性能;軟件上,ROCm平臺以免許可、全開放特性支持主流框架與編譯器,加速開發(fā)者創(chuàng)新;網(wǎng)絡層面,通過參與Ultra Ethernet Consortium等組織,推動InfiniBand、RDMA等技術(shù)標準化,實現(xiàn)集群級網(wǎng)絡性能與效率雙提升。

客戶實踐:從技術(shù)驗證到規(guī)?;涞氐膬r值閉環(huán)

Supermicro通過展示實際客戶案例印證了技術(shù)方案的可行性。

全球大型基礎(chǔ)設(shè)施服務商Vultr依托Supermicro與AMD的技術(shù),實現(xiàn)了每月300萬個實例部署,覆蓋云服務、GPU即服務等場景,憑借高性能與透明定價為客戶節(jié)省30%-60%成本,并通過FedRAMP等合規(guī)認證拓展企業(yè)級市場。

專注AI GPU集群的Tensor Wave則部署了全球首個大規(guī)模全液冷MI325x集群:該集群位于美國亞利桑那州,單機架功率密度達100-120千瓦,通過熱交換器技術(shù)實現(xiàn)低噪音、低溫環(huán)境運行,專為大規(guī)模AI訓練優(yōu)化,已支撐客戶在RNA視頻生成等場景實現(xiàn)高效推理與訓練。此外,Tensor Wave計劃于數(shù)月內(nèi)推出更大規(guī)模的MI350集群,進一步驗證AMD生態(tài)的規(guī)模化能力。

開放未來:以生態(tài)協(xié)同加速AI創(chuàng)新落地

Supermicro強調(diào),與AMD及客戶的協(xié)同是推動AI基礎(chǔ)設(shè)施進步的核心。Supermicro通過與AMD聯(lián)合優(yōu)化硬件、驗證性能,確保技術(shù)快速轉(zhuǎn)化為產(chǎn)品;AMD以開放戰(zhàn)略(硬件、軟件、網(wǎng)絡標準)降低創(chuàng)新門檻;客戶則通過大規(guī)模部署反饋需求,形成“技術(shù)-產(chǎn)品-應用”的正向循環(huán)。

從液冷技術(shù)突破到全棧生態(tài)構(gòu)建,Supermicro與AMD的合作不僅為AI基礎(chǔ)設(shè)施提供了高效解決方案,更印證了“技術(shù)創(chuàng)新+生態(tài)協(xié)同”是應對AI規(guī)?;魬?zhàn)的必然路徑,為行業(yè)持續(xù)輸送高效、環(huán)保且可落地的AI基礎(chǔ)設(shè)施藍圖。

分享到

xiesc

相關(guān)推薦