最常見的,MGX主要面向OEM服務(wù)器廠商,服務(wù)器廠商用它做成AI服務(wù)器。HGX常用在超大規(guī)模數(shù)據(jù)中心里,由像Supermicro這樣的ODM廠商生產(chǎn)。而DGX是一個(gè)集成度最高的方案,開箱即用,看起來金光閃閃,印有NVIDIA Logo的就是。

因?yàn)镃olossus也是超大規(guī)模數(shù)據(jù)中心,所以,就用了HGX,選擇的提供商是Supermicro。STH能進(jìn)入Colossus內(nèi)部,除了要感謝馬斯克,也還得謝謝Supermicro。

Colossus這里采用的是Supermicro的4U服務(wù)器,每臺(tái)服務(wù)器有8塊H100,把8臺(tái)這樣的服務(wù)器放到一個(gè)機(jī)架里,單機(jī)架就有了64塊H100。以8個(gè)機(jī)架為一組,每組就含有512塊H100 GPU,整個(gè)Colossus有大概200個(gè)機(jī)架組。

Supermicro這臺(tái)4U液冷服務(wù)器是完全面向液冷設(shè)計(jì)的服務(wù)器,而不是風(fēng)冷改造的,這樣可以提供更好的液冷散熱。此外,這款服務(wù)器有更高的可維護(hù)性,服務(wù)器的組件都安裝在托盤上,可以在不移出機(jī)架的情況下對(duì)服務(wù)器進(jìn)行維護(hù)。

服務(wù)器后面板配有四個(gè)冗余電源,安裝有三相供電系統(tǒng),還能看到400GbE以太網(wǎng)網(wǎng)線,以及一個(gè)1U機(jī)架大小的歧管,配合底部的帶有冗余水泵的CDU(冷卻分配單元),為整個(gè)液冷系統(tǒng)提供支持。

Colossus的存儲(chǔ)部分,SSD閃存大面積部署

Colossus的存儲(chǔ)部分也用了Supermicro的存儲(chǔ)設(shè)備,設(shè)備中配備了大量2.5英寸的NVMe存儲(chǔ)槽。這讓我想起了最近一則消息,有外媒傳出,特斯拉要向SK海力士(Solidigm)采購大量企業(yè)級(jí)SSD的新聞。

隨著AI集群規(guī)模的擴(kuò)大,存儲(chǔ)系統(tǒng)逐漸從基于磁盤的存儲(chǔ)轉(zhuǎn)向閃存存儲(chǔ),因?yàn)殚W存不僅能顯著節(jié)省電力,還能提供更高的性能和密度,盡管每PB成本更高,但從整體擁有成本(TCO)來看,在這種規(guī)模的集群中,閃存更具優(yōu)勢。

Colossus的網(wǎng)絡(luò)部分,用以太網(wǎng)替代了IB

多數(shù)超算都在使用InfiniBand等技術(shù),而xAI團(tuán)隊(duì)選擇了英偉達(dá)的Spectrum-X以太網(wǎng)方案,不僅獲得了超強(qiáng)的可擴(kuò)展性,部署和維護(hù)成本也更低了。在高帶寬、低延遲場景中表現(xiàn)更好,搭配智能流量管理功能,提供了高效的數(shù)據(jù)傳輸。

具體而言,網(wǎng)絡(luò)部分采用了Spectrum SN5600交換機(jī)提供高達(dá)800Gb/s的端口,每個(gè)GPU配備400GbE的BlueField-3 SuperNIC專用網(wǎng)卡,提供GPU間的RDMA連接。另有400Gb的網(wǎng)卡給CPU用,算下來,每臺(tái)服務(wù)器的以太網(wǎng)帶寬總計(jì)3.6 Tbps。

xAI為GPU、CPU和存儲(chǔ)各自建立了獨(dú)立的網(wǎng)絡(luò),這樣可以確保GPU和CPU之間的通信需求得到優(yōu)化,GPU網(wǎng)絡(luò)專注于高速的RDMA數(shù)據(jù)傳輸,而CPU網(wǎng)絡(luò)則支持其他管理和計(jì)算任務(wù),從而提高整個(gè)系統(tǒng)的性能和效率。

Patrick在文中表示,不要小瞧400GbE的速度,這個(gè)帶寬甚至超過了2021年初頂級(jí)Intel 至強(qiáng)服務(wù)器處理器的所有PCIe通道總帶寬。而現(xiàn)在,每臺(tái)服務(wù)器就配備了9條這樣的連接速度。就問你快不快??

英偉達(dá)提到,在訓(xùn)練Grok這種超大型模型時(shí),整個(gè)系統(tǒng)都沒有出現(xiàn)任何因流量沖突,而造成的應(yīng)用延遲增加或數(shù)據(jù)包丟失的情況。Spectrum-X的擁塞控制功能,能將系統(tǒng)數(shù)據(jù)吞吐量保持在95%,而傳統(tǒng)以太網(wǎng)在發(fā)生沖突時(shí),只能提供60%的數(shù)據(jù)吞吐量。

在Colossus超級(jí)計(jì)算機(jī)外部,可以看到大量Tesla Megapack電池。由于計(jì)算集群在啟動(dòng)和停止時(shí)存在毫秒級(jí)的電力波動(dòng),電網(wǎng)或馬斯克的柴油發(fā)電機(jī)難以應(yīng)對(duì),因此采用了Tesla Megapack作為電網(wǎng)與超算之間的能量緩沖裝置,確保供電穩(wěn)定。

以上內(nèi)容根據(jù)STH的Patrick Kennedy在Colossus超算看到的內(nèi)容所整理和改編而來,供各位獵奇、學(xué)習(xí)。

分享到

zhupb

相關(guān)推薦