光躍LightSphere X發(fā)布儀式現(xiàn)場(chǎng)
創(chuàng)新技術(shù)直擊算力與網(wǎng)絡(luò)核心痛點(diǎn)
萬(wàn)億參數(shù)大模型與多模態(tài)訓(xùn)練的崛起,正推動(dòng)算力集群邁入“萬(wàn)卡協(xié)同”時(shí)代。超節(jié)點(diǎn)架構(gòu)通過深度整合GPU資源,在超節(jié)點(diǎn)內(nèi)構(gòu)建起低延遲、高帶寬的統(tǒng)一算力實(shí)體,已成為支撐這一演進(jìn)的關(guān)鍵技術(shù)路徑。
當(dāng)前業(yè)界一種常見方案是通過提升單機(jī)柜功耗來部署更多GPU,但受限于數(shù)據(jù)中心單機(jī)柜的功耗天花板,單機(jī)柜GPU密度提升存在瓶頸。對(duì)此,光躍LightSphere X采用光互連技術(shù),通過增加機(jī)柜數(shù)量構(gòu)建超節(jié)點(diǎn),突破傳統(tǒng)互連方式下超節(jié)點(diǎn)的物理限制。相比銅纜,光纜的遠(yuǎn)距離傳輸優(yōu)勢(shì)可實(shí)現(xiàn)交付與機(jī)柜解耦,其核心價(jià)值在于:突破單機(jī)柜功耗束縛,支持萬(wàn)卡級(jí)彈性擴(kuò)展,兼容現(xiàn)有機(jī)房設(shè)施降低部署成本,并可按算力需求動(dòng)態(tài)調(diào)整超節(jié)點(diǎn)規(guī)模,實(shí)現(xiàn)分階段建設(shè)。
同時(shí),光躍LightSphere X全球首創(chuàng)的分布式光交換(dOCS,distributed Optical Circuit Switch)技術(shù)則進(jìn)一步提升了超節(jié)點(diǎn)的靈活度和系統(tǒng)可擴(kuò)展性,從而達(dá)到提升系統(tǒng)性價(jià)比的目的。不同于傳統(tǒng)的集中式交換,其通過在每個(gè)GPU上集成光交換功能,靈活切換GPU間互連拓?fù)浣Y(jié)構(gòu)。這不僅可實(shí)現(xiàn)故障場(chǎng)景下的拓?fù)鋵?shí)時(shí)重構(gòu),提高大模型訓(xùn)推性能,降低GPU冗余成本,還能按模型算力需求動(dòng)態(tài)調(diào)整超節(jié)點(diǎn)規(guī)模,切換拓?fù)渚W(wǎng)絡(luò)。此外,分布式設(shè)計(jì)支持GPU高帶寬通訊域彈性擴(kuò)展。光躍LightSphere X將實(shí)現(xiàn)2千卡規(guī)模部署。
得益于多計(jì)算芯粒(Chiplet)與CoWoS 2.5D封裝協(xié)同設(shè)計(jì)的GPU模組,光躍LightSphere X擁有強(qiáng)大算力。該模組基于自主原創(chuàng)架構(gòu)大算力(單卡1P級(jí))通用GPU液冷模組,極大地增強(qiáng)了集群訓(xùn)推性能。通過自主研發(fā)智算云平臺(tái)軟件靈活配置超節(jié)點(diǎn)網(wǎng)絡(luò)拓?fù)洌С置芗ㄐ藕透骉P&EP,高效適應(yīng)各種大模型需求,大幅提高節(jié)點(diǎn)的可擴(kuò)展性。OCS UBB采用獨(dú)創(chuàng)的革新載板設(shè)計(jì),超低損板材多層架構(gòu),互聯(lián)拓?fù)湄S富靈活。該訓(xùn)推一體架構(gòu)可動(dòng)態(tài)分配計(jì)算資源,既滿足千億參數(shù)大模型訓(xùn)練的高吞吐需求,又保障推理任務(wù)的低時(shí)延響應(yīng)。
光躍LightSphere X的上層軟件平臺(tái)同樣值得關(guān)注。其智算集群統(tǒng)一管理平臺(tái)通過深度融合調(diào)度引擎與訓(xùn)推框架,實(shí)現(xiàn)了對(duì)超節(jié)點(diǎn)全生命周期的智能管控。智算平臺(tái)能夠依據(jù)不同模型特征,進(jìn)行超節(jié)點(diǎn)拓?fù)渲悄芘渲茫@著提升訓(xùn)練性能;基于全局資源可觀測(cè)體系,實(shí)現(xiàn)故障節(jié)點(diǎn)秒級(jí)替換與分鐘級(jí)斷點(diǎn)續(xù)訓(xùn),保障模型長(zhǎng)穩(wěn)運(yùn)行。此外,通過軟硬協(xié)同的系統(tǒng)級(jí)工程優(yōu)化,進(jìn)一步釋放了超節(jié)點(diǎn)在性能和效率等方面的綜合潛能。
開放、自主可控生態(tài)打造中國(guó)智算基礎(chǔ)設(shè)施新基座
除了單點(diǎn)技術(shù)創(chuàng)新,光躍LightSphere X還進(jìn)一步聚焦構(gòu)建全棧自主的智算生態(tài),為中國(guó)算力基礎(chǔ)設(shè)施筑牢根基,為中國(guó)人工智能發(fā)展提供強(qiáng)勁動(dòng)力。
硬件層開放兼容:光交換技術(shù)不依賴于特定的數(shù)據(jù)傳輸協(xié)議,可無(wú)縫兼容不同廠商使用的互連協(xié)議,消除生態(tài)鎖閉風(fēng)險(xiǎn);
突破核心器件與供應(yīng)鏈瓶頸:分布式光交換芯片基于硅光技術(shù),其設(shè)計(jì)與制造不依賴于先進(jìn)半導(dǎo)體工藝節(jié)點(diǎn);
全棧軟件自主:自研統(tǒng)一管理平臺(tái)實(shí)現(xiàn)從調(diào)度、容災(zāi)到優(yōu)化的全鏈路管控。
這套“開放協(xié)議+自主技術(shù)+自研軟件”的協(xié)同體系,真正實(shí)現(xiàn)了從技術(shù)到生態(tài)的自主可控閉環(huán)。
上海儀電表示,光躍LightSphere X依托上海儀電算力底座,集合國(guó)內(nèi)智算領(lǐng)域頭部企業(yè),共建了“光芯片—GPU—服務(wù)器—算力集群—智算云平臺(tái)”閉環(huán),打造了開放共享的光電融合算力生態(tài)體系。未來,光躍LightSphere X將作為新一代智算集群核心架構(gòu),支撐全棧自主可控的國(guó)產(chǎn)算力池建設(shè),助力中國(guó)AI算力基礎(chǔ)設(shè)施實(shí)現(xiàn)跨代發(fā)展。