當(dāng)前,以大模型為基礎(chǔ)特征的AI 2.0時(shí)代已經(jīng)到來(lái),“大模型+大算力+大數(shù)據(jù)”成為新一代人工智能發(fā)展的基本范式。然而,智能計(jì)算較通用計(jì)算的投入成本、技術(shù)門(mén)檻更高,廣大用戶(hù)需要一個(gè)新的計(jì)算開(kāi)發(fā)和管理平臺(tái),能夠集成算力管理與調(diào)度,數(shù)據(jù)治理與模型優(yōu)化、訓(xùn)練精調(diào)和推理應(yīng)用開(kāi)發(fā)等多層次的能力,為使用者提供更簡(jiǎn)單、更高效、更穩(wěn)定的算力體驗(yàn)。
聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)應(yīng)運(yùn)而生,其差異化價(jià)值在于能夠以創(chuàng)新技術(shù)突破計(jì)算效率瓶頸。對(duì)于用戶(hù)而言,異構(gòu)智算平臺(tái)能夠幫助用戶(hù)提高應(yīng)用部署速度,降低業(yè)務(wù)TCO(全周期使用成本)。在基礎(chǔ)設(shè)施層面,它能夠提升算力利用率和可用性。
據(jù)介紹,聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)是一個(gè)能高度自動(dòng)化完成AI全流程開(kāi)發(fā)的平臺(tái),可輸出高可用算力并不斷突破計(jì)算效率瓶頸的利器。用戶(hù)可自動(dòng)完成AI計(jì)算并發(fā)布模型或發(fā)布推理服務(wù)。此外,平臺(tái)也為專(zhuān)業(yè)的AI開(kāi)發(fā)用戶(hù)留有手動(dòng)深入調(diào)整計(jì)算過(guò)程的空間,包括工具和模型的選擇,算力配置的調(diào)整,對(duì)任務(wù)的定制化監(jiān)控等。
此外,聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)集成了算力匹配魔方、GPU內(nèi)核態(tài)虛擬化、聯(lián)想集合通信算法庫(kù)、AI高效斷點(diǎn)續(xù)訓(xùn)技術(shù)、AI與HPC集群超級(jí)調(diào)度器,這五大創(chuàng)新技術(shù),這五大技術(shù)從不同方面幫助用戶(hù)解決問(wèn)題。
算力匹配魔方:為用戶(hù)跳過(guò)繁雜的算力選擇和驗(yàn)證。
基于海量的硬件評(píng)測(cè)和AI算子算法集成工作,聯(lián)想構(gòu)建了AI場(chǎng)景與算法與集群硬件三者匹配關(guān)系的算力魔方知識(shí)庫(kù),來(lái)標(biāo)識(shí)AI場(chǎng)景、算法、集群配置這三者的匹配關(guān)系。針對(duì)不同場(chǎng)景,可以全自動(dòng)規(guī)劃和調(diào)度最佳算法和集群配置,用戶(hù)只需輸入場(chǎng)景和數(shù)據(jù),即可自動(dòng)加載最優(yōu)算法和調(diào)度最佳集群配置。
GPU內(nèi)核態(tài)虛擬化:挖掘處理器潛力,讓vGPU利用率從80%提升到95%。
在AI推理和中小訓(xùn)練中,子任務(wù)通常以虛擬GPU進(jìn)行承載,業(yè)界目前普遍在操作系統(tǒng)層以用戶(hù)態(tài)對(duì)GPU做虛擬化,而用戶(hù)態(tài)虛擬化因不能對(duì)GPU做深層控制,會(huì)造成虛擬算力不穩(wěn)定,調(diào)度開(kāi)銷(xiāo)大等問(wèn)題,從而造成近20%的算力損耗。
為此,聯(lián)想研究院開(kāi)發(fā)了在GPU驅(qū)動(dòng)層的內(nèi)核態(tài)虛擬化算法。該算法具備三大革新:一是對(duì)算力和顯存精準(zhǔn)隔離的算法能以<3%的誤差精準(zhǔn)控制容器資源。二是在GPU驅(qū)動(dòng)層做資源調(diào)度,去掉在驅(qū)動(dòng)之上不必要的操作。三是在GPU驅(qū)動(dòng)層將虛擬GPU的顆粒度精細(xì)到1%。新算法可以將虛擬化造成的GPU算力損耗降到5%以下,極致情況可以降到1%以下,大幅提升GPU利用率。
聯(lián)想集合通信算法庫(kù):突破集群計(jì)算瓶頸,使訓(xùn)練效率提升10%—15%。
在大規(guī)模的AI集群中,性能釋放的最大瓶頸受制于網(wǎng)絡(luò)通信慢。網(wǎng)絡(luò)通信慢會(huì)導(dǎo)致GPU空閑等待,計(jì)算效率降低。針對(duì)大規(guī)模集群網(wǎng)絡(luò)通信瓶頸的挑戰(zhàn),聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)能自動(dòng)感知集群網(wǎng)絡(luò)拓?fù)?,并選擇和采用經(jīng)聯(lián)想增強(qiáng)的集合通信算法使數(shù)據(jù)傳輸在最佳路徑。以千卡規(guī)模集群為例,采用集成了聯(lián)想集合通信庫(kù)的聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)做管理調(diào)度,可使網(wǎng)絡(luò)通信效率提升超10%,并且集群規(guī)模越大,效果越顯著。
AI高效斷點(diǎn)續(xù)訓(xùn)技術(shù):實(shí)現(xiàn)分鐘級(jí)AI斷點(diǎn)續(xù)訓(xùn),讓AI集群持續(xù)可用。
據(jù)統(tǒng)計(jì),目前千卡集群每月至少有15次的故障斷點(diǎn)。在常規(guī)的斷點(diǎn)續(xù)訓(xùn)手段下,每次恢復(fù)訓(xùn)練需要幾個(gè)小時(shí),產(chǎn)生的額外費(fèi)用超過(guò)百萬(wàn)元。聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)針對(duì)故障特征來(lái)對(duì)數(shù)據(jù)做多級(jí)備份,大幅精簡(jiǎn)了備份數(shù)據(jù)量,同時(shí)令備份數(shù)據(jù)從最佳路徑被提取。同時(shí),對(duì)大量的AI訓(xùn)練故障進(jìn)行了特征采樣,基于AI故障特征庫(kù),開(kāi)發(fā)了預(yù)測(cè)AI訓(xùn)練故障的AI模型,實(shí)現(xiàn)“用AI來(lái)預(yù)測(cè)AI”。此外,聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)集成了從服務(wù)器BMC,存儲(chǔ)管理,網(wǎng)絡(luò)OS的硬件監(jiān)控,到調(diào)度器故障監(jiān)控,再到對(duì)AI訓(xùn)練收斂程度的監(jiān)控,對(duì)AI故障的抓取能夠做到萬(wàn)無(wú)一失。
由此三大革新,聯(lián)想能將斷點(diǎn)續(xù)訓(xùn)恢復(fù)時(shí)間縮減到分鐘級(jí),大幅提升了訓(xùn)練效率。以千卡集群為例,聯(lián)想每月可節(jié)約上百萬(wàn)元算力費(fèi)用支出,讓寶貴的AI算力持續(xù)可用。
AI與HPC集群超級(jí)調(diào)度器:破局算力孤島,1小時(shí)內(nèi)自動(dòng)完成跨集群資源調(diào)度和共享。
對(duì)于有些同時(shí)擁有AI和HPC算力的用戶(hù),希望能在不同集群間,根據(jù)任務(wù)優(yōu)先級(jí)和資源狀況,充分共享利用GPU節(jié)點(diǎn)。然而,由于AI和HPC集群的調(diào)度方式完全不同,用戶(hù)在不同集群間共享資源時(shí),既要通曉?xún)煞N調(diào)度方法,又要付出大量操作,導(dǎo)致無(wú)法實(shí)現(xiàn)資源共享。
聯(lián)想AI與HPC超級(jí)調(diào)度器架構(gòu)的精髓之處就是做出能指揮雙類(lèi)型調(diào)度的最精簡(jiǎn)架構(gòu),在AI的K8S調(diào)度和HPC的Slurm調(diào)度之上,能夠切換AI和HPC的調(diào)度溝通,能全局監(jiān)控任務(wù)和動(dòng)態(tài)共享資源,使得用戶(hù)可以充分利用基礎(chǔ)設(shè)施的每一分算力。
聯(lián)想集團(tuán)副總裁、中國(guó)基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬表示,“聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)”是AI 2.0時(shí)代聯(lián)想中國(guó)基礎(chǔ)設(shè)施戰(zhàn)略框架的核心。未來(lái)聯(lián)想將挑戰(zhàn)超過(guò)萬(wàn)卡規(guī)模集群的通信算法優(yōu)化,挑戰(zhàn)秒級(jí)的斷點(diǎn)續(xù)訓(xùn),深入研究相變式液冷技術(shù),布局模塊化液冷數(shù)據(jù)中心,助力聯(lián)想AI算力朝著更強(qiáng)大、更穩(wěn)定、更高效和更綠色的方向?qū)崿F(xiàn)高質(zhì)量發(fā)展。