黃飛:非常感謝DOIT提供了這次跟大家共同分享的機會。
綠算技術(shù)是存儲行業(yè)的新勢力企業(yè),面向于存算分離的方向。本次演講著重探討異構(gòu)算力是否存在調(diào)度的可能、如何構(gòu)建先進存力中心等話題,為后續(xù)存儲行業(yè)的發(fā)展提供新的思路。僅僅是拋磚引玉,希望各位專家和各位大咖點評。今天的分享分為四個部分,先進存力的需求,如何構(gòu)建先進存力,二是分級存儲該如何設(shè)計,如何利用分級存儲構(gòu)建先進的存力平臺,三是綠算技術(shù)的產(chǎn)品和解決方案,四是廠商賦能計劃。
先進存力需求與對策
在當(dāng)前,智算中心、數(shù)據(jù)中心建設(shè)面臨技術(shù)自主和資源的配置問題、存儲發(fā)展與區(qū)域的均衡問題、智能管理與數(shù)據(jù)治理問題、綠色節(jié)能與云存儲挑戰(zhàn)問題、數(shù)據(jù)共享與存儲介質(zhì)創(chuàng)新問題,以及資源調(diào)度與投資效益問題。其對策有三點,一是實現(xiàn)存力、算力和運力三種力之間的統(tǒng)一調(diào)度、統(tǒng)一協(xié)調(diào),將網(wǎng)絡(luò)、存儲等資源合理地進行分配,提升算力資源利用率;二是依據(jù)業(yè)務(wù)主導(dǎo)的模式構(gòu)建多級存力的建設(shè),對性能、容量、熱度、質(zhì)量等多方面合理提供匹配存力介質(zhì),依據(jù)數(shù)據(jù)分類分級,構(gòu)建多級存儲機制,根據(jù)數(shù)據(jù)的冷熱不同進行合理的分配,實現(xiàn)數(shù)據(jù)、存儲的超精細化管理;三是加強超高速局域網(wǎng)、廣域網(wǎng)建設(shè)。高性能并不一定代表存力,多級存力的構(gòu)建以及形成多級存力架構(gòu)的體系才能構(gòu)成真正高級別的存力或者最終的存力中心,依托400G/800G以及TB級以上的網(wǎng)絡(luò),以及Roce、IB、iWARP互聯(lián)互通。
數(shù)據(jù)存力中心的建設(shè)過程中,需要依據(jù)政策法規(guī)與保障措施,針對存力中心建設(shè)現(xiàn)狀與挑戰(zhàn),根據(jù)發(fā)展需求,做好建設(shè)規(guī)劃與布局,打造國家級存儲能力基礎(chǔ)設(shè)施。
對于異構(gòu)存力調(diào)度平臺規(guī)劃,綠算技術(shù)提供了如下建議:
根據(jù)上圖,需要將現(xiàn)有Server storage,比如HDD、SAN、藍光、帶庫以及最新的NVMe、SSD統(tǒng)一納入管理體系,構(gòu)建不同的文件和管理系統(tǒng),去適配用戶的需求。通過對接口不斷的調(diào)度,做到多種系統(tǒng)的平滑匹配以及數(shù)據(jù)的流轉(zhuǎn)。當(dāng)然,對外統(tǒng)一輸出仍偏向于更多的轉(zhuǎn)向NFS for RDMA的協(xié)議以及sunbus for RDMA協(xié)議,通過以RDMA為主的網(wǎng)絡(luò)加強數(shù)據(jù)的快速流動。
異構(gòu)存力調(diào)度平臺還包括兩方面管理內(nèi)容。一是異構(gòu)存力平臺的實時性能、故障點、故障的定位,以及業(yè)務(wù)級快速恢復(fù),二是在數(shù)據(jù)向異構(gòu)調(diào)度平臺里進行統(tǒng)管的時候,要知曉性能和對容量評估,包括要做數(shù)據(jù)的交易。數(shù)據(jù)僅存起來,不交易就是死的數(shù)據(jù)。國家已經(jīng)開放公共數(shù)據(jù),這是非常有意義的舉措。
異構(gòu)存力調(diào)度平臺的建設(shè),還這包括引入數(shù)據(jù)全生命周期管理的過程。
分級存儲設(shè)計思路
AI業(yè)務(wù)對存儲各環(huán)節(jié)有什么樣的需求?
拆解后可以發(fā)現(xiàn),原始數(shù)據(jù)收集部分需要的是海量存儲,這部分可以采用傳統(tǒng)機械盤加少量SSD組成混閃的模式構(gòu)成數(shù)據(jù)的快速收集與存儲;在數(shù)據(jù)處理部分,可以標(biāo)準(zhǔn)化簡單清洗海量存儲,在訓(xùn)練準(zhǔn)備階段,也就是往Kuda灌數(shù)據(jù)或者模型訓(xùn)練以及模型微調(diào)、模型推理過程中,對存儲性能要求越來越高,如容量足夠大、速度足夠快、IOPS足夠高等等。這種組建混閃的模式就是綠算技術(shù)針對AI訓(xùn)練的解決方案。
綠算技術(shù)在分級存儲設(shè)計的方案分為經(jīng)濟型和通用型兩種。
上圖是一個經(jīng)濟性的分級存儲。
可以看到,左上側(cè)是一個包括英偉達與國產(chǎn)化產(chǎn)品異構(gòu)的算力集群。綠算技術(shù)提供不同的介入方式,對前者采用GPUDirect技術(shù),后者更多采用RDMA方式進行數(shù)據(jù)的接入。由于采用文件系統(tǒng)管理更方便,但經(jīng)過文件系統(tǒng)以后會發(fā)現(xiàn)性能衰減非常非???,所以綠算技術(shù)使用分布式塊甚至裸塊的方式,直接把數(shù)據(jù)速度加載到極限,具體方式是,通過一個PCIe4.0網(wǎng)卡連接,最大32GB大B的帶寬輸入,以空間換時間,加速數(shù)據(jù)的讀取與寫入。
對于加載了這種像Last或者GPFS并行文件系統(tǒng),綠算技術(shù)將其下移作為二級存儲,提供大量的數(shù)據(jù)保護能力,一旦出現(xiàn)子資源崩潰現(xiàn)象,就可從二級存儲里把整個過程的CheckPoint數(shù)據(jù)或者相關(guān)的Kuda數(shù)據(jù)拉回到一級存儲快速讀取。測試數(shù)據(jù)顯示,以A100 PCIe卡的數(shù)據(jù)讀取,12塊3.0的SSD就能做到一塊A100卡的1秒CheckPoint讀取和寫入。
在推理業(yè)務(wù)解決方案中,綠算技術(shù)把推理數(shù)據(jù)和推理服務(wù)器直接裸掛載,所有訓(xùn)練好的模都作為右側(cè)的模型倉庫使用,所有的數(shù)據(jù)直接在完全加速的SSD上運行,此舉相當(dāng)于為所有的推理服務(wù)器加載立一個大型的Cache,實現(xiàn)整體速度的推理模型快速加載。
整個過程離不開異構(gòu)存力平臺的調(diào)度的平臺。
上圖是綠算技術(shù)與華瑞指數(shù)云共同打造的通用型解決方案。
華瑞指數(shù)云在分布式塊有很強的優(yōu)勢,以綠算技術(shù)高性能的硬件作為基座,將分布式塊訓(xùn)練的結(jié)果直接推送到裸塊卷上。對于推理結(jié)點厚的可以掛載鏡像,實現(xiàn)整個速度的提升。
綠算技術(shù)希望跟更多合作伙伴共同打造相應(yīng)的針對AI場景解決方案。
產(chǎn)品解決方案
綠算技術(shù)的產(chǎn)品分為兩代。
第一代產(chǎn)品是平板式的,形態(tài)一性能實現(xiàn)了的升級,在裸設(shè)備的情況下可以做到3240萬的單機IOPS、144G的帶寬,讀取時延20微秒左右,整機功耗400瓦,形態(tài)上改變了原來鑲在板上的設(shè)計,形態(tài)二是使用了大量的PCIe,可以插ACIC卡、FPGA卡也可以插DPU,包括英偉達BlueField以及各種PCIe卡。最新的進展是兩顆PCI swith加上大量PCIe插槽,實現(xiàn)了更高速度。未來還將陸續(xù)改變產(chǎn)品形態(tài),產(chǎn)品之間完全PCIe互通,提供完整的NameSpace給所有的軟件廠商。
在軟硬自由度結(jié)合業(yè)務(wù)性能提升方面,綠算技術(shù)提供兩種模式,一是傳統(tǒng)服務(wù)器加存儲盤或SSD的形式,支持SCM,滿足用戶對性能的最優(yōu)要求,二是針對DBU廠商,這個方案其實也是Wasdata主推的,通過把Bluefield國產(chǎn)化的DPU安裝到GPU服務(wù)器中,將SDS控制程序放到遠端,直接調(diào)取存儲的極限速度,去掉盡量多的數(shù)據(jù)路徑,實現(xiàn)數(shù)據(jù)的高速加載。
伴隨數(shù)據(jù)的遷移過程,未來數(shù)據(jù)智算中心將會越建越大。如果用戶自建的智算中心算力不足,可把共用的算力中心做數(shù)據(jù)的模型訓(xùn)練,但是這涉及數(shù)據(jù)安全與大量數(shù)據(jù)遷移的問題。綠算技術(shù)提出數(shù)智魔方解決方案,通過1.2T的帶寬快速的將訓(xùn)練數(shù)據(jù)搬遷到數(shù)智魔方的設(shè)備上,拖動設(shè)備快速的實現(xiàn)多地數(shù)據(jù)的轉(zhuǎn)運過程,適應(yīng)自有算力中心和公有算力中心匹配的方案。
廠商賦能計劃
綠算技術(shù)推出的廠商賦能計劃,包括兩個方面內(nèi)容。
一是高性能硬件整體解決方案的服務(wù)。通過提供全程硬件配置解決方案,從服務(wù)器、IO服務(wù)器到硬件設(shè)備,甚至包括設(shè)計PCIe結(jié)構(gòu);二是對于特殊的外形提供非標(biāo)硬件全程定制服務(wù),包括標(biāo)準(zhǔn)件的OEM以及PCB定制化的服務(wù)。
綠算技術(shù)認為,要打破各廠商和行業(yè)之間的隔閡,應(yīng)該像數(shù)據(jù)與存儲大會,把行業(yè)相關(guān)的企業(yè)聚集起來,共同合作,打破壁壘,實現(xiàn)中國存儲、存力行業(yè)的發(fā)展,真正為國家做出貢獻。