黃飛:非常感謝DOIT提供了這次跟大家共同分享的機會。
綠算技術是存儲行業(yè)的新勢力企業(yè),面向于存算分離的方向。本次演講著重探討異構算力是否存在調度的可能、如何構建先進存力中心等話題,為后續(xù)存儲行業(yè)的發(fā)展提供新的思路。僅僅是拋磚引玉,希望各位專家和各位大咖點評。今天的分享分為四個部分,先進存力的需求,如何構建先進存力,二是分級存儲該如何設計,如何利用分級存儲構建先進的存力平臺,三是綠算技術的產品和解決方案,四是廠商賦能計劃。
先進存力需求與對策
在當前,智算中心、數據中心建設面臨技術自主和資源的配置問題、存儲發(fā)展與區(qū)域的均衡問題、智能管理與數據治理問題、綠色節(jié)能與云存儲挑戰(zhàn)問題、數據共享與存儲介質創(chuàng)新問題,以及資源調度與投資效益問題。其對策有三點,一是實現存力、算力和運力三種力之間的統(tǒng)一調度、統(tǒng)一協(xié)調,將網絡、存儲等資源合理地進行分配,提升算力資源利用率;二是依據業(yè)務主導的模式構建多級存力的建設,對性能、容量、熱度、質量等多方面合理提供匹配存力介質,依據數據分類分級,構建多級存儲機制,根據數據的冷熱不同進行合理的分配,實現數據、存儲的超精細化管理;三是加強超高速局域網、廣域網建設。高性能并不一定代表存力,多級存力的構建以及形成多級存力架構的體系才能構成真正高級別的存力或者最終的存力中心,依托400G/800G以及TB級以上的網絡,以及Roce、IB、iWARP互聯(lián)互通。
數據存力中心的建設過程中,需要依據政策法規(guī)與保障措施,針對存力中心建設現狀與挑戰(zhàn),根據發(fā)展需求,做好建設規(guī)劃與布局,打造國家級存儲能力基礎設施。
對于異構存力調度平臺規(guī)劃,綠算技術提供了如下建議:
根據上圖,需要將現有Server storage,比如HDD、SAN、藍光、帶庫以及最新的NVMe、SSD統(tǒng)一納入管理體系,構建不同的文件和管理系統(tǒng),去適配用戶的需求。通過對接口不斷的調度,做到多種系統(tǒng)的平滑匹配以及數據的流轉。當然,對外統(tǒng)一輸出仍偏向于更多的轉向NFS for RDMA的協(xié)議以及sunbus for RDMA協(xié)議,通過以RDMA為主的網絡加強數據的快速流動。
異構存力調度平臺還包括兩方面管理內容。一是異構存力平臺的實時性能、故障點、故障的定位,以及業(yè)務級快速恢復,二是在數據向異構調度平臺里進行統(tǒng)管的時候,要知曉性能和對容量評估,包括要做數據的交易。數據僅存起來,不交易就是死的數據。國家已經開放公共數據,這是非常有意義的舉措。
異構存力調度平臺的建設,還這包括引入數據全生命周期管理的過程。
分級存儲設計思路
AI業(yè)務對存儲各環(huán)節(jié)有什么樣的需求?
拆解后可以發(fā)現,原始數據收集部分需要的是海量存儲,這部分可以采用傳統(tǒng)機械盤加少量SSD組成混閃的模式構成數據的快速收集與存儲;在數據處理部分,可以標準化簡單清洗海量存儲,在訓練準備階段,也就是往Kuda灌數據或者模型訓練以及模型微調、模型推理過程中,對存儲性能要求越來越高,如容量足夠大、速度足夠快、IOPS足夠高等等。這種組建混閃的模式就是綠算技術針對AI訓練的解決方案。
綠算技術在分級存儲設計的方案分為經濟型和通用型兩種。
上圖是一個經濟性的分級存儲。
可以看到,左上側是一個包括英偉達與國產化產品異構的算力集群。綠算技術提供不同的介入方式,對前者采用GPUDirect技術,后者更多采用RDMA方式進行數據的接入。由于采用文件系統(tǒng)管理更方便,但經過文件系統(tǒng)以后會發(fā)現性能衰減非常非常快,所以綠算技術使用分布式塊甚至裸塊的方式,直接把數據速度加載到極限,具體方式是,通過一個PCIe4.0網卡連接,最大32GB大B的帶寬輸入,以空間換時間,加速數據的讀取與寫入。
對于加載了這種像Last或者GPFS并行文件系統(tǒng),綠算技術將其下移作為二級存儲,提供大量的數據保護能力,一旦出現子資源崩潰現象,就可從二級存儲里把整個過程的CheckPoint數據或者相關的Kuda數據拉回到一級存儲快速讀取。測試數據顯示,以A100 PCIe卡的數據讀取,12塊3.0的SSD就能做到一塊A100卡的1秒CheckPoint讀取和寫入。
在推理業(yè)務解決方案中,綠算技術把推理數據和推理服務器直接裸掛載,所有訓練好的模都作為右側的模型倉庫使用,所有的數據直接在完全加速的SSD上運行,此舉相當于為所有的推理服務器加載立一個大型的Cache,實現整體速度的推理模型快速加載。
整個過程離不開異構存力平臺的調度的平臺。
上圖是綠算技術與華瑞指數云共同打造的通用型解決方案。
華瑞指數云在分布式塊有很強的優(yōu)勢,以綠算技術高性能的硬件作為基座,將分布式塊訓練的結果直接推送到裸塊卷上。對于推理結點厚的可以掛載鏡像,實現整個速度的提升。
綠算技術希望跟更多合作伙伴共同打造相應的針對AI場景解決方案。
產品解決方案
綠算技術的產品分為兩代。
第一代產品是平板式的,形態(tài)一性能實現了的升級,在裸設備的情況下可以做到3240萬的單機IOPS、144G的帶寬,讀取時延20微秒左右,整機功耗400瓦,形態(tài)上改變了原來鑲在板上的設計,形態(tài)二是使用了大量的PCIe,可以插ACIC卡、FPGA卡也可以插DPU,包括英偉達BlueField以及各種PCIe卡。最新的進展是兩顆PCI swith加上大量PCIe插槽,實現了更高速度。未來還將陸續(xù)改變產品形態(tài),產品之間完全PCIe互通,提供完整的NameSpace給所有的軟件廠商。
在軟硬自由度結合業(yè)務性能提升方面,綠算技術提供兩種模式,一是傳統(tǒng)服務器加存儲盤或SSD的形式,支持SCM,滿足用戶對性能的最優(yōu)要求,二是針對DBU廠商,這個方案其實也是Wasdata主推的,通過把Bluefield國產化的DPU安裝到GPU服務器中,將SDS控制程序放到遠端,直接調取存儲的極限速度,去掉盡量多的數據路徑,實現數據的高速加載。
伴隨數據的遷移過程,未來數據智算中心將會越建越大。如果用戶自建的智算中心算力不足,可把共用的算力中心做數據的模型訓練,但是這涉及數據安全與大量數據遷移的問題。綠算技術提出數智魔方解決方案,通過1.2T的帶寬快速的將訓練數據搬遷到數智魔方的設備上,拖動設備快速的實現多地數據的轉運過程,適應自有算力中心和公有算力中心匹配的方案。
廠商賦能計劃
綠算技術推出的廠商賦能計劃,包括兩個方面內容。
一是高性能硬件整體解決方案的服務。通過提供全程硬件配置解決方案,從服務器、IO服務器到硬件設備,甚至包括設計PCIe結構;二是對于特殊的外形提供非標硬件全程定制服務,包括標準件的OEM以及PCB定制化的服務。
綠算技術認為,要打破各廠商和行業(yè)之間的隔閡,應該像數據與存儲大會,把行業(yè)相關的企業(yè)聚集起來,共同合作,打破壁壘,實現中國存儲、存力行業(yè)的發(fā)展,真正為國家做出貢獻。