AI大模型加速演進,帶動“存力”重構(gòu)
AI發(fā)展的本質(zhì)推動不僅是“算力升級”,更是“數(shù)據(jù)流重構(gòu)”。從ChatGPT-1到GPT-4,其模型參數(shù)量和訓(xùn)練數(shù)據(jù)體量增長了8倍,未來面向ChatGPT-X代模型,這一數(shù)字甚至可能有50倍的增長。支撐大模型成長的,是指數(shù)級膨脹的數(shù)據(jù)量和日趨嚴(yán)苛的數(shù)據(jù)處理效率要求。
與此同時,大模型從應(yīng)用角度還面臨算力的三大痛點:
算力需求大:例如從GPT-3到Llama-3,從開始使用3640 PD(每天完成的的千萬億次浮點運算量petaflop/day)到421875 PD,計算量增長約116倍;
計算效率低:高昂的GPU資源往往無法充分利用,帶來極大浪費;
能耗壓力大:以訓(xùn)練10萬億參數(shù)模型為例,需用10萬張H100、運行1193天,耗電40億千瓦時,相當(dāng)于1.4億美國家庭一天的用電量。
內(nèi)存方面,在AI模型高度運算趨勢下,訓(xùn)練過程對內(nèi)存的依賴性也日益增加。據(jù)SK海力士數(shù)據(jù)顯示,BERT時期僅5%的計算為內(nèi)存密集型任務(wù),而到GPT-3已高達92%。內(nèi)存雖然在擴容,但工藝發(fā)展受限,因此可以看到大家對使用堆疊技術(shù)、容量密度高的HBM的需求增長迅速,還有顯存與服務(wù)器內(nèi)存需求也在不斷增加。
再看閃存存儲部分,AI服務(wù)器的算力單元成本里大概有60%-90%是計算單元,也就是GPU。而我們要做的就是活用算力單元,讓它的使用率變高,降本增效。閃存存儲方面需要承擔(dān)的是避免停機的存儲穩(wěn)定性,還有高性能,讓GPU務(wù)盡其用,以及節(jié)能和節(jié)省物理空間。
AI訓(xùn)練與推理全流程的存儲需求剖析
從AI大模型的訓(xùn)練和推理角度來看存儲。AI數(shù)據(jù)流的推動過程包括數(shù)據(jù)提取、準(zhǔn)備(清洗、向量化)、模型訓(xùn)練(含檢查點和恢復(fù))、量化、微調(diào)、推理(結(jié)合RAG抓取實時資料)以及推理結(jié)果歸檔。整個流程與存儲密切相關(guān),不同階段對存儲的需求有所不同。
例如,數(shù)據(jù)處理、訓(xùn)練、微調(diào)使用閃存為介質(zhì)的固態(tài)硬盤,數(shù)據(jù)攝取、歸檔通常搭配機械式硬盤(對象存儲層),而且中間使用全閃存層作為緩存,既滿足冷數(shù)據(jù)管理,也支撐熱數(shù)據(jù)吞吐。
而且在模型訓(xùn)練階段,存儲的核心任務(wù)是提供訓(xùn)練數(shù)據(jù)來充分利用GPU資源,并保護訓(xùn)練投資。存儲的關(guān)鍵能力包括高讀取帶寬(以減少GPU等待時間)、快速寫入檢查點數(shù)據(jù)(以便在系統(tǒng)崩潰時快速恢復(fù))以及易于擴展。
推理階段則需要高可靠性和短讀取時間,以支持安全存儲和高效批量處理。
在模型訓(xùn)練過程中,檢查點寫入器也與存儲高度相關(guān),用于保存中間數(shù)據(jù)以防止系統(tǒng)崩潰導(dǎo)致的訓(xùn)練中斷。以175B參數(shù)模型為例,檢查點大小約為2.45TB。若在2小時內(nèi)完成2.5%的寫入時間(180秒),則存儲頻寬至少需達到13.6GB/s。也就是說在評估存儲媒介時,必須確保足夠的頻寬以滿足訓(xùn)練需求。
檢查點恢復(fù)部分同理,175B的參數(shù)模型,欲恢復(fù)的模型參數(shù)與暫態(tài)數(shù)據(jù)大小約為2.45TB。假設(shè)模型是16個實例并行數(shù)據(jù)讀取,希望5小時內(nèi)把數(shù)據(jù)寫回來,就需要頻寬是2.18GB/s,對存儲的吞吐能力和穩(wěn)定性提出了硬性要求。
在推理的存儲架構(gòu)中,需存儲微調(diào)前后的模型數(shù)據(jù),以及RAG數(shù)據(jù)。同時,推理完成后將提示詞輸入和結(jié)果輸出寫入存儲。以往數(shù)據(jù)直接寫入HDD(冷盤),但為提升用戶體驗,需引入硬盤緩存數(shù)據(jù),將提示詞輸入和結(jié)果輸出存儲在SSD上,以便后續(xù)相似問題可直接從緩存獲取結(jié)果,避免重復(fù)推理。例如,128K輸入的首次Token延遲可從13秒降至500毫秒。因此,大容量SSD是理想的存儲媒介。更適用于云端和一體機,可提升速度和用戶體驗。
從終端設(shè)備到邊緣端,再到公共云混合型數(shù)據(jù)中心,整個流程涉及數(shù)據(jù)收集、模型訓(xùn)練、推理、信息收集和參數(shù)調(diào)整。大模型訓(xùn)練的數(shù)據(jù)需要結(jié)合RAG或?qū)崟r資料進行更新,RAG數(shù)據(jù)庫可部署在邊緣端、核心數(shù)據(jù)中心或公共云。在落地應(yīng)用時,需要進行整體規(guī)劃,確保全流程的無縫銜接,從而提升系統(tǒng)效率和用戶體驗。
銓興科技:應(yīng)對AI存儲挑戰(zhàn)的創(chuàng)新實踐
在AI訓(xùn)練與推理領(lǐng)域,銓興推出一系列企業(yè)級SSD產(chǎn)品與解決方案,以應(yīng)對行業(yè)挑戰(zhàn)。
在企業(yè)級SSD產(chǎn)品方面,推出QLC PCIe 5.0企業(yè)級SSD,其最高容量達122.88TB,接口支持PCIe 5.0,還支持Dual Port,可靠性達10負18次方級別,適用于緩存、向量數(shù)據(jù)庫RAG存儲。其超高讀速,超高容量,是AI 推理的最佳存儲搭檔。
高速TLC PCIe 5.0 SSD單盤容量達30.72TB,適合模型訓(xùn)練、HPC計算等高IO需求場景。其高讀寫效能的表現(xiàn),是AI訓(xùn)練/HPC的存儲優(yōu)先選項
高DWPD SATA SSD在SATA接口上實現(xiàn)最高15.36TB容量與3 DWPD寫入耐久,遠超行業(yè)平均0.5-1DWPD的功能特性。
在AI訓(xùn)練一體機解決方案上,銓興帶來添翼AI擴容卡方案。該方案有效解決大模型訓(xùn)練中“顯存不夠、成本太高”的痛點,原本訓(xùn)練DeepSeek-R1 671B模型需168張頂級GPU,使用16張中端GPU加上8張?zhí)硪頂U容卡就能完成同等訓(xùn)練,成本從4200萬降至200萬以內(nèi),降低約90%。另外,單張GPU卡PC加1張?zhí)硪砜捎?xùn)練14B模型,四張GPU卡工作站加2張?zhí)硪砜蛇_72B模型。
該方案已廣泛適配英偉達、天數(shù)智芯、沐曦等國產(chǎn)顯卡,并與廈門大學(xué)、貴州大學(xué)、廣州大學(xué)等高校合作部署實測,適用于要求高精度、全參數(shù)、70B及更大模型微調(diào)訓(xùn)練的本地化部署等場景。
最后
邱創(chuàng)隆強調(diào),大模型時代不僅需要更強的中心計算能力,更需要覆蓋終端、邊緣、公有云的多層級協(xié)同存儲體系。
無論是實時抓取RAG數(shù)據(jù)庫、還是模型分發(fā)/回寫、還是訓(xùn)練檢查點的寫入恢復(fù),都需要高性能、高容量、低功耗的存儲設(shè)備提供強力支撐。