在线亚洲欧美日韩精品专区,中国免费毛片网络

AI大模型加速演進(jìn)，帶動(dòng)“存力”重構(gòu)

AI發(fā)展的本質(zhì)推動(dòng)不僅是“算力升級(jí)”，更是“數(shù)據(jù)流重構(gòu)”。從ChatGPT-1到GPT-4，其模型參數(shù)量和訓(xùn)練數(shù)據(jù)體量增長(zhǎng)了8倍，未來(lái)面向ChatGPT-X代模型，這一數(shù)字甚至可能有50倍的增長(zhǎng)。支撐大模型成長(zhǎng)的，是指數(shù)級(jí)膨脹的數(shù)據(jù)量和日趨嚴(yán)苛的數(shù)據(jù)處理效率要求。

與此同時(shí)，大模型從應(yīng)用角度還面臨算力的三大痛點(diǎn)：

算力需求大：例如從GPT-3到Llama-3，從開始使用3640 PD（每天完成的的千萬(wàn)億次浮點(diǎn)運(yùn)算量petaflop/day）到421875 PD，計(jì)算量增長(zhǎng)約116倍；

計(jì)算效率低：高昂的GPU資源往往無(wú)法充分利用，帶來(lái)極大浪費(fèi)；

能耗壓力大：以訓(xùn)練10萬(wàn)億參數(shù)模型為例，需用10萬(wàn)張H100、運(yùn)行1193天，耗電40億千瓦時(shí)，相當(dāng)于1.4億美國(guó)家庭一天的用電量。

內(nèi)存方面，在AI模型高度運(yùn)算趨勢(shì)下，訓(xùn)練過(guò)程對(duì)內(nèi)存的依賴性也日益增加。據(jù)SK海力士數(shù)據(jù)顯示，BERT時(shí)期僅5%的計(jì)算為內(nèi)存密集型任務(wù)，而到GPT-3已高達(dá)92%。內(nèi)存雖然在擴(kuò)容，但工藝發(fā)展受限，因此可以看到大家對(duì)使用堆疊技術(shù)、容量密度高的HBM的需求增長(zhǎng)迅速，還有顯存與服務(wù)器內(nèi)存需求也在不斷增加。

再看閃存存儲(chǔ)部分，AI服務(wù)器的算力單元成本里大概有60%-90%是計(jì)算單元，也就是GPU。而我們要做的就是活用算力單元，讓它的使用率變高，降本增效。閃存存儲(chǔ)方面需要承擔(dān)的是避免停機(jī)的存儲(chǔ)穩(wěn)定性，還有高性能，讓GPU務(wù)盡其用，以及節(jié)能和節(jié)省物理空間。

AI訓(xùn)練與推理全流程的存儲(chǔ)需求剖析

從AI大模型的訓(xùn)練和推理角度來(lái)看存儲(chǔ)。AI數(shù)據(jù)流的推動(dòng)過(guò)程包括數(shù)據(jù)提取、準(zhǔn)備（清洗、向量化）、模型訓(xùn)練（含檢查點(diǎn)和恢復(fù)）、量化、微調(diào)、推理（結(jié)合RAG抓取實(shí)時(shí)資料）以及推理結(jié)果歸檔。整個(gè)流程與存儲(chǔ)密切相關(guān)，不同階段對(duì)存儲(chǔ)的需求有所不同。

例如，數(shù)據(jù)處理、訓(xùn)練、微調(diào)使用閃存為介質(zhì)的固態(tài)硬盤，數(shù)據(jù)攝取、歸檔通常搭配機(jī)械式硬盤（對(duì)象存儲(chǔ)層），而且中間使用全閃存層作為緩存，既滿足冷數(shù)據(jù)管理，也支撐熱數(shù)據(jù)吞吐。

而且在模型訓(xùn)練階段，存儲(chǔ)的核心任務(wù)是提供訓(xùn)練數(shù)據(jù)來(lái)充分利用GPU資源，并保護(hù)訓(xùn)練投資。存儲(chǔ)的關(guān)鍵能力包括高讀取帶寬（以減少GPU等待時(shí)間）、快速寫入檢查點(diǎn)數(shù)據(jù)（以便在系統(tǒng)崩潰時(shí)快速恢復(fù)）以及易于擴(kuò)展。

推理階段則需要高可靠性和短讀取時(shí)間，以支持安全存儲(chǔ)和高效批量處理。

在模型訓(xùn)練過(guò)程中，檢查點(diǎn)寫入器也與存儲(chǔ)高度相關(guān)，用于保存中間數(shù)據(jù)以防止系統(tǒng)崩潰導(dǎo)致的訓(xùn)練中斷。以175B參數(shù)模型為例，檢查點(diǎn)大小約為2.45TB。若在2小時(shí)內(nèi)完成2.5%的寫入時(shí)間（180秒），則存儲(chǔ)頻寬至少需達(dá)到13.6GB/s。也就是說(shuō)在評(píng)估存儲(chǔ)媒介時(shí)，必須確保足夠的頻寬以滿足訓(xùn)練需求。

檢查點(diǎn)恢復(fù)部分同理，175B的參數(shù)模型，欲恢復(fù)的模型參數(shù)與暫態(tài)數(shù)據(jù)大小約為2.45TB。假設(shè)模型是16個(gè)實(shí)例并行數(shù)據(jù)讀取，希望5小時(shí)內(nèi)把數(shù)據(jù)寫回來(lái)，就需要頻寬是2.18GB/s，對(duì)存儲(chǔ)的吞吐能力和穩(wěn)定性提出了硬性要求。

在推理的存儲(chǔ)架構(gòu)中，需存儲(chǔ)微調(diào)前后的模型數(shù)據(jù)，以及RAG數(shù)據(jù)。同時(shí)，推理完成后將提示詞輸入和結(jié)果輸出寫入存儲(chǔ)。以往數(shù)據(jù)直接寫入HDD（冷盤），但為提升用戶體驗(yàn)，需引入硬盤緩存數(shù)據(jù)，將提示詞輸入和結(jié)果輸出存儲(chǔ)在SSD上，以便后續(xù)相似問(wèn)題可直接從緩存獲取結(jié)果，避免重復(fù)推理。例如，128K輸入的首次Token延遲可從13秒降至500毫秒。因此，大容量SSD是理想的存儲(chǔ)媒介。更適用于云端和一體機(jī)，可提升速度和用戶體驗(yàn)。

從終端設(shè)備到邊緣端，再到公共云混合型數(shù)據(jù)中心，整個(gè)流程涉及數(shù)據(jù)收集、模型訓(xùn)練、推理、信息收集和參數(shù)調(diào)整。大模型訓(xùn)練的數(shù)據(jù)需要結(jié)合RAG或?qū)崟r(shí)資料進(jìn)行更新，RAG數(shù)據(jù)庫(kù)可部署在邊緣端、核心數(shù)據(jù)中心或公共云。在落地應(yīng)用時(shí)，需要進(jìn)行整體規(guī)劃，確保全流程的無(wú)縫銜接，從而提升系統(tǒng)效率和用戶體驗(yàn)。

銓興科技：應(yīng)對(duì)AI存儲(chǔ)挑戰(zhàn)的創(chuàng)新實(shí)踐

在AI訓(xùn)練與推理領(lǐng)域，銓興推出一系列企業(yè)級(jí)SSD產(chǎn)品與解決方案，以應(yīng)對(duì)行業(yè)挑戰(zhàn)。

在企業(yè)級(jí)SSD產(chǎn)品方面，推出QLC PCIe 5.0企業(yè)級(jí)SSD，其最高容量達(dá)122.88TB，接口支持PCIe 5.0，還支持Dual Port，可靠性達(dá)10負(fù)18次方級(jí)別，適用于緩存、向量數(shù)據(jù)庫(kù)RAG存儲(chǔ)。其超高讀速，超高容量，是AI 推理的最佳存儲(chǔ)搭檔。

高速TLC PCIe 5.0 SSD單盤容量達(dá)30.72TB，適合模型訓(xùn)練、HPC計(jì)算等高IO需求場(chǎng)景。其高讀寫效能的表現(xiàn)，是AI訓(xùn)練/HPC的存儲(chǔ)優(yōu)先選項(xiàng)

高DWPD SATA SSD在SATA接口上實(shí)現(xiàn)最高15.36TB容量與3 DWPD寫入耐久，遠(yuǎn)超行業(yè)平均0.5-1DWPD的功能特性。

在AI訓(xùn)練一體機(jī)解決方案上，銓興帶來(lái)添翼AI擴(kuò)容卡方案。該方案有效解決大模型訓(xùn)練中“顯存不夠、成本太高”的痛點(diǎn)，原本訓(xùn)練DeepSeek-R1 671B模型需168張頂級(jí)GPU，使用16張中端GPU加上8張?zhí)硪頂U(kuò)容卡就能完成同等訓(xùn)練，成本從4200萬(wàn)降至200萬(wàn)以內(nèi)，降低約90%。另外，單張GPU卡PC加1張?zhí)硪砜捎?xùn)練14B模型，四張GPU卡工作站加2張?zhí)硪砜蛇_(dá)72B模型。

該方案已廣泛適配英偉達(dá)、天數(shù)智芯、沐曦等國(guó)產(chǎn)顯卡，并與廈門大學(xué)、貴州大學(xué)、廣州大學(xué)等高校合作部署實(shí)測(cè)，適用于要求高精度、全參數(shù)、70B及更大模型微調(diào)訓(xùn)練的本地化部署等場(chǎng)景。

最后

邱創(chuàng)隆強(qiáng)調(diào)，大模型時(shí)代不僅需要更強(qiáng)的中心計(jì)算能力，更需要覆蓋終端、邊緣、公有云的多層級(jí)協(xié)同存儲(chǔ)體系。

無(wú)論是實(shí)時(shí)抓取RAG數(shù)據(jù)庫(kù)、還是模型分發(fā)/回寫、還是訓(xùn)練檢查點(diǎn)的寫入恢復(fù)，都需要高性能、高容量、低功耗的存儲(chǔ)設(shè)備提供強(qiáng)力支撐。

分享到

銓興科技

崔歡歡

相關(guān)推薦

近期文章

熱門標(biāo)簽