11月29日,在DOIT傳媒主辦的“2023中國數據與存儲峰會”上,曙光存儲行業(yè)總監(jiān)李國君發(fā)表主題演講,詳述面向AI大模型的數據存儲解決方案,通過打造AI數據基礎設施,加速行業(yè)AI應用落地。。
數據質量高低決定大模型智能化程度
李國君指出,目前有一個值得關注的問題是,平時訓練AI大模型,客戶首先想到的是需要極強的算力與先進的算法,往往忽略了訓練數據的質量。其實對大模型的智能化水平而言,數據的質量非常重要。
可以說,數據質量的好壞決定模型的智能化水平。良好的數據質量,也成為了大模型進步的階梯。有這樣一組數據,Meta公司的大模型LLaMA與OpenAI的GPT-3的數據對比,雖然參數量是不足后者的40%,但是OBQA測試得分卻更高。
大模型應用開發(fā)的存儲三大訴求與對策
在以往的項目實踐中,作為安全高效管理高質量數據的載體,也就是存儲系統(tǒng),也經常被用戶忽視。缺乏好用易用的存儲系統(tǒng),導致花大量資金購置的AI算力基礎設施往往無法充分發(fā)揮優(yōu)勢,對于客戶來說ROI不高。。所以,在大模型的時代,存儲是一個非常重要的核心基礎設施。
基于過去項目中與大量進行AI應用創(chuàng)新開發(fā)的用戶溝通交流以及在智算中心的大模型測試經驗,曙光存儲也總結了一些大模型存儲遇到的挑戰(zhàn)。主要體現在以下三個方面:
一是超大規(guī)模數據預處理耗時長。在正式訓練前,需要對海量多格式的原始數據進行歸類與預處理,甚至涉及數據在多套系統(tǒng)間進行搬遷,處理數據時間過長,會造成算力資源的浪費,對存儲的訴求就是需要一套能夠智能分級、異構融合支持數據全生命周期管理的存儲,降低數據在異構存儲系統(tǒng)間傳輸的成本。
二是在訓練過程中的空載過高,配備的大量的GPU算力由于需要周期性地等待存儲系統(tǒng)處理數據,導致算力不能充分投入AI計算流程中,原因是在訓練時需要對語言數據進行檢索以及樣本數據快速的加載,同時,為防止任務異常退出,模型從初始狀態(tài)進行訓練過程中也需要保存中間狀態(tài)數據、間隔幾個小時就要保存一次數據,這個過程當中需要寫入大量的文件。兩者疊加,對存儲的訴求就是讀延時低、寫數據快。
三是高質量的數據。高質量的數據往往不是公開的數據,而是企業(yè)核心的生產數據,這也在客觀上形成了企業(yè)客戶開發(fā)行業(yè)大模型及相關AI創(chuàng)新應用的數據安全和規(guī)避風險要求。但同時也需要存儲系統(tǒng)具備對這些隱私數據提供安全保護機制。
客戶在大模型及相關應用開發(fā)過程中,遇到的涉及數據處理的上述痛點,歸根到底還是對企業(yè)級高性能存儲系統(tǒng)的訴求。
行業(yè)標準流程范式需求,企業(yè)級AI存儲解決方案訴求,其實就是預訓練+微調的范式,它背后考驗的是后臺的大數據、服務質量的要求。模型“預訓練+微調”已經成為行業(yè)統(tǒng)一的標準流程和范式。在此基礎上,結合具體的應用場景和專業(yè)數據,可以進一步定制和優(yōu)化各領域各行業(yè)的小模型。某種程度上,大模型訓練數據和數據服務接口標準,將會成為下一代國際標準的核心之一。
打造高效AI數據基礎設施
基于上述三點訴求,曙光存儲打造了高效的AI數據基礎設施底座。
該底座具有三大特性。
首先是異構融合。通過一套存儲系統(tǒng)能夠保存視頻、圖片、多模態(tài)的數據,并且以同一份數據支持文件、對象、大數據的并行訪問。
第二是極致性能。為了發(fā)揮GPU該有的效率,需要在訓練前、訓練中降低存儲處理的時延以及高吞吐量。曙光推出了三項技術:1、多級緩存加速:基于自研BurstBuffer,最大化釋放本地NVMe介質能力,達到百萬+IOPS能力。2、XDS數據加速:支持國內主流與國外GPU的計算能力,把后端存儲的數據快速加入到芯片緩存中,實現基于DMA技術。3、智能高速選路:多路徑均衡優(yōu)化,選擇“最優(yōu)最短”路徑下發(fā)IO。
第三是高安全性,以存儲節(jié)點內提供芯片級安全能力,支持芯片級的加解密的算法,提供安全可靠集群存儲服務。
李國君表示,為了實現這三大特性,曙光存儲在五個方面開展了細致的工作。
1.自研創(chuàng)新,激活算力
曙光存儲一直堅持自研創(chuàng)新,針對影響存儲性能的軟硬件兩大因素持續(xù)發(fā)力。
在硬件方面,曙光創(chuàng)新硬件支持PCIe5.0、DDR5以及CXL2.0的技術,包括芯片內置的加解密的算法,這些新技術、新特性為將來千億級、萬億級市場提供更多的性能優(yōu)化空間。在軟件方面,支持00Gb以太、200Gb IB等協(xié)議,支持各種容器化、虛擬化的資源池以及大模型的開發(fā)框架,加速行業(yè)AI應用落地。
基于軟硬協(xié)同的方式,曙光存儲在一個數百TB的AI大模型的項目中得到這樣的實測性能結果,聚合帶寬達到900GBps、IOPS突破了3000萬的能力。
2.海量文件智能存儲與管理
大模型需要多模態(tài)的數據,數據量大,規(guī)模大,增長快。在這個背景下,需要海量的數據的存儲和管理能力。
為此,曙光存儲從三個方面進行應對。首先采用融合多協(xié)議,通過異構數據融合,實現單集群支持多模態(tài),避免數據跨存儲系統(tǒng)復制;其次是千億級文件管理的能力。大模型的場景小文件非常多,采取多目錄分片索引集群,在存儲集群的物理節(jié)點上可以分更多的邏輯節(jié)點,提升數據處理的效率,減少目錄熱點問題;三是生命周期的管理,基于對熱點數據的智能分層,讓冷、溫、熱三層的資源之間進行互通,減少用戶使用存儲的成本。
3.面向AI的數據IO性能優(yōu)化
存儲永恒的追求就是提高IO性能。曙光存儲的對策就是采用更快的存儲介質和節(jié)點,以及針對AI模型應用相匹配的、基于軟件層面的調優(yōu)工作。
4.多級可靠,讓訓練任務運行穩(wěn)定
曙光存儲始終認為,只有企業(yè)級的產品和方案才能保證AI大模型運行過程中的安全穩(wěn)定運行。采用開源的產品,如果缺乏大規(guī)模的使用和維護的經驗,一旦存儲遇到崩潰、數據不可訪問或者數據丟失的場景,將嚴重影響AI大模型開發(fā)的工作。曙光存儲支持基于部件級、節(jié)點級以及系統(tǒng)級和方案級四級安全可靠的機制,保證AI大模型開發(fā)過程當中全生命周期的穩(wěn)定運行。
5.原生硬件安全,符合國內政策和未來安全趨勢
安全問題是大模型開發(fā)過程中值得重點關注的環(huán)節(jié)。
曙光存儲充分發(fā)揮國產硬件處理器的原生安全能力,支持多樣化的加密機制,以硬件處理器內置芯片級加解密算法以及豐富的國密指令級,相比軟件加密的方式性能提升50%以上,充分發(fā)揮了原生的硬件級的數據加密的保護方式。
推進國內領先大模型建設,加速行業(yè)AI應用落地
在國內,一家領先的企業(yè)進行大模型開發(fā),系統(tǒng)中存儲有將近1TB的數據、上百臺AI算力設備。這家企業(yè)的要求是系統(tǒng)架構簡潔,數據高效流轉支撐業(yè)務快速發(fā)展,能提供微秒級元數據訪問性能,提升訓練效率,支持多類存儲協(xié)議(如POSIX、NAS、S3),提供高速訓練存儲池同時,支持歷史CKPT數據利用對象存儲進行歸檔保存等。
應用曙光存儲系統(tǒng)后,該企業(yè)新版本的大模型開發(fā)周期縮短了5天,實現了重要模型數據及開發(fā)日志等跨協(xié)議、跨數據中心安全歸檔;相比傳統(tǒng)SSD混閃文件存儲,分鐘級寫入3TB CKPT數據,整體訓練效率可提升50%以上,大大提高了模型開發(fā)的效率。
曙光存儲異構融合,極致性能以及原生的安全來支撐大模型應用的開發(fā),適用于各類企業(yè)級AI應用開發(fā),助力行業(yè)AI大模型應用更快一步。
未來,曙光存儲將繼續(xù)堅持自研創(chuàng)新,跟廣大行業(yè)解決方案伙伴一道攜手同行,為客戶提供更好、更安全可靠、更智能的存儲解決方案。