曙光存儲(chǔ)行業(yè)總監(jiān)李國君

11月29日,在DOIT傳媒主辦的“2023中國數(shù)據(jù)與存儲(chǔ)峰會(huì)”上,曙光存儲(chǔ)行業(yè)總監(jiān)李國君發(fā)表主題演講,詳述面向AI大模型的數(shù)據(jù)存儲(chǔ)解決方案,通過打造AI數(shù)據(jù)基礎(chǔ)設(shè)施,加速行業(yè)AI應(yīng)用落地。。

數(shù)據(jù)質(zhì)量高低決定大模型智能化程度

李國君指出,目前有一個(gè)值得關(guān)注的問題是,平時(shí)訓(xùn)練AI大模型,客戶首先想到的是需要極強(qiáng)的算力與先進(jìn)的算法,往往忽略了訓(xùn)練數(shù)據(jù)的質(zhì)量。其實(shí)對(duì)大模型的智能化水平而言,數(shù)據(jù)的質(zhì)量非常重要。

可以說,數(shù)據(jù)質(zhì)量的好壞決定模型的智能化水平。良好的數(shù)據(jù)質(zhì)量,也成為了大模型進(jìn)步的階梯。有這樣一組數(shù)據(jù),Meta公司的大模型LLaMA與OpenAI的GPT-3的數(shù)據(jù)對(duì)比,雖然參數(shù)量是不足后者的40%,但是OBQA測(cè)試得分卻更高。

大模型應(yīng)用開發(fā)的存儲(chǔ)三大訴求與對(duì)策

在以往的項(xiàng)目實(shí)踐中,作為安全高效管理高質(zhì)量數(shù)據(jù)的載體,也就是存儲(chǔ)系統(tǒng),也經(jīng)常被用戶忽視。缺乏好用易用的存儲(chǔ)系統(tǒng),導(dǎo)致花大量資金購置的AI算力基礎(chǔ)設(shè)施往往無法充分發(fā)揮優(yōu)勢(shì),對(duì)于客戶來說ROI不高。。所以,在大模型的時(shí)代,存儲(chǔ)是一個(gè)非常重要的核心基礎(chǔ)設(shè)施。

基于過去項(xiàng)目中與大量進(jìn)行AI應(yīng)用創(chuàng)新開發(fā)的用戶溝通交流以及在智算中心的大模型測(cè)試經(jīng)驗(yàn),曙光存儲(chǔ)也總結(jié)了一些大模型存儲(chǔ)遇到的挑戰(zhàn)。主要體現(xiàn)在以下三個(gè)方面:

一是超大規(guī)模數(shù)據(jù)預(yù)處理耗時(shí)長(zhǎng)。在正式訓(xùn)練前,需要對(duì)海量多格式的原始數(shù)據(jù)進(jìn)行歸類與預(yù)處理,甚至涉及數(shù)據(jù)在多套系統(tǒng)間進(jìn)行搬遷,處理數(shù)據(jù)時(shí)間過長(zhǎng),會(huì)造成算力資源的浪費(fèi),對(duì)存儲(chǔ)的訴求就是需要一套能夠智能分級(jí)、異構(gòu)融合支持?jǐn)?shù)據(jù)全生命周期管理的存儲(chǔ),降低數(shù)據(jù)在異構(gòu)存儲(chǔ)系統(tǒng)間傳輸?shù)某杀尽?/p>

二是在訓(xùn)練過程中的空載過高,配備的大量的GPU算力由于需要周期性地等待存儲(chǔ)系統(tǒng)處理數(shù)據(jù),導(dǎo)致算力不能充分投入AI計(jì)算流程中,原因是在訓(xùn)練時(shí)需要對(duì)語言數(shù)據(jù)進(jìn)行檢索以及樣本數(shù)據(jù)快速的加載,同時(shí),為防止任務(wù)異常退出,模型從初始狀態(tài)進(jìn)行訓(xùn)練過程中也需要保存中間狀態(tài)數(shù)據(jù)、間隔幾個(gè)小時(shí)就要保存一次數(shù)據(jù),這個(gè)過程當(dāng)中需要寫入大量的文件。兩者疊加,對(duì)存儲(chǔ)的訴求就是讀延時(shí)低、寫數(shù)據(jù)快。

三是高質(zhì)量的數(shù)據(jù)。高質(zhì)量的數(shù)據(jù)往往不是公開的數(shù)據(jù),而是企業(yè)核心的生產(chǎn)數(shù)據(jù),這也在客觀上形成了企業(yè)客戶開發(fā)行業(yè)大模型及相關(guān)AI創(chuàng)新應(yīng)用的數(shù)據(jù)安全和規(guī)避風(fēng)險(xiǎn)要求。但同時(shí)也需要存儲(chǔ)系統(tǒng)具備對(duì)這些隱私數(shù)據(jù)提供安全保護(hù)機(jī)制。

客戶在大模型及相關(guān)應(yīng)用開發(fā)過程中,遇到的涉及數(shù)據(jù)處理的上述痛點(diǎn),歸根到底還是對(duì)企業(yè)級(jí)高性能存儲(chǔ)系統(tǒng)的訴求。

行業(yè)標(biāo)準(zhǔn)流程范式需求,企業(yè)級(jí)AI存儲(chǔ)解決方案訴求,其實(shí)就是預(yù)訓(xùn)練+微調(diào)的范式,它背后考驗(yàn)的是后臺(tái)的大數(shù)據(jù)、服務(wù)質(zhì)量的要求。模型“預(yù)訓(xùn)練+微調(diào)”已經(jīng)成為行業(yè)統(tǒng)一的標(biāo)準(zhǔn)流程和范式。在此基礎(chǔ)上,結(jié)合具體的應(yīng)用場(chǎng)景和專業(yè)數(shù)據(jù),可以進(jìn)一步定制和優(yōu)化各領(lǐng)域各行業(yè)的小模型。某種程度上,大模型訓(xùn)練數(shù)據(jù)和數(shù)據(jù)服務(wù)接口標(biāo)準(zhǔn),將會(huì)成為下一代國際標(biāo)準(zhǔn)的核心之一。

打造高效AI數(shù)據(jù)基礎(chǔ)設(shè)施

基于上述三點(diǎn)訴求,曙光存儲(chǔ)打造了高效的AI數(shù)據(jù)基礎(chǔ)設(shè)施底座。

該底座具有三大特性。

首先是異構(gòu)融合。通過一套存儲(chǔ)系統(tǒng)能夠保存視頻、圖片、多模態(tài)的數(shù)據(jù),并且以同一份數(shù)據(jù)支持文件、對(duì)象、大數(shù)據(jù)的并行訪問。

第二是極致性能。為了發(fā)揮GPU該有的效率,需要在訓(xùn)練前、訓(xùn)練中降低存儲(chǔ)處理的時(shí)延以及高吞吐量。曙光推出了三項(xiàng)技術(shù):1、多級(jí)緩存加速:基于自研BurstBuffer,最大化釋放本地NVMe介質(zhì)能力,達(dá)到百萬+IOPS能力。2、XDS數(shù)據(jù)加速:支持國內(nèi)主流與國外GPU的計(jì)算能力,把后端存儲(chǔ)的數(shù)據(jù)快速加入到芯片緩存中,實(shí)現(xiàn)基于DMA技術(shù)。3、智能高速選路:多路徑均衡優(yōu)化,選擇“最優(yōu)最短”路徑下發(fā)IO。

第三是高安全性,以存儲(chǔ)節(jié)點(diǎn)內(nèi)提供芯片級(jí)安全能力,支持芯片級(jí)的加解密的算法,提供安全可靠集群存儲(chǔ)服務(wù)。

李國君表示,為了實(shí)現(xiàn)這三大特性,曙光存儲(chǔ)在五個(gè)方面開展了細(xì)致的工作。

1.自研創(chuàng)新,激活算力

曙光存儲(chǔ)一直堅(jiān)持自研創(chuàng)新,針對(duì)影響存儲(chǔ)性能的軟硬件兩大因素持續(xù)發(fā)力。

在硬件方面,曙光創(chuàng)新硬件支持PCIe5.0、DDR5以及CXL2.0的技術(shù),包括芯片內(nèi)置的加解密的算法,這些新技術(shù)、新特性為將來千億級(jí)、萬億級(jí)市場(chǎng)提供更多的性能優(yōu)化空間。在軟件方面,支持00Gb以太、200Gb IB等協(xié)議,支持各種容器化、虛擬化的資源池以及大模型的開發(fā)框架,加速行業(yè)AI應(yīng)用落地。

基于軟硬協(xié)同的方式,曙光存儲(chǔ)在一個(gè)數(shù)百TB的AI大模型的項(xiàng)目中得到這樣的實(shí)測(cè)性能結(jié)果,聚合帶寬達(dá)到900GBps、IOPS突破了3000萬的能力。

2.海量文件智能存儲(chǔ)與管理

大模型需要多模態(tài)的數(shù)據(jù),數(shù)據(jù)量大,規(guī)模大,增長(zhǎng)快。在這個(gè)背景下,需要海量的數(shù)據(jù)的存儲(chǔ)和管理能力。

為此,曙光存儲(chǔ)從三個(gè)方面進(jìn)行應(yīng)對(duì)。首先采用融合多協(xié)議,通過異構(gòu)數(shù)據(jù)融合,實(shí)現(xiàn)單集群支持多模態(tài),避免數(shù)據(jù)跨存儲(chǔ)系統(tǒng)復(fù)制;其次是千億級(jí)文件管理的能力。大模型的場(chǎng)景小文件非常多,采取多目錄分片索引集群,在存儲(chǔ)集群的物理節(jié)點(diǎn)上可以分更多的邏輯節(jié)點(diǎn),提升數(shù)據(jù)處理的效率,減少目錄熱點(diǎn)問題;三是生命周期的管理,基于對(duì)熱點(diǎn)數(shù)據(jù)的智能分層,讓冷、溫、熱三層的資源之間進(jìn)行互通,減少用戶使用存儲(chǔ)的成本。

3.面向AI的數(shù)據(jù)IO性能優(yōu)化

存儲(chǔ)永恒的追求就是提高IO性能。曙光存儲(chǔ)的對(duì)策就是采用更快的存儲(chǔ)介質(zhì)和節(jié)點(diǎn),以及針對(duì)AI模型應(yīng)用相匹配的、基于軟件層面的調(diào)優(yōu)工作。

4.多級(jí)可靠,讓訓(xùn)練任務(wù)運(yùn)行穩(wěn)定

曙光存儲(chǔ)始終認(rèn)為,只有企業(yè)級(jí)的產(chǎn)品和方案才能保證AI大模型運(yùn)行過程中的安全穩(wěn)定運(yùn)行。采用開源的產(chǎn)品,如果缺乏大規(guī)模的使用和維護(hù)的經(jīng)驗(yàn),一旦存儲(chǔ)遇到崩潰、數(shù)據(jù)不可訪問或者數(shù)據(jù)丟失的場(chǎng)景,將嚴(yán)重影響AI大模型開發(fā)的工作。曙光存儲(chǔ)支持基于部件級(jí)、節(jié)點(diǎn)級(jí)以及系統(tǒng)級(jí)和方案級(jí)四級(jí)安全可靠的機(jī)制,保證AI大模型開發(fā)過程當(dāng)中全生命周期的穩(wěn)定運(yùn)行。

5.原生硬件安全,符合國內(nèi)政策和未來安全趨勢(shì)

安全問題是大模型開發(fā)過程中值得重點(diǎn)關(guān)注的環(huán)節(jié)。

曙光存儲(chǔ)充分發(fā)揮國產(chǎn)硬件處理器的原生安全能力,支持多樣化的加密機(jī)制,以硬件處理器內(nèi)置芯片級(jí)加解密算法以及豐富的國密指令級(jí),相比軟件加密的方式性能提升50%以上,充分發(fā)揮了原生的硬件級(jí)的數(shù)據(jù)加密的保護(hù)方式。

推進(jìn)國內(nèi)領(lǐng)先大模型建設(shè),加速行業(yè)AI應(yīng)用落地

在國內(nèi),一家領(lǐng)先的企業(yè)進(jìn)行大模型開發(fā),系統(tǒng)中存儲(chǔ)有將近1TB的數(shù)據(jù)、上百臺(tái)AI算力設(shè)備。這家企業(yè)的要求是系統(tǒng)架構(gòu)簡(jiǎn)潔,數(shù)據(jù)高效流轉(zhuǎn)支撐業(yè)務(wù)快速發(fā)展,能提供微秒級(jí)元數(shù)據(jù)訪問性能,提升訓(xùn)練效率,支持多類存儲(chǔ)協(xié)議(如POSIX、NAS、S3),提供高速訓(xùn)練存儲(chǔ)池同時(shí),支持歷史CKPT數(shù)據(jù)利用對(duì)象存儲(chǔ)進(jìn)行歸檔保存等。

應(yīng)用曙光存儲(chǔ)系統(tǒng)后,該企業(yè)新版本的大模型開發(fā)周期縮短了5天,實(shí)現(xiàn)了重要模型數(shù)據(jù)及開發(fā)日志等跨協(xié)議、跨數(shù)據(jù)中心安全歸檔;相比傳統(tǒng)SSD混閃文件存儲(chǔ),分鐘級(jí)寫入3TB CKPT數(shù)據(jù),整體訓(xùn)練效率可提升50%以上,大大提高了模型開發(fā)的效率。

曙光存儲(chǔ)異構(gòu)融合,極致性能以及原生的安全來支撐大模型應(yīng)用的開發(fā),適用于各類企業(yè)級(jí)AI應(yīng)用開發(fā),助力行業(yè)AI大模型應(yīng)用更快一步。

未來,曙光存儲(chǔ)將繼續(xù)堅(jiān)持自研創(chuàng)新,跟廣大行業(yè)解決方案伙伴一道攜手同行,為客戶提供更好、更安全可靠、更智能的存儲(chǔ)解決方案。

分享到

xiesc

相關(guān)推薦