近日,由DOIT傳媒主辦的2024數(shù)據(jù)基礎設施技術峰會在成都圓滿舉行。在“智算中心技術創(chuàng)新論壇”上,九章云極DataCanvas高級產品總監(jiān)侯飛冰分享了主題為《DATACANVAS AIDC OS定義新AI時代的智算操作系統(tǒng)》主題演講。
算力作為新質生產力,已成為挖掘數(shù)據(jù)要素價值,推動數(shù)字經濟發(fā)展的重要驅動力,智算中心的戰(zhàn)略性地位愈發(fā)凸顯。DATACANVAS AIDC OS智算操作系統(tǒng),作為智算中心的“中樞神經”,有效管理、調度各種算力資源,提供智算服務,落地各類智算應用。
以下是侯飛冰的演講實錄:
回顧一下2022年11月,OpenAI發(fā)布了全新的對話式生成式大模型ChatGPT,去年3月,OpenAI又發(fā)布了ChatGPT4多模態(tài)大模型。ChatGPT4不僅可以閱讀文本,同時還可以閱讀圖像,并且將結果輸出,以文字形式輸出給用戶,體驗非常好。今年2月,OpenAI更厲害了,發(fā)布了文生視頻大模型Sora,Sora一經發(fā)布就帶來AI圈的轟動,從中 大模型越來越聰明了!
我們也發(fā)現(xiàn)大模型的參數(shù)量正在與日俱增,且為指數(shù)級地增長。我們有一個公式,可以預測出來大模型訓練的算力需求:
訓練算力=訓練Token數(shù)×大模型參數(shù)×6
推理算力=調用大模型的次數(shù)×每人平均查詢Token數(shù)×大模型參數(shù)×2
隨著大模型參數(shù)的指數(shù)級增長,包括訓練語料的增長,大模型帶來對算力資源需求的井噴,通過預測全球大模型云端推理的算力需求量從2023年到2027年年復合增長率在13%。先看美國的情況,根據(jù)美國安全與新興技術中心的預測,預計2026年6月至11月訓練大體量高智能的大語言模型的成本將超過美國的總GPU。在中國,根據(jù)IDC預測,到2026年智能算力規(guī)模將進入ZFLOPS級別,達到1271.4EFLOPS。
算力已經成為了新質生產力,成為挖掘數(shù)據(jù)要素價值,推動數(shù)字經濟增長的驅動力,中國已經進入大規(guī)模的算力建設時代,各個地方政府和國家都出臺了各種政策,對人工智能產業(yè)提出了更高的要求。
智算中心成為了中國經濟發(fā)展的重要新型基礎設施,智算中心建設也已經為了數(shù)字經濟高質量發(fā)展的重要支撐,我國的數(shù)字經濟蓬勃發(fā)展。算力作為一種關鍵技術力量,將帶來巨大的技術變革和賦能效應;智算中心也已經成為了提升國際競爭力的關鍵基礎設施,也是衡量綜合國力的重要指標。智算中心也已經成為了智慧城市的必然選擇,智算中心作為公共算力基礎設施,面向政府、企業(yè)、個人用戶等多用戶群體,提供圍繞智慧城市的管理、運行的相關人工智能所需要的算力服務、數(shù)據(jù)服務以及算法服務,整個智算中心地位這么重要,它承載的任務有哪些。
這個是我在《算力基礎設施高質量發(fā)展行動計劃》摘錄的4條,第一個是完善算力綜合供給體系,第二條第四條講的都是算力相關的東西,提升算力高效的運載能力,深化算力賦能行業(yè)應用,從這個四點任務來看有三點和算力相關。
智算中心的核心價值取決于兩點:算力資源和算力水平。作為智算中心,首先必須要提供比較穩(wěn)定高效的算力資源,并不是說我擁有一堆硬件資源就可以,并不是說一堆GPU服務器堆砌在一起就能形成有效的算力。英偉達的發(fā)展非??欤麄€硬件資源的PK最終會延展到軟件領域的PK,最終會迎來軟件定義算力的新時代,那么智算操作系統(tǒng)應運而生了。
近日,九章云極DataCanvas AIDC OS正式發(fā)布了,我們認為可用、好用、經濟的算力才是用戶最終需要的算力,這是國家信息中心發(fā)布的智算中心架構圖,它展示了DataCanvas AIDC OS提供的能力范圍。我們是基于底層的硬件資源生產算力、聚合算力,我們提供異構算力的納管和調度,并且向上提供釋放算力、提供AI服務,DataCanvas AIDC OS智算操作系統(tǒng)作為智算中心的中樞神經,主要核心功能是對底層硬件資源的納管,還有軟件協(xié)同,最大化地提升GPU算力資源的利用率。我們面向于下沉智算基礎資源,能夠高速高效的調度算力資源、存儲以及網(wǎng)絡資源,向上針對于智算中心的終端用戶提供人工智能大模型的工具鏈,包括大模型需要的數(shù)據(jù)準備,以及模型開發(fā)訓練微調推理等過程。
AIDC OS不僅支持九章云極DataCanvas自研的“通識+產業(yè)”白盒大模型矩陣Alaya,同時支持開源大模型的框架,同時歡迎業(yè)界的生態(tài)伙伴加入到行業(yè)里面來,能把自己的大模型以及應用部署到智算操作系統(tǒng)之上,一起提供AI對外服務。
DataCanvas AIDC OS主要是用來做底層硬件資源的納管,軟件的協(xié)同,同時為智算中心的業(yè)務提供支撐,并且能夠提供大模型加小模型低門檻的訓練和推理,大家都知道在智算中心的建設過程中,有比較大的兩個難題,第一個是成本非常高。舉一個例子,比如建設1000P的計算資源,大家猜需要多少成本,我們做過一個粗略估計,大概建設1000P的智算中心需要5.5億,運維成本在1000-1500萬之間,所以建設一個智算中心成本非常高昂,在這種情況下只有不斷提高算力資源利用率,并且把AI大模型落地到千行百業(yè),給我們帶來經濟回報才行。第二個難點是剛剛并行科技的嘉賓說到了,在大模型訓練過程中,由于規(guī)模非常巨大,需要大規(guī)模的算力,這樣對集群的穩(wěn)定性要求也是非常高,基于這兩個痛點,DataCanvas AIDC OS操作系統(tǒng)提出了五大核心價值,下面我為大家一一介紹五大核心價值。
第一個價值是告別裸金屬,這里告別裸金屬并不是不用裸金屬,告別裸金屬的意思是在裸金屬之上能夠做得更好,能夠提供更加豐富的算力資源。首先能夠最大化地利用GPU資源,提高GPU的使用效率,能夠最小顆粒度地調度GPU資源。比如說能夠做一些內存分享,然后還可以分享計算單元等等。另外對于這種大規(guī)模的大模型訓練來講,九章基于自己的最佳實踐,以集群為優(yōu)先來調度GPU資源,甚至跨計算中心的調度,做集群之間的聯(lián)合調度,DataCanvas AIDC OS做到開箱即用、靈活適配。
第二個價值是為AI而生,經常有人問我,我們的DataCanvas AIDC OS的核心價值是什么,和其他廠商的差一點和競品優(yōu)勢是什么,九章云極DataCanvas一直是深耕在AI領域,我們從產品設計之初,我們的理念是以終為始,我們就是為AI而生,DataCanvas AIDC OS是先列出整個大模型訓練生命周期過程當中的各個環(huán)節(jié),比如說數(shù)據(jù)準備,模型訓練、微調、部署推理等等,我們針對每個環(huán)節(jié)都做了一個全局的加速優(yōu)化。
第三個價值點做了全局加速優(yōu)化,在生命周期當中做了通信加速,比如我們采用了梯度壓縮的方法,將通信量降低了2到3倍,這樣讓訓練效率提升了15%左右,還用了內存優(yōu)化,其中有一個用的是算法,這個算法在多GPU訓練的時候降低內存的冗余,將有限的資源訓練更大的模型,來提高計算資源的使用率。還采用算法加速,比如我們采用混合精度,將16位還有32位的計算揉合在一起,這樣也是可以加速,還采用了內核加速,變異優(yōu)化、并行加速、三級緩存等等,全局加速優(yōu)化下來,可以講集群的訓練效率提升100%,GPU單卡的利用率提升50%,模型的推理速度提升4倍,吞吐量提升5倍。舉一個例子,以九章自己的大模型訓練為例,剛開始大模型訓練用了62天左右,后來在不斷加速優(yōu)化,還有優(yōu)化AIDC OS之后,同樣規(guī)模的模型,用同樣的Token,時間縮短到39天,這樣把訓練成本降到原來的62%,所以這些都是基于九章云極DataCanvas的最佳實踐。
第四個價值點是異構算力的納管與調度。大家都知道我們訓練大模型是處于計算密集型,對算力要求非常高,所以這時候需要比較高性能的GPU,比如像HC的GPU,當我們做推理的時候,相對來說不需要那么高的GPU,比如可以用4090這些芯片做推理,當然還有現(xiàn)在的國產信創(chuàng)加速卡有很多,基于這種情況AIDC OS是能支持海量的異構算力的納管和調度,從訓練到推理。我們的調度采用很多種調度的算法,包括優(yōu)先級調度,優(yōu)先級調度不是先到先得的原則,優(yōu)先級調度會參考很多的因素,包括任務提交的時間,以及資源申請量等等各種因素綜合起來,做智能化的優(yōu)先級調度,我們也支持分時分片GANG調度,還有分屏調度,不僅僅基于當前作業(yè)的情況,還會基于歷史作業(yè)的運行情況做公平的調度,從長期來看會更加公平一些,我們支持基于物理網(wǎng)絡拓撲結構的調度,還有故障感知調度。
第五個價值點是1度算力,這個概念可能比較新一些,這是九章在發(fā)布會當天發(fā)布的一個新概念,叫1 DataCanvas Unit,簡稱就是1度算力,最近國家都在說我們要像水和電一樣地用算力,讓算力成為一個基礎設施?;谶@種情況,當我們講到電的時候,我們計量計價單位會講1度電,水是1噸水,煤氣也是,這個是全國統(tǒng)一的,可能每個地方的定價不大一樣,甚至會有階梯定價,但是都是一度電、一噸水,這個標準不是變的,針對算力來講也需要這樣一個標準的計量計費單位,所以九章云極DataCanvas提出了1度算力的概念。
當全國各地都在建計算中心的時候,最終會組成一個算網(wǎng),算網(wǎng)就意味著要做到算力的互聯(lián)互通,算力的互聯(lián)互通怎么樣方便算力的流通和算網(wǎng)內部的結算,這個就比較重要,當我們有DCU之后,方便于各個計算中心之間網(wǎng)絡內部的結算。這個1度算力有一個重要意義,當我們訓練大模型和做模型推理的時候,經常遇到程序有8個會停下來,可能要調試代碼等等,在調試代碼的過程中其實沒有用到算力資源,是不是還要付費呢?理論上是不行的。我們希望真正用到這個算力,然后才去付錢,沒有用這個算力就不應該付錢。
九章云極DataCanvas提出買到即用到,也就是說根據(jù)實際使用算力資源的情況收費。九章云極DataCanvas不光提供算力,還提供算力的標準度量,甚至你買了算力之后,對外提供AI服務,我們會確保對外AI服務的質量,真正做到買到即用到。
九章云極DataCanvas的優(yōu)勢在AI領域,我們的優(yōu)勢是在算法的基建化、服務的智能化,我們的目標是為算力中心賦予“智芯”,構建高效的智算操作系統(tǒng),提供更多更便捷高效的智算服務,我們非常歡迎伙伴們一起加入到這個智算操作系統(tǒng)平臺,共建AI新生態(tài)。謝謝大家!
以上是侯飛冰演講的完整整理。