不過(guò),相較于新模型和新產(chǎn)品迭代,業(yè)界更關(guān)注的是DCFormer架構(gòu)在效率層面的大幅提升,彩云科技CEO袁行遠(yuǎn)介紹,彩云科技團(tuán)隊(duì)在基于DCFormer打造的模型DCPythia-6.9B上,實(shí)現(xiàn)了在預(yù)訓(xùn)練困惑度和下游任務(wù)評(píng)估上都優(yōu)于開(kāi)源Pythia-12B。這意味著,DCFormer模型在性能上,實(shí)現(xiàn)了對(duì)Transformer模型1.7-2倍的性能提升,這是在大模型基礎(chǔ)技術(shù)層領(lǐng)域近年來(lái)少有的突破。

目前大模型訓(xùn)練的主要成本由三部分構(gòu)成,即訓(xùn)練成本、推理成本和儲(chǔ)存成本。其中,訓(xùn)練成本是其中的主要構(gòu)成,例如,GPT-3的單次訓(xùn)練成本據(jù)估算高達(dá)140萬(wàn)美元,這些成本主要由兩部分構(gòu)成,GPU的使用和大量的電力消耗,電力消耗方面,GPT-3的訓(xùn)練耗電量高達(dá)1287兆瓦時(shí)。而據(jù)《華爾街見(jiàn)聞》對(duì)GPT-4的細(xì)節(jié)披露顯示,GPT-4總共包含了1.8萬(wàn)億參數(shù)(GPT-3只有約1750億個(gè)參數(shù)),相對(duì)應(yīng)的,專家測(cè)算,Open AI在25000個(gè)A100 GPU上訓(xùn)練,單次訓(xùn)練成本則達(dá)到6300萬(wàn)美元,即便是在當(dāng)下,利用8192個(gè)H100 GPU進(jìn)行訓(xùn)練,也需要2150萬(wàn)美元。

“在Scaling Law失效,真正、徹底的人工智能實(shí)現(xiàn)之前,可能僅僅是能源消耗,我們的地球都無(wú)法支撐?!痹羞h(yuǎn)介紹,“優(yōu)化模型架構(gòu),提升大模型的效率,從而有效地降低能耗,就成為必由之路。”

彩云科技的DCFormer架構(gòu)即是基于模型架構(gòu)優(yōu)化的思路而誕生。在今年舉辦的ICML(國(guó)際機(jī)器學(xué)習(xí)大會(huì))上,彩云科技團(tuán)隊(duì)正式向公眾介紹了DCFormer架構(gòu),提出可動(dòng)態(tài)組合的多頭注意力(DCMHA),替換Transformer核心組件多頭注意力模塊(MHA),解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據(jù)輸入動(dòng)態(tài)組合,從根本上提升了模型的表達(dá)能力,實(shí)現(xiàn)在DCPythia-6.9B模型上,在預(yù)訓(xùn)練困惑度和下游任務(wù)評(píng)估上都優(yōu)于開(kāi)源Pythia-12B模型的表現(xiàn)。

1.7-2倍的性能提升,意味著同樣的訓(xùn)練任務(wù),在同等GPU的情況下,效率的同級(jí)別提升,之前如果預(yù)訓(xùn)練需要消耗100兆瓦時(shí)的耗電量,現(xiàn)在僅需要50兆瓦時(shí),成本將大幅縮減。

與此同時(shí),對(duì)于很多致力于開(kāi)發(fā)大模型的中小型人工智能公司而言,模型的效率提升也給他們參與AI浪潮提供了全新的機(jī)遇。袁行遠(yuǎn)介紹,譬如Open AI做的是通用大模型,它可能有3萬(wàn)張A100卡,但只有十分之一的算力集中在故事創(chuàng)作上,那就是3000張卡,如果我們能在模型結(jié)構(gòu)上具備優(yōu)勢(shì),利用DCFormer架構(gòu)實(shí)現(xiàn)2倍的訓(xùn)練效率提升,那么只需要1500張卡就能實(shí)現(xiàn)與Open AI同樣的效果,如果模型架構(gòu)的效率優(yōu)勢(shì)達(dá)到4倍,那就只需要750張卡就可以實(shí)現(xiàn)。

這一點(diǎn),似乎已經(jīng)在彩云科技自己的產(chǎn)品,彩云小夢(mèng)V3.5上實(shí)現(xiàn)了印證。這款基于DCFormer架構(gòu)應(yīng)用的故事續(xù)寫、陪伴類型的人工智能產(chǎn)品,在訪問(wèn)深度、交互長(zhǎng)度上都實(shí)現(xiàn)了同類型產(chǎn)品的領(lǐng)先,平均150分鐘的交流時(shí)長(zhǎng),超過(guò)400+句的深度對(duì)話,遠(yuǎn)超當(dāng)前業(yè)內(nèi)平均20分鐘左右的交互時(shí)長(zhǎng)。這背后,正是基于DCFormer架構(gòu)帶來(lái)的革新?!坝脩粼趯?duì)話超過(guò)400句后,彩云小夢(mèng)依然能夠記得之前對(duì)話里的細(xì)節(jié),甚至記得對(duì)話中各個(gè)NPC的愛(ài)好、習(xí)慣,超長(zhǎng)記憶和一致的邏輯,使得彩云小夢(mèng)成為真正的‘指尖伴侶’?!?/p>

“將DCFormer架構(gòu)的模型效率再次提升一倍,是我們接下來(lái)一年的目標(biāo)。”袁行遠(yuǎn)介紹,“只有模型效率和智能度提升,才能實(shí)現(xiàn)真正的AGI?!?/p>

分享到

xiesc

相關(guān)推薦