成人免费午夜在线观看,中文字幕人妻无码一夲道

不過(guò)，相較于新模型和新產(chǎn)品迭代，業(yè)界更關(guān)注的是DCFormer架構(gòu)在效率層面的大幅提升，彩云科技CEO袁行遠(yuǎn)介紹，彩云科技團(tuán)隊(duì)在基于DCFormer打造的模型DCPythia-6.9B上，實(shí)現(xiàn)了在預(yù)訓(xùn)練困惑度和下游任務(wù)評(píng)估上都優(yōu)于開(kāi)源Pythia-12B。這意味著，DCFormer模型在性能上，實(shí)現(xiàn)了對(duì)Transformer模型1.7-2倍的性能提升，這是在大模型基礎(chǔ)技術(shù)層領(lǐng)域近年來(lái)少有的突破。

目前大模型訓(xùn)練的主要成本由三部分構(gòu)成，即訓(xùn)練成本、推理成本和儲(chǔ)存成本。其中，訓(xùn)練成本是其中的主要構(gòu)成，例如，GPT-3的單次訓(xùn)練成本據(jù)估算高達(dá)140萬(wàn)美元，這些成本主要由兩部分構(gòu)成，GPU的使用和大量的電力消耗，電力消耗方面，GPT-3的訓(xùn)練耗電量高達(dá)1287兆瓦時(shí)。而據(jù)《華爾街見(jiàn)聞》對(duì)GPT-4的細(xì)節(jié)披露顯示，GPT-4總共包含了1.8萬(wàn)億參數(shù)（GPT-3只有約1750億個(gè)參數(shù)），相對(duì)應(yīng)的，專家測(cè)算，Open AI在25000個(gè)A100 GPU上訓(xùn)練，單次訓(xùn)練成本則達(dá)到6300萬(wàn)美元，即便是在當(dāng)下，利用8192個(gè)H100 GPU進(jìn)行訓(xùn)練，也需要2150萬(wàn)美元。

“在Scaling Law失效，真正、徹底的人工智能實(shí)現(xiàn)之前，可能僅僅是能源消耗，我們的地球都無(wú)法支撐。”袁行遠(yuǎn)介紹，“優(yōu)化模型架構(gòu)，提升大模型的效率，從而有效地降低能耗，就成為必由之路?！?/p>

彩云科技的DCFormer架構(gòu)即是基于模型架構(gòu)優(yōu)化的思路而誕生。在今年舉辦的ICML(國(guó)際機(jī)器學(xué)習(xí)大會(huì))上，彩云科技團(tuán)隊(duì)正式向公眾介紹了DCFormer架構(gòu)，提出可動(dòng)態(tài)組合的多頭注意力（DCMHA），替換Transformer核心組件多頭注意力模塊（MHA），解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定，讓它們可以根據(jù)輸入動(dòng)態(tài)組合，從根本上提升了模型的表達(dá)能力，實(shí)現(xiàn)在DCPythia-6.9B模型上，在預(yù)訓(xùn)練困惑度和下游任務(wù)評(píng)估上都優(yōu)于開(kāi)源Pythia-12B模型的表現(xiàn)。

1.7-2倍的性能提升，意味著同樣的訓(xùn)練任務(wù)，在同等GPU的情況下，效率的同級(jí)別提升，之前如果預(yù)訓(xùn)練需要消耗100兆瓦時(shí)的耗電量，現(xiàn)在僅需要50兆瓦時(shí)，成本將大幅縮減。

與此同時(shí)，對(duì)于很多致力于開(kāi)發(fā)大模型的中小型人工智能公司而言，模型的效率提升也給他們參與AI浪潮提供了全新的機(jī)遇。袁行遠(yuǎn)介紹，譬如Open AI做的是通用大模型，它可能有3萬(wàn)張A100卡，但只有十分之一的算力集中在故事創(chuàng)作上，那就是3000張卡，如果我們能在模型結(jié)構(gòu)上具備優(yōu)勢(shì)，利用DCFormer架構(gòu)實(shí)現(xiàn)2倍的訓(xùn)練效率提升，那么只需要1500張卡就能實(shí)現(xiàn)與Open AI同樣的效果，如果模型架構(gòu)的效率優(yōu)勢(shì)達(dá)到4倍，那就只需要750張卡就可以實(shí)現(xiàn)。

這一點(diǎn)，似乎已經(jīng)在彩云科技自己的產(chǎn)品，彩云小夢(mèng)V3.5上實(shí)現(xiàn)了印證。這款基于DCFormer架構(gòu)應(yīng)用的故事續(xù)寫、陪伴類型的人工智能產(chǎn)品，在訪問(wèn)深度、交互長(zhǎng)度上都實(shí)現(xiàn)了同類型產(chǎn)品的領(lǐng)先，平均150分鐘的交流時(shí)長(zhǎng)，超過(guò)400+句的深度對(duì)話，遠(yuǎn)超當(dāng)前業(yè)內(nèi)平均20分鐘左右的交互時(shí)長(zhǎng)。這背后，正是基于DCFormer架構(gòu)帶來(lái)的革新?！坝脩粼趯?duì)話超過(guò)400句后，彩云小夢(mèng)依然能夠記得之前對(duì)話里的細(xì)節(jié)，甚至記得對(duì)話中各個(gè)NPC的愛(ài)好、習(xí)慣，超長(zhǎng)記憶和一致的邏輯，使得彩云小夢(mèng)成為真正的‘指尖伴侶’?！?/p>

“將DCFormer架構(gòu)的模型效率再次提升一倍，是我們接下來(lái)一年的目標(biāo)。”袁行遠(yuǎn)介紹，“只有模型效率和智能度提升，才能實(shí)現(xiàn)真正的AGI。”

分享到

xiesc

相關(guān)推薦

近期文章

熱門標(biāo)簽