雖然TGP從4090的450瓦提高到了575瓦,但單手持握意味著至少公版的5090不需要特別夸張的散熱規(guī)格。非公版顯卡的三風(fēng)扇應(yīng)該可以比較好的壓制溫度。

雖然5090的散熱要求并不是非常過分。不過,1999美元的定價,32G的顯存還是有點(diǎn)過于高冷了,顯然根本不是給游戲玩家準(zhǔn)備的。

對于大多數(shù)人來說,看到老黃說5070的性能等于4090就開始上頭了,簡直就是看到了撿便宜的機(jī)會,不買一張5070比買了A股還難受。

而買了4090的網(wǎng)友聽完就炸鍋了,直呼:沒想到看個發(fā)布會,我的4090就只值5070的549刀了?

不過,你一定可以相信老黃的皮衣,老黃的刀法,但對老黃的這類描述一定要謹(jǐn)慎對待。比如,當(dāng)年就說過3070的性能可以超過上一代旗艦RTX 2080 Ti,實(shí)際上根本不是那么回事。

有國外網(wǎng)友列出了兩張卡的對比數(shù)據(jù),看到這個,你還敢信老黃說的?最多就是部分參數(shù)性能能達(dá)到一個水平吧??傊畡e太上頭,最好過一陣子看看國行5070的價格再說。

不過,我覺得老黃這次CES上說的RTX 5090倒是還有一個有意思的地方,要不是這位叫Jim Fan的大佬說,我也完全沒注意到。

他說,新一代顯卡將使用神經(jīng)網(wǎng)絡(luò)生成90%的游戲畫面的像素,只有10%的像素使用傳統(tǒng)的光線追蹤算法來渲染像素。使用傳統(tǒng)方法渲染的畫面像草圖,而顯卡會根據(jù)草圖生成其他的畫面細(xì)節(jié)像素,生成速度很快。

這就有點(diǎn)顛覆性了,生成式AI大模型誕生于顯卡,又再造了顯卡。游戲顯卡以前叫GTX,RTX的命名就是在給光追做推廣,以后RTX的命名是不是會根據(jù)AI再做一次修改呢?

除了生成更多像素,英偉達(dá)還支持讓顯卡生成新的畫面幀,傳統(tǒng)計算方式生成一個幀之后,用DLSS再生成三個幀。這將大大提高游戲的幀率,提高游戲畫面的流暢度。

以后還哪有什么玩游戲的顯卡,就算你是在玩游戲,顯卡也在不停的做AI推理啊。

第二個有趣瞬間,化身美國隊長,展示GB200 NVL72的強(qiáng)大。

酒過三巡,介紹完消費(fèi)級顯卡之后,在介紹數(shù)據(jù)中心級B200顯卡之前,老黃提到了三個Scaling Law。

第一個是預(yù)訓(xùn)練階段模型會隨著數(shù)據(jù)、算力和參數(shù)的提升而提升效果;

第二個是在訓(xùn)練完成后,通過微調(diào)、模型蒸餾等各種優(yōu)化技術(shù)進(jìn)行二次訓(xùn)練來提升效果;

第三個則是在推理階段,通過多步驟的推理,類似慢思考的方式來提升模型的效果。

為什么強(qiáng)調(diào)這Scaling Law呢?因?yàn)檫@三個階段都需要大量的B200這種級別的高性能顯卡。

為了幫助大家了解這些有點(diǎn)亂的信息,這里先明晰幾個概念。首先,新一代顯卡的架構(gòu)叫Blackwell,所以,顯卡代號就是B200。

而常說的GB200其實(shí)是同時帶有Grace CPU和Blackwell顯卡的主板。如上圖所示,就是一個超級芯片。嚴(yán)格來說,它叫NVL2,因?yàn)樗袃蓚€Blackwell顯卡。

上圖是一套NVL72機(jī)架系統(tǒng),NVL72里是用NVLink連接了72塊B200顯卡,也就是36個NVL2的小的超級芯片。NVL72是史上最強(qiáng) AI 計算系統(tǒng),擁有 1.4 ExaFLOPS算力、14TB HBM內(nèi)存、1330 萬億晶體管。

老黃宣稱,目前,各種規(guī)格的GB200 NVL系統(tǒng)已經(jīng)進(jìn)入全面量產(chǎn)的階段,主流的云服務(wù)商都部署了。新的Blackwell顯卡提供4倍能效、3倍成本優(yōu)化,大幅降低 AI 訓(xùn)練和推理成本,將加速 AI 應(yīng)用發(fā)展。

為了形象地介紹這套NVL72有多夸張,老黃拿出了看著像美國隊長一樣的盾牌,擺出了美國隊長的英雄姿勢。

剛看見這塊芯片模樣的東西,我就直接懵了,這么大的芯片認(rèn)真的嗎?主流的晶元最大才12英寸,這肉眼看著直徑至少27寸顯示器那么大。

這么大一塊超級芯片,散熱要怎么弄呢?我發(fā)現(xiàn)有這個疑惑的不只是我一個。老黃拿著這塊芯片對著NVL72比劃,讓很多人誤以為,這是把這么大的芯片塞到這臺NVL72機(jī)柜里了。

我也被老黃的這頓意外的表演迷惑到了,有點(diǎn)懵。很多外國網(wǎng)友都有一樣的感覺。有網(wǎng)友指出來,老黃手里拿的是一個道具,展示的只是一臺NVL72機(jī)柜中用到的主要芯片放在一起的樣子。

真正NVL72的芯片不是這么制造出來的,更不是這么使用的。廣大網(wǎng)友請放心:要真有這么大的晶元,很可能不是臺積電代工的,而是宇宙積電代工的,你不考慮一下良品率了,也得起碼給他來點(diǎn)液氮做散熱標(biāo)配了吧。

老黃這波模仿美隊的操作,總感覺要跟鋼鐵俠馬斯克組CP了。

畢竟馬斯克目前的AI公司xAI,還有具有自動駕駛能力的特斯拉汽車,還有人形機(jī)器人擎天柱,都需要用到老黃的顯卡。馬斯克用英偉達(dá)顯卡就是最好的背書之一,畢竟馬斯克是最懂怎么把錢花在刀刃上的。

話說回來,老黃的特殊安排不只是這個道具。他宣稱,這一塊超級大芯片,也就是一臺NVL72,能提供1.4ExaFlops的算力,ExaFlops什么概念?這不就是前幾年一直在說的,全球很多超算追求的發(fā)展目標(biāo)嗎?

老黃也說了,以前超算數(shù)據(jù)中心里一整個屋子的服務(wù)器加起來才能達(dá)到的算力水平,現(xiàn)在一臺NVL72就做到了,驚不驚喜。而且1.2PB的內(nèi)存帶寬相當(dāng)于一整個互聯(lián)網(wǎng)的帶寬,你就說嚇不嚇人。

確實(shí)嚇人,不過,我注意到,老黃說的1.4ExaFlops的算力,算力精度用FP4這個超低精度來計算的,要知道,現(xiàn)在的E級HPC超級計算機(jī)的單位是FP64雙精度啊,老黃你有點(diǎn)不老實(shí)啊。

各位看官,不要真的以為一臺GB200 NVL72就能頂E級超算了。

第三個有趣瞬間,DGX-1微縮成桌面級電腦。

2016年,老黃當(dāng)著馬斯克還有OpenAI主要創(chuàng)始人的面,把第一代DGX-1交付給了OpenAI,2022年,OpenAI成了帶領(lǐng)全球走進(jìn)生成式AI技術(shù)時代的領(lǐng)路人。

老黃直接表示,這樣一臺機(jī)架級別的服務(wù)器還是太大了,為了讓AI研發(fā)者,數(shù)據(jù)科學(xué)家,學(xué)生和開發(fā)者都可以在桌子上擺放一臺超級計算機(jī),必須得把它的尺寸變小。

動圖封面

英偉達(dá)宣布啟動名為DIGITS(Deep learning gpu intelligence training system)的項目,打造桌面級超級計算機(jī),它將基于全新的GB10超級芯片打造,可提供1 Petaflop的AI 計算性能,可推理2000億參數(shù)大模型。

它是做什么用的呢?開發(fā)者在本地用它完成模型原型開發(fā)后,可以把模型放到云或者其他數(shù)據(jù)中心進(jìn)行訓(xùn)練,模型訓(xùn)練完成后可以放到本地進(jìn)行微調(diào)或者推理。

由于本地和云上都采用了Grace Blackwell 架構(gòu)和 NVIDIA AI Enterprise 軟件平臺,做到了軟硬件的無縫銜接。

這應(yīng)該是英偉達(dá)首次提到GB10超級芯片,它是基于Grace Blackwell架構(gòu)打造的SoC,在 FP4 精度下可提供高達(dá)1 Petaflop 的 AI計算性能。GB10還集成了20核的Arm處理器,兩者通過NVLink-C2C芯片互連技術(shù)相互連接。

每臺設(shè)備可提供128GB的共享內(nèi)存,不過,它既不是GDDR顯存,也不是HBM,而是DDR5X內(nèi)存,所以沒法直接跟5090或者B200進(jìn)行對比。不過,作為一款桌面級設(shè)備,功耗和散熱并不高,也沒法奢望能用上顯存。

老黃表示,憑借128GB的共享內(nèi)存,它可以運(yùn)行最高2000億參數(shù)的大型語言模型。配合英偉達(dá)的ConnectX網(wǎng)絡(luò)技術(shù),能把兩臺設(shè)備連在一起,這樣就可以推理4050億參數(shù)的AI模型。

只不過,它的推理性能會不如預(yù)想的那么好。

油管博主:Picovoice

有人量化之后用單張24G顯存的4090推理了70B的大模型,每秒14個Token。換成32G的5090理論上能更快,但應(yīng)該還是不能推理2000億參數(shù)的大模型。

所以,一些準(zhǔn)備買5090運(yùn)行本地大模型的用戶,可能需要在兩者之間權(quán)衡一下了。一臺這樣的桌面級設(shè)備建議零售價為3000美元,僅比單塊RTX 5090的售價高了1000美元。

考慮到他能放在桌面上,也就降低了所有普通人在本地玩大語言模型的最低的門檻,還是挺有意思的。

分享到

zhupb

相關(guān)推薦