夜夜爽8888天天躁夜夜躁狠狠,最新国内精品自在自线视频,最新videosfree性另类

圖1：AWS實(shí)例上Llama 3的下一個(gè)Token延遲

不僅如此，英特爾還首次披露了即將發(fā)布的產(chǎn)品——英特爾至強(qiáng)6性能核處理器（代號(hào)為Granite Rapids）針對(duì)Meta Llama 3的性能測(cè)試。結(jié)果顯示，與第四代至強(qiáng)處理器相比，英特爾至強(qiáng)6處理器在80億參數(shù)的Llama 3推理模型的延遲降低了2倍，并且能夠以低于100毫秒的token延遲，在單個(gè)雙路服務(wù)器上運(yùn)行諸如700億參數(shù)的Llama 3這種更大參數(shù)的推理模型。

**圖2：基于英特爾至強(qiáng) 6性能核處理器（代號(hào)Granite Rapids）的Llama 3下一個(gè)Token延遲**

考慮到Llama 3具備更高效的編碼語(yǔ)言標(biāo)記器（Tokenizer），測(cè)試采用了隨機(jī)選擇的prompt對(duì)Llama 3和Llama 2進(jìn)行快速比較。在prompt相同的情況下，Llama 3所標(biāo)記的token數(shù)量相較Llama 2減少18%。因此，即使80億參數(shù)的Llama 3模型比70億參數(shù)的Llama 2模型參數(shù)更高，在AWS m7i.metal-48xl實(shí)例上運(yùn)行BF16推理時(shí)，整體prompt的推理時(shí)延幾乎相同（該評(píng)估中，Llama 3比Llama 2快1.04倍）。

開(kāi)發(fā)者可在此查閱在英特爾至強(qiáng)平臺(tái)上運(yùn)行Llama 3的說(shuō)明。

分享到

zhupb

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽