不僅如此,英特爾還首次披露了即將發(fā)布的產(chǎn)品——英特爾至強(qiáng) 6性能核處理器(代號(hào)為Granite Rapids)針對(duì)Meta Llama 3的性能測(cè)試。結(jié)果顯示,與第四代至強(qiáng)處理器相比,英特爾至強(qiáng)6處理器在80億參數(shù)的Llama 3推理模型的延遲降低了2倍,并且能夠以低于100毫秒的token延遲,在單個(gè)雙路服務(wù)器上運(yùn)行諸如700億參數(shù)的Llama 3這種更大參數(shù)的推理模型。
考慮到Llama 3具備更高效的編碼語言標(biāo)記器(Tokenizer),測(cè)試采用了隨機(jī)選擇的prompt對(duì)Llama 3和Llama 2進(jìn)行快速比較。在prompt相同的情況下,Llama 3所標(biāo)記的token數(shù)量相較Llama 2減少18%。因此,即使80億參數(shù)的Llama 3模型比70億參數(shù)的Llama 2模型參數(shù)更高,在AWS m7i.metal-48xl實(shí)例上運(yùn)行BF16推理時(shí),整體prompt的推理時(shí)延幾乎相同(該評(píng)估中,Llama 3比Llama 2快1.04倍)。
開發(fā)者可在此查閱在英特爾至強(qiáng)平臺(tái)上運(yùn)行Llama 3的說明。