通義千問此前已開源5億、18億、40億、70億、140億和720億參數(shù)的6款大語(yǔ)言模型并均已升級(jí)至1.5版本,其中,幾款小尺寸模型可便捷地在端側(cè)部署,720億參數(shù)模型則擁有業(yè)界領(lǐng)先的性能,多次登上HuggingFace等模型榜單。此次開源的320億參數(shù)模型,將在性能、效率和內(nèi)存占用之間實(shí)現(xiàn)更理想的平衡,例如,相比14B模型,32B在智能體場(chǎng)景下能力更強(qiáng);相比72B,32B的推理成本更低。通義千問團(tuán)隊(duì)希望32B開源模型能為下游應(yīng)用提供更好的解決方案。

基礎(chǔ)能力方面,通義千問320億參數(shù)模型在MMLU、GSM8K、HumanEval、BBH等多個(gè)測(cè)評(píng)中表現(xiàn)優(yōu)異,性能接近通義千問720億參數(shù)模型,遠(yuǎn)超其他300億級(jí)參數(shù)模型。

Chat模型方面,Qwen1.5-32B-Chat模型在MT-Bench評(píng)測(cè)得分超過(guò)8分,與Qwen1.5-72B-Chat之間的差距相對(duì)較小。

多語(yǔ)言能力方面,通義千問團(tuán)隊(duì)選取了包括阿拉伯語(yǔ)、西班牙語(yǔ)、法語(yǔ)、日語(yǔ)、韓語(yǔ)等在內(nèi)的12種語(yǔ)言,在考試、理解、數(shù)學(xué)及翻譯等多個(gè)領(lǐng)域做了測(cè)評(píng)。Qwen1.5-32B的多語(yǔ)言能力只略遜于通義千問720億參數(shù)模型。

分享到

xiesc

相關(guān)推薦