阿里巴巴最新開源的推理模型通義千問QwQ-32B以綜合評分92.3分位列全球第五,超越OpenAI-GPT-4.5preview(91.8分)、Google-Gemini2.0(90.1分)等頂尖閉源模型,成為榜單前十中僅有的兩款開源模型之一。

文字編輯|宋雨涵

1

LiveBench的權(quán)威性

不可操控的評測基準升

LiveBench的權(quán)威性源于其獨特的評測機制和嚴格的評估標準。該榜單由楊立昆聯(lián)合Abacus.AI、紐約大學等機構(gòu)共同推出,旨在通過多維度、動態(tài)更新的評測體系,全面衡量大模型的綜合能力。其核心特點包括:

全面覆蓋六大能力:評測維度涵蓋推理、編程、數(shù)學、數(shù)據(jù)分析、語言理解和指令遵循,幾乎覆蓋了當前AI大模型的所有核心應用場景。

實時更新的題庫:每月更新的動態(tài)題庫有效杜絕了模型通過針對性訓練或微調(diào)“刷分”的可能性,確保了評測的公平性和真實性。

行業(yè)公認的公正性:LiveBench因其評測結(jié)果的客觀性,被公認為“世界上第一個不可玩弄的LLM基準測試”,成為全球大模型研發(fā)團隊的重要參考。

這種評測機制不僅考驗模型的靜態(tài)性能,更強調(diào)其在動態(tài)環(huán)境中的適應能力。例如,在指令遵循(IF Average)這一關(guān)鍵指標中,模型需精準捕捉用戶模糊需求背后的真實意圖,對細節(jié)控制力要求極高。此次榜單中,中國模型在這一指標上的突破尤為亮眼。

全球大模型排名:中美競爭與技術(shù)分化

關(guān)鍵發(fā)現(xiàn)與結(jié)論

參數(shù)效率革命:

QwQ-32B僅320億參數(shù),即達到與670億參數(shù)DeepSeek-R1(71.57分)相當?shù)木C合性能,參數(shù)效率比提升超2倍。

成本優(yōu)勢凸顯:

結(jié)合用戶歷史數(shù)據(jù),QwQ-32B支持消費級顯卡(RTX 4090)本地部署,推理成本僅為GPT-4o的1/40,為中小企業(yè)提供低成本AI部署路徑。

領(lǐng)域能力對比:結(jié)構(gòu)化任務(wù) vs 通用語言

數(shù)學與編碼:QwQ-32B數(shù)學平均分77.82分(全球第二)、編碼72.23分(超越DeepSeek-R1的66.74分),展現(xiàn)其在金融風控、代碼生成等結(jié)構(gòu)化場景的統(tǒng)治力。

推理能力:83.50分僅次于OpenAI高端模型,適合需要高精度邏輯推理的工業(yè)質(zhì)檢、醫(yī)療影像分析等場景。

語言能力:51.35分較OpenAI最低模型(gpt-4.5-preview未公布)仍存差距,中文語義理解與長上下文連貫性需優(yōu)化。

多模態(tài)缺失:表格未包含視覺任務(wù)評分,而Anthropic、DeepSeek已布局多模態(tài),可能形成差異化競爭壁壘。

開源生態(tài)的里程碑

QwQ-32B開源首日衍生模型破10萬,Hugging Face下載量超50萬次,生態(tài)規(guī)模超Meta Llama 2,驗證了“小模型+強化學習”路徑的可行性。

招商銀行信用卡欺詐識別準確率提升至98.7%(用戶提供案例),顯示其在垂直場景的快速適配能力。

2

全球最強開源模型

QwQ-32B:小巧而強大的推理模型

架構(gòu)創(chuàng)新

QwQ-32B基于Qwen2.5-32B構(gòu)建,采用64層Transformer架構(gòu),融合RoPE注意力機制、SwiGLU激活函數(shù)、RMSNorm歸一化及注意力QKV偏置技術(shù),實現(xiàn)參數(shù)效率的革命性提升。其支持32K tokens長上下文,可處理復雜多步驟推理任務(wù),例如數(shù)學證明、代碼調(diào)試等。

強化學習驅(qū)動的“思考”能力

模型通過雙階段強化學習(RL)訓練實現(xiàn)深度推理:

第一階段

基于嚴格結(jié)果驗證器(如數(shù)學題對錯、代碼運行結(jié)果),快速掌握專業(yè)技能。

第二階段

引入通用強化學習,學習環(huán)境反饋與策略調(diào)整,模擬人類批判性思考。

此外,集成結(jié)構(gòu)化自我提問機制,使模型能像人類一樣分步驟拆解問題并動態(tài)優(yōu)化路徑。

輕量化部署

通過混合精度量化(FP16/BF16)和動態(tài)稀疏注意力機制,顯存占用壓縮至18-24GB,支持在消費級顯卡(如RTX 4090)本地運行,推理速度達30-50 token/s,成本僅為DeepSeek-R1的1/10。

全球影響力:開源生態(tài)的新標桿

QwQ-32B開源首日即登頂全球AI社區(qū)HuggingFace模型榜,成為全球最受歡迎的開源大模型。目前,該模型已接入國家超算互聯(lián)網(wǎng)平臺、廣州人工智能公共算力中心及多所985、211高校,如東南大學、天津大學、山東大學等。

在產(chǎn)業(yè)界,壁仞科技、摩爾線程、硅基流動、CAMEL-AI、OpenRouter、SambaNova Cloud等海內(nèi)外企業(yè)紛紛推出基于QwQ-32B的算力產(chǎn)品或API服務(wù)。

其中,SambaNova Systems通過其云平臺SambaNova Cloud提供QwQ-32B訪問,顯著提升了輸出速度。此外,SGlang、Ollama、CAMEL-AI、OpenReuter、SiliconCloud(、Huggingchat和ChatLLM等領(lǐng)先AI產(chǎn)品也已集成QwQ-32B,以增強其功能。

寫在最后

2025人工智能基礎(chǔ)設(shè)施峰會即將啟幕

AI Infrastructure Summit

隨著QwQ-32B在LiveBench榜單上的出色表現(xiàn),我們可以預見中國開源AI模型將在全球AI競爭中扮演越來越重要的角色。阿里云通義千問團隊正在探索將代理能力與強化學習進一步結(jié)合,以實現(xiàn)長期推理,通過推理時間擴展解鎖更強大的智能。

QwQ-32B的成功也為AI模型的發(fā)展提供了新思路:在追求更大參數(shù)規(guī)模的同時,通過創(chuàng)新的算法和訓練方法,可以在相對較小的參數(shù)規(guī)模下實現(xiàn)卓越性能,從而降低部署門檻,推動AI技術(shù)的普及應用。

隨著開源AI生態(tài)的不斷壯大,我們有理由相信,中國的AI技術(shù)將繼續(xù)在全球舞臺上綻放光彩,為人類智能的進步貢獻更多中國智慧。

分享到

lixiangjing

算力豹主編

相關(guān)推薦