OpenAI新模型o3和o4-mini等在數(shù)學競賽、編程、指令遵循和工具調用方面的表現(xiàn)

與此同時,OpenAI推出的o4-mini是一款輕量級模型,專為追求快速響應與成本效益的推理任務而設計。盡管體積小巧、成本低廉,o4-mini在數(shù)學、編程及視覺任務上的表現(xiàn)卻令人矚目,實現(xiàn)了性能與資源消耗的完美平衡。

o4-mini在AIME 2024及2025基準測試中脫穎而出,成為表現(xiàn)最優(yōu)的模型。專家評估顯示,在非STEM領域及數(shù)據(jù)科學等任務中,o4-mini同樣超越了其前身o3-mini。得益于其高效性,o4-mini支持的使用限制遠高于o3,為解決需要深度推理能力的問題提供了強大且高效的高容量、高吞吐量解決方案。

Altman發(fā)文盛贊新視覺推理模型:天才水平

圖像思考與工具鏈自主決策

視覺推理新范式

o3和o4-mini首次將圖像直接融入思維鏈(Chain-of-Thought),模型不僅能“看到”圖像,還能通過裁剪、旋轉、縮放等操作進行深度分析。即使面對模糊、倒置或低質量圖片,模型仍能準確提取信息。例如,用戶上傳手繪草圖或白板照片,模型可結合Python代碼和網(wǎng)絡搜索工具,生成可視化圖表或解決方案。

工具調用智能化

兩款模型被訓練為“AI智能體”,可自主調用ChatGPT內置工具(如網(wǎng)頁搜索、Python代碼執(zhí)行、圖像生成),并動態(tài)組合使用。例如,當用戶詢問“加州夏季能源使用趨勢”時,模型會搜索公共數(shù)據(jù)、編寫代碼預測、生成圖表并解釋關鍵因素,整個過程耗時不到1分鐘。

OpenAI通過強化學習(RL)優(yōu)化工具使用策略,模型不僅能判斷“何時用工具”,還能根據(jù)任務目標靈活調整策略,例如在數(shù)學競賽中先暴力計算再優(yōu)化解法。

二、性價比質的飛躍

OpenAI稱o3和o4-mini在很多情況下,它們都比各自的前代o1與o3-mini更高效,也更節(jié)省成本。在AME2025基準測試中,性價比都遠遠超過前代模型。

o4-mini和o3-mini在成本和性能方面的對比:

o3o1在成本和性能方面的對比:

3

仍有三大局限性

推理鏈過程、感知錯誤、可靠性不足

推理鏈冗長:模型在執(zhí)行任務時,可能進行大量冗余或不必要的工具調用與圖像處理操作,致使思維鏈過長。

感知失誤:盡管工具調用能正常推進推理流程,但模型仍可能犯下基本的感知錯誤,視覺層面的誤解會直接導致最終答案出現(xiàn)偏差。

可靠性欠佳:在多次嘗試解決問題時,模型可能會采用不同的視覺推理過程,部分過程可能導致錯誤結果。

未來展望

OpenAI o3和o4-mini顯著提升了模型的視覺推理能力,這些模型在視覺感知任務上的提升,使其能夠解決之前模型難以觸及的問題,標志著模型向多模態(tài)推理邁出的重要一步。

OpenAI在博客中提到,他們將o系列的專業(yè)推理能力與GPT系列的自然對話能力和工具使用能力相結合,未來可以實現(xiàn)模型能支持無縫、自然的對話,同時能主動使用工具并解決更為復雜的問題。

分享到

lixiangjing

算力豹主編

相關推薦