在X平臺上發(fā)布的一篇文章中,Jeff Dean詳細介紹了Gemini 2.0 Flash Thinking。他指出,該模型經(jīng)過特殊訓練,能夠通過“思考”來強化其推理能力,并且得益于Gemini Flash 2.0模型的速度優(yōu)勢。他還通過演示展示了模型如何通過一系列有序的“思考”步驟,最終解答物理問題。

值得注意的是,Gemini 2.0 Flash Thinking在推理方式上借鑒了o1模型的慢思維策略,能夠深度展示整個思維鏈條,特別是在解決數(shù)學、編程等復(fù)雜問題時,能夠持續(xù)輸出完整的推理過程,而非直接給出答案。

此外,Gemini 2.0 Flash Thinking支持多模態(tài)推理,現(xiàn)已開放使用。用戶可以在Google AI Studio和Vertex AI的Gemini API中體驗該模型。

Google近期推出的Gemini 2.0 Flash不僅支持多模式輸入,如圖像、視頻和音頻,還具備多模式輸出能力,包括結(jié)合文本的原生圖像生成和可控的文本轉(zhuǎn)語音(TTS)多語言音頻。該模型還能原生調(diào)用Google搜索等工具,執(zhí)行代碼,并集成第三方用戶自定義函數(shù)。

更新內(nèi)容與產(chǎn)品實測

新的Thinking模型是以剛發(fā)布的2.0 Flash版本為基礎(chǔ),使用了類似o1模型的慢思維思考方式,可以深度可視化展示整個思維鏈過程,尤其是在執(zhí)行數(shù)學、編程等復(fù)雜問題方面,能持續(xù)輸出全部推理過程,而不是直接給出答案。

值得一提的是,Thinking是支持多模態(tài)推理的。

例如,讓Thinking模型解讀一道非常復(fù)雜的物理題:一個電子被困在一維無限勢阱中,其邊界位于\(x = -0.15 \) nm 和 \( x = +0.15 \) nm。求當電子在勢阱中改變能級時發(fā)射出的四個最長波長的光子。

Thinking可以完完整整地展現(xiàn)出所有的推理過程。

也可以讓Thinking推理一下圖片:如何使用這些數(shù)字中的三個,使其相加總和為 30 呢?

思考速度比所有模型快5倍

根據(jù)Chatbot Arena LLM Leaderboard最新評測數(shù)據(jù)顯示,Thinking模型在代碼、數(shù)學、指令遵循、多輪測試等基準測試中,全部排名第一,超過了o1的預(yù)覽版。

雙雄”爭霸,誰將勝出

news

一、功能特點

模型功能描述
OpenAI o1系列1. 在回答問題前會進行深入思考,并生成一條內(nèi)部推理鏈,使其在嘗試解決問題時可以識別并糾正錯誤。
2. 能夠?qū)?fù)雜的步驟分解為更簡單的部分,并在當前方法無效時嘗試不同的途徑。
3. 支持圖片輸入和高級視覺功能,并附帶全新的偏好微調(diào)方法。
4. 包括o1-preview、o1和o1-mini三個型號,其中o1-mini是一種更快、更便宜的推理模型,適用于需要推理但不需廣泛世界知識的應(yīng)用。
谷歌Gemini 2.01. 支持32000個輸入標記(大約50到60頁文本),輸出響應(yīng)可以達到8000個標記。
2. 允許用戶通過下拉菜單訪問模型的逐步推理過程,增強了透明性,有效解決了AI被視為“黑箱”的問題。
3. 具備原生圖像上傳與分析功能,支持原生圖像和多語言音頻輸出,以及原生工具使用,能夠理解和處理包括文本、圖像、視頻和音頻在內(nèi)的多種輸入類型,并提供相應(yīng)的輸出結(jié)果。
4. Flash Thinking模型比基礎(chǔ)版本的Gemini 2.0 Flash模型具備更強的推理能力。

二、性能指標

模型性能指標
OpenAI o1系列數(shù)學水平與美國奧林匹克競賽(AIME)前500名的選手相當,在物理、生物和化學領(lǐng)域超過了人類博士的水平。
谷歌Gemini 2.01. 在關(guān)鍵基準測試中,相較于前代Gemini 1.5 Pro性能大幅提升,速度至高提升兩倍。
2. 在SWE-bench Verified基準上,Gemini 2.0 Flash表現(xiàn)出色,擊敗了完整版的o1。
3. 在一些簡單測試中,Gemini 2.0能夠快速(在一到三秒內(nèi))正確回答一些復(fù)雜問題。

三、應(yīng)用前景

模型應(yīng)用前景描述
OpenAI o1系列適用于多個領(lǐng)域,特別是在需要復(fù)雜推理和科學計算的應(yīng)用場景中展現(xiàn)出強大的能力。
谷歌Gemini 2.01. 基于Gemini 2.0,谷歌推出了一系列AI Agent新品,包括通用大模型助手Project Astra、瀏覽器助手Project Mariner、編程助手Jules等,進一步拓展了其應(yīng)用邊界。
2. 在智能家居、智能醫(yī)療、智能教育等領(lǐng)域具有廣泛的應(yīng)用前景,能夠通過多模態(tài)交互方式為用戶提供更加高效、便捷的服務(wù)。

OpenAI的o1系列和谷歌的Gemini 2.0,代表了當前AI發(fā)展的兩大方向:安全與推理 vs 多模態(tài)與實用。它們各有千秋,難分伯仲。

OpenAI的o1系列在邏輯推理、數(shù)據(jù)安全和算法穩(wěn)定性方面表現(xiàn)出色,但其應(yīng)用場景相對有限,主要集中在一些需要高度安全性和準確性的領(lǐng)域。相比之下,谷歌的Gemini 2.0在數(shù)據(jù)處理能力、實用性和靈活性方面更具優(yōu)勢,能夠處理多種數(shù)據(jù)類型,并快速生成實用的信息和決策。然而,Gemini 2.0在算法安全性和穩(wěn)定性方面可能存在一定的挑戰(zhàn)。

隨著AI技術(shù)的不斷發(fā)展,各行各業(yè)對AI系統(tǒng)的需求也在不斷增加。OpenAI的o1系列在金融、醫(yī)療等需要高度安全性和準確性的領(lǐng)域具有廣闊的應(yīng)用前景。而谷歌的Gemini 2.0則在智能客服、智能家居、自動駕駛等需要處理多種數(shù)據(jù)類型并快速生成決策的場景中具有顯著優(yōu)勢。

未來,隨著技術(shù)的不斷進步和應(yīng)用場景的不斷拓展,OpenAI的o1系列和谷歌的Gemini 2.0都將在各自領(lǐng)域取得更大的發(fā)展。安全與推理和多模態(tài)與實用將不再是相互排斥的關(guān)系,而是相互融合、相互促進的關(guān)系。未來的AI系統(tǒng)將更加注重算法的穩(wěn)定性、安全性和實用性,能夠處理更加復(fù)雜多變的數(shù)據(jù)和任務(wù)。

寫在最后

隨著人工智能領(lǐng)域的競爭愈演愈烈,Gemini 2.0 Flash Thinking或?qū)⒁I(lǐng)問題解決模型邁入一個嶄新的紀元。它憑借對多元數(shù)據(jù)類型的卓越處理能力、直觀的可視化推理展現(xiàn),以及大規(guī)模的執(zhí)行效率,在推理人工智能市場中嶄露頭角,成為一股不可小覷的力量,足以與OpenAI的o1系列等頂尖產(chǎn)品并駕齊驅(qū),一展風采。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關(guān)推薦