這場(chǎng)技術(shù)對(duì)決不僅展現(xiàn)了巨頭對(duì)多模態(tài)AI的競(jìng)速布局,更映射出兩條截然不同的技術(shù)路線:OpenAI以“平民化創(chuàng)造力”破局,谷歌則深耕“智能體推理”。

文字編輯|宋雨涵

1

OpenAI

圖像生成進(jìn)入“對(duì)話式創(chuàng)作”時(shí)代

據(jù)悉,OpenAI全生態(tài)體系已完成功能升級(jí)。個(gè)人用戶無(wú)論付費(fèi)層級(jí),均可在ChatGPT對(duì)話中直接生成圖像,并動(dòng)態(tài)調(diào)整。企業(yè)用戶與教育機(jī)構(gòu)將獲專屬優(yōu)化版本,降低內(nèi)容創(chuàng)作門檻。同時(shí),Sora平臺(tái)已支持GPT-4o圖像生成,實(shí)現(xiàn)文本到視覺的“一站式”創(chuàng)作。

GPT-4o圖像生成功能有四大革新:精準(zhǔn)文本渲染,復(fù)雜描述即時(shí)轉(zhuǎn)高質(zhì)量圖像;指令嚴(yán)格遵循,輸出與用戶需求高度匹配;深度知識(shí)調(diào)用,結(jié)合4o知識(shí)庫(kù)及對(duì)話歷史生成上下文關(guān)聯(lián)視覺內(nèi)容;創(chuàng)意拓展能力,支持上傳圖片二次創(chuàng)作或提取元素生成新設(shè)計(jì)。

OpenAI將數(shù)周內(nèi)開放API接口權(quán)限,第三方應(yīng)用可集成GPT-4o圖像生成能力。目前,首批用戶已在社交媒體分享GPT-4o創(chuàng)意作品,涵蓋科幻、數(shù)據(jù)可視化及抽象藝術(shù)等。功能全面普及需數(shù)周,用戶可通過(guò)賬戶設(shè)置查看權(quán)限狀態(tài)。

技術(shù)突破亮點(diǎn):

精準(zhǔn)文本渲染:可生成含復(fù)雜文字標(biāo)志的Logo、菜單、信息圖,解決AI繪圖長(zhǎng)期存在的“文字錯(cuò)亂”痛點(diǎn)。

多語(yǔ)言友好性:古吉拉特語(yǔ)、日語(yǔ)等非英語(yǔ)輸入的標(biāo)記效率提升1.1-4.4倍,降低非英語(yǔ)用戶創(chuàng)作門檻。

成本大幅下降:輸入/輸出token價(jià)格較GPT-4 Turbo降低50%,首次向免費(fèi)用戶開放“最佳模型”。

安全與溯源:所有圖像嵌入C2PA元數(shù)據(jù)標(biāo)識(shí)來(lái)源,并嚴(yán)格限制違規(guī)內(nèi)容生成。

官方示例中,GPT-4o生成的“女巫閱讀魔幻路標(biāo)”“牛頓棱鏡實(shí)驗(yàn)連環(huán)畫”等場(chǎng)景,幾乎達(dá)到攝影級(jí)真實(shí)度,甚至能模擬“狗仔隊(duì)偷拍風(fēng)格”的動(dòng)態(tài)模糊效果。這一能力已直接威脅Midjourney等垂直繪圖工具的市場(chǎng)地位。

2

谷歌

新一代人工智能推理模型Gemini 2.5

3月26日凌晨,谷歌發(fā)布了新一代人工智能推理模型Gemini 2.5。該模型基于多模態(tài)大語(yǔ)言框架進(jìn)行升級(jí),顯著提升了推理能力、多語(yǔ)言支持及長(zhǎng)文本處理能力。官方表示,Gemini 2.5通過(guò)優(yōu)化算法架構(gòu),響應(yīng)速度提高了40%,能耗降低了25%。在關(guān)鍵指標(biāo)測(cè)試中,其復(fù)雜邏輯任務(wù)完成度比前代提升了65%,尤其在醫(yī)療診斷輔助、法律文書生成等領(lǐng)域表現(xiàn)更出色。

Gemini 2.5是谷歌挑戰(zhàn)OpenAI“o”系列模型的重要嘗試,其旗艦版本Gemini 2.5 Pro Experimental在多項(xiàng)基準(zhǔn)測(cè)試中超越了OpenAI、Anthropic等競(jìng)爭(zhēng)對(duì)手。Gemini 2.5 Pro支持文本、圖像、音頻、視頻及代碼的多模態(tài)輸入,上下文窗口高達(dá)100萬(wàn)token(約75萬(wàn)單詞),能解析完整《指環(huán)王》系列文本,并計(jì)劃未來(lái)升級(jí)至200萬(wàn)token。

谷歌強(qiáng)調(diào),“推理”能力不僅限于分類和預(yù)測(cè),還包括系統(tǒng)分析信息、得出邏輯結(jié)論、融入上下文和細(xì)微差別,以及做出明智決策。Gemini 2.5發(fā)布會(huì)后,市場(chǎng)反應(yīng)迅速,集成該模型的谷歌辦公套件測(cè)試版訪問量激增,教育類初創(chuàng)公司LumenAI也宣布將基于新模型開發(fā)教學(xué)工具。

然而,隱私倡導(dǎo)組織已對(duì)數(shù)據(jù)處理權(quán)限提出質(zhì)詢,要求谷歌提高透明度。Gemini 2.5 Pro即日起向訂閱“Gemini Advanced”(月費(fèi)20美元)的用戶開放,可通過(guò)Google AI Studio和Gemini應(yīng)用訪問,未來(lái)將登陸Vertex AI平臺(tái)。谷歌暫未公布API定價(jià),但表示將在幾周內(nèi)公布企業(yè)級(jí)應(yīng)用方案。

研究機(jī)構(gòu)Gartner預(yù)測(cè),到2026年,多模態(tài)生成模型的商業(yè)價(jià)值將占AI市場(chǎng)的45%。隨著谷歌、微軟等巨頭的持續(xù)投入,生成式AI正逐漸從通用工具轉(zhuǎn)變?yōu)楫a(chǎn)業(yè)基礎(chǔ)設(shè)施,但其社會(huì)倫理和監(jiān)管框架的完善仍需各方共同探索。

多模態(tài)競(jìng)爭(zhēng)將重塑AI產(chǎn)業(yè)格局

此次行業(yè)巔峰對(duì)決,標(biāo)志著AI競(jìng)爭(zhēng)進(jìn)入“全模態(tài)深水區(qū)”。OpenAI以“免費(fèi)+對(duì)話”策略快速圈地用戶,而谷歌以“推理+自動(dòng)化”鞏固B端壁壘。短期來(lái)看,OpenAI的視覺生成技術(shù)更貼近C端需求爆發(fā)點(diǎn);長(zhǎng)期而言,谷歌的智能體生態(tài)若能與行業(yè)場(chǎng)景深度融合,或?qū)⒃谄髽I(yè)服務(wù)市場(chǎng)形成護(hù)城河。

值得警惕的是,兩家巨頭的技術(shù)躍進(jìn)也暗含風(fēng)險(xiǎn):當(dāng)AI可生成以假亂真的圖像、自主執(zhí)行復(fù)雜指令時(shí),如何防止技術(shù)濫用?這場(chǎng)競(jìng)賽不僅是技術(shù)的較量,更是責(zé)任與創(chuàng)新的平衡藝術(shù)。

分享到

lixiangjing

算力豹主編

相關(guān)推薦