該統(tǒng)一智能體系統(tǒng)的核心亮點在于,首次實現(xiàn)了三大AI技術(shù)的深度融合。它將Operator所具備的與網(wǎng)站交互的能力、DeepResearch擅長整合信息的技巧,以及ChatGPT在智能對話方面的優(yōu)勢,完美地整合在一起。

文字編輯|宋雨涵

1

AI具備類人電腦操作能力

自主為你工作

如今,ChatGPT可以直接使用計算機,全程自主為你工作。從智能瀏覽網(wǎng)頁、篩選結(jié)果,在需要時提醒安全登錄、運行代碼、進行分析,還能直出PPT和Excel匯總發(fā)現(xiàn)結(jié)果。

一項看似繁雜的任務(wù)擺在了眼前:為朋友精心策劃一場婚禮。這要求AI不僅要依據(jù)著裝規(guī)范和天氣狀況,推薦合適的禮服,還得預(yù)訂酒店,并準備好貼心的禮物。

接到這項指令后,ChatGPT agent沒有絲毫等待,即刻投入行動。它首先仔細確認了婚禮日期等關(guān)鍵信息,隨后自主打開瀏覽器,有條不紊地一步步操作,還將自己的“思考路徑”清晰明了地呈現(xiàn)給人類。整個過程,就如同一位訓(xùn)練有素、專業(yè)高效的數(shù)字助理在盡職工作。

更令人驚嘆的場景出現(xiàn)了。在執(zhí)行婚禮策劃任務(wù)的過程中,研究員突然給出了一個全新的指令:“幫我找一雙9.5碼的黑色正裝鞋”。模型幾乎沒有片刻遲疑,迅速暫停了正在進行的婚禮策劃任務(wù),轉(zhuǎn)而優(yōu)先處理這個新需求。待新需求處理完畢后,又無縫地切換回原來的婚禮策劃任務(wù),繼續(xù)推進。這種強大的多任務(wù)處理能力以及出色的上下文切換能力,無疑是它邁向真正“智能體”行列的關(guān)鍵一步。

還有一個演示則聚焦于提升生產(chǎn)力。當(dāng)團隊上傳了一張可愛的小狗圖片,并要求制作500個筆記本貼紙時,Agent迅速自動調(diào)用API進行樣式設(shè)計,接著打開電商平臺仔細比價,最終將挑選好的商品一一加入購物車,還整理出了一份清晰易懂的下單明細。

2

革新辦公自動化模式

挑戰(zhàn)微軟霸主地位

OpenAI正通過Agent功能挑戰(zhàn)微軟Office的統(tǒng)治地位。由于微軟已將.xlsx和.pptx文件格式開源,ChatGPT可不依賴Office原生應(yīng)用直接生成兼容文檔。

在PPT制作演示中,Agent通過Google Drive API獲取素材,結(jié)合設(shè)計模板引擎,10分鐘內(nèi)生成15頁專業(yè)演示文稿,包含數(shù)據(jù)可視化和圖文排版。用戶可直接下載并在本地PowerPoint中打開。

當(dāng)面臨制定一份參觀30多個美國職棒大聯(lián)盟球場的最佳行程安排這一任務(wù)時,對于人類而言,這簡直是一場令人頭疼的“噩夢”,繁雜的信息梳理與行程規(guī)劃讓人望而卻步。然而,ChatGPT agent卻展現(xiàn)出了驚人的效率,僅耗時25分鐘,就生成了一份直觀且可視化的Excel表格,將行程安排得明明白白。

當(dāng)然,它目前也并非毫無瑕疵。就拿生成的PPT來說,暫時還無法進行二次修改。這是因為它采用的技術(shù)路徑是直接生成代碼來創(chuàng)建文檔,而不是像人類那樣通過點擊操作來完成,不過這也恰恰凸顯了其底層邏輯具有顛覆性意義。

三、性能碾壓安全方面奧特曼親自發(fā)文

基準測試數(shù)據(jù)揭示了Agent的強悍實力。在衡量通用智能的Humanity’s Last Exam測試中,它以41.6%的得分碾壓前代模型;

數(shù)學(xué)方面,F(xiàn)rontierMath是目前已知最難的數(shù)學(xué)基準測試,包含全新且未公開發(fā)表的問題,通常需要數(shù)學(xué)專家花費數(shù)小時甚至數(shù)天才能解決。在具備工具使用能力(例如可訪問終端以執(zhí)行代碼)的情況下,ChatGPT Agent 在該測試中達到了 27.4% 的準確率,遠遠超越此前的所有模型。。

電子表格處理能力同樣驚艷。在SpreadsheetBench測試中,使用LibreOffice工具時完成30%任務(wù),獲得終端原始Excel文件訪問權(quán)限后,性能躍升至45%。

OpenAI針對ChatGPTAgent開展了專項評估,選取了BrowseComp基準測試作為評估場景。該基準由OpenAI于今年年初推出,主要作用是衡量具備瀏覽能力的Agent在網(wǎng)絡(luò)中查找那些難以獲取信息的能力。在這次測試中,ChatGPTAgent表現(xiàn)出色,一舉創(chuàng)下了新的SOTA(當(dāng)前最優(yōu)表現(xiàn))紀錄,得分達到68.9%,相較于deepresearch高出了17.4個百分點。

最后,在WebArena基準測試里,該測試主要聚焦于評估網(wǎng)頁瀏覽型Agent完成真實網(wǎng)頁任務(wù)的能力。ChatGPTAgent同樣有著亮眼表現(xiàn),其成績超越了由o3驅(qū)動的CUA(也就是驅(qū)動Operator的模型)。

面對自主AI的安全隱憂,奧特曼發(fā)文: 

Agent象征著AI系統(tǒng)能力達到了全新高度,它能夠借助自身所依托的計算機,為用戶完成一些特殊且復(fù)雜的任務(wù)。它融合了Deep Research和Operator的核心優(yōu)勢,不過其實際功能遠超人們的想象——它可以進行長時間的深度思考,運用各類工具,開展更深入的分析,采取相應(yīng)行動,之后再進一步深入思考,如此循環(huán)。

例如,在發(fā)布會上我們展示了一個為朋友婚禮做籌備的演示,涵蓋購買服裝、預(yù)訂行程、挑選禮物等事項。此外,還展示了一個分析數(shù)據(jù)并創(chuàng)建工作演示文稿的案例。

盡管Agent具有極大的效用,但潛在風(fēng)險也不容小覷。我們已在其中構(gòu)建了大量的安全措施與預(yù)警機制,還采取了比以往更為廣泛的緩解策略,從強大的訓(xùn)練體系到系統(tǒng)安全保障,再到用戶自主控制等方面都有涉及,但我們無法預(yù)知所有可能發(fā)生的情況。秉持迭代部署的理念,我們會向用戶發(fā)出諸多警告,并給予用戶自主決定是否謹慎采取行動的自由。

我會向家人解釋,這是處于前沿且具有實驗性質(zhì)的技術(shù)。這是一個嘗試未來的契機,但在我們有機會在現(xiàn)實世界中對它進行研究并加以改進之前,我不會將它用于高風(fēng)險場景,也不會利用它獲取大量個人信息。我們尚不清楚它具體會產(chǎn)生何種影響,但惡意行為者可能會試圖“誘騙”用戶的AI Agent,使其泄露本不該提供的隱私信息,并采取本不該采取的行動,而且這些行為的方式是我們難以預(yù)料的。

我們建議授予Agent完成任務(wù)所需的最低訪問權(quán)限,以此降低隱私和安全風(fēng)險。比如,我可以授權(quán)Agent訪問我的日歷,以便安排一個合適的聚餐時間。但如果我只是讓它幫我買衣服,就不需要賦予它任何訪問權(quán)限。像“查看我昨晚收到的電子郵件,并采取一切必要措施處理,不要問任何后續(xù)問題”這類任務(wù),風(fēng)險就比較大。這可能會導(dǎo)致惡意電子郵件中不可信的內(nèi)容誘騙模型泄露你的數(shù)據(jù)。

我們認為,重要的是從接觸現(xiàn)實開始學(xué)習(xí)。并且隨著我們更好地量化和降低潛在風(fēng)險,人們應(yīng)當(dāng)謹慎且緩慢地采用這些工具。和其他新的能力水平一樣,社會、技術(shù)和風(fēng)險緩解策略需要協(xié)同發(fā)展。

結(jié)語:

ChatGPT Agent的落地,無異于向生產(chǎn)力軟件市場投下了一顆“深水炸彈”。它不再滿足于充當(dāng)聊天機器人或?qū)懽髦?,而是野心勃勃地?gòu)建一個集信息處理、工具操作與決策支持于一體的在線服務(wù)平臺。

對于企業(yè)而言,這意味著基礎(chǔ)的數(shù)據(jù)整理、報告生成、競品分析等環(huán)節(jié)將迎來效率的指數(shù)級躍升,人力資源有望向更高價值的戰(zhàn)略與創(chuàng)意領(lǐng)域傾斜。然而,隨之而來的挑戰(zhàn)同樣嚴峻:工作流程的重構(gòu)、員工技能的再培訓(xùn)、以及AI執(zhí)行結(jié)果的責(zé)任歸屬。OpenAI在安全機制上的謹慎設(shè)計(如操作接管、敏感攔截)是必要的起點,但企業(yè)和監(jiān)管機構(gòu)需共同構(gòu)建更完善的治理框架??梢灶A(yù)見,Agent技術(shù)將率先在敢于擁抱變革的組織中扎根,并逐步重塑全球商業(yè)運作的效率基準與成本結(jié)構(gòu)。

分享到

lixiangjing

算力豹主編

相關(guān)推薦