OPPO 產(chǎn)品總監(jiān) 那柏林

在語言大模型內存管理上,OPPO也通過功耗降低,保障用戶使用不卡頓。在模型響應速度上,OPPO則針對于不同場景基于并行譯碼技術提出了多種并行加速方案。而基于異構計算方案,大模型推理速度進一步提升,計算資源更節(jié)約。在大模型多適性上,OPPO則通過share方式,節(jié)省不必要的計算量和內容占用。

在視覺大模型層面,OPPO通過自定義算子可有效提升算子推理時間,達到出圖速度提升和計算功耗降低。在端側部署過程中,OPPO通過block quantization的方式讓量化的顆粒度更細,讓推理精度更靠近云端也更快,最大程度的保證效果且不失速度。而基于LoRA的使用和不同的組合,也能讓視覺大模型節(jié)省80%以上內存占用,擁有更快的反應速度,促使用戶使用體驗更迅捷。

會上,OPPO AI 基座模型負責人蘇鈿煌還詳細解讀了安第斯大模型Agent技術在planning、端云模型部署以及function call的能力。

2、安第斯大模型.jpg

OPPO AI 基座模型負責人 蘇鈿煌

具體而言,安第斯大模型Agent技術可通過規(guī)則路由+大小模型逐級處理,并且結合大模型的反思來修正小模型的不確定拆解;在端云協(xié)同上,該技術可通過端側1+N Lora的架構來支持簡單的任務拆解,而云端多種參數(shù)規(guī)模模型則用以支持復雜的任務編排;同時,該技術支持一方、三方應用,支持API等多種工具,通過多層級來拓展工具和 API 的層級關系,提升了模型對工具的理解,而基于手機系統(tǒng)上一方和三方的工具API完善多樣性后,也能提升工具的泛化性和模型對工具的理解力。基于安第斯大模型Agent技術,大語言模型可更高效理解用戶意圖,更快檢索并反饋用戶需求,在語義理解,上下文連貫,專業(yè)性回復上更具效率。

在OPPO手機上的AI應用中,視覺文字信息提取技術作為一項基礎能力被廣泛應用于手機相冊、小布識屏、小布掃一掃、自由翻譯、便簽等入口,賦能相關圖片轉文檔、拍照翻譯、圖片文字提取等業(yè)務場景。

為解決視覺文字提取數(shù)據(jù)標注成本高、領域模型多、鏈路復雜、推理時間長、易出現(xiàn)丟字、幻覺、Box定位差等問題,OPPO從算法鏈路層、模型優(yōu)化層、數(shù)據(jù)引擎層、文本RAG對應優(yōu)化和改進策略,為用戶帶來了識別精準、高效提取的視覺文字信息提取新體驗。OPPO AI 視覺模型優(yōu)化負責人馮天鵬在分享中表示“隨著VLM不斷演進,視覺文字信息提取技術后續(xù)可在高精度手寫體識別、手寫體公式提取、復雜圖表解析、以及圖文自動關聯(lián)等業(yè)務中發(fā)揮重要作用?!?/p>

3、文字提取技術.jpg

OPPO AI視覺模型優(yōu)化負責人  馮天鵬

回歸產(chǎn)品、回歸用戶,讓技術迭代有跡可循

豐富全面的技術終究要回到產(chǎn)品上,產(chǎn)品落地后是否能滿足用戶體驗提升是衡量技術是否成熟的關鍵標準。作為OPPO覆蓋手機、手表、平板等多種品類和系列設備的全局智能助理,小布助手在AI技術實踐層面取得亮眼成績——自2019年發(fā)布至今,小布助手已擁有3.5億用戶覆蓋,月活用戶達1.5億。

在大模型時代下,小布已憑借OPPO的技術支撐獲得了更強大的語言理解和圖像生成能力。這其中既包含了OPPO大語言模型的能力,也結合了OPPO視覺大模型的優(yōu)勢。

在系統(tǒng)操控層面,小布可對復雜Query理解,并完成高效指令生成和編排。在通用問答上,流暢上下文對話知識增強的大模型技術使流暢的上下文對話和知識問答效果得到大幅度提升。在相對封閉的品牌問答領域,小布依托大模型強大的理解和遵循能力,獲得了更專注的能力。同時,大模型序列生成天然擅長做內容創(chuàng)作,新小布也因此具備了文本、圖像等多模態(tài)的生成能力。為保障創(chuàng)作內容無害,OPPO也秉承對社會和用戶負責的態(tài)度,在內容安全方面做了大量對齊和過濾。

為進一步提升小布的服務能力,OPPO在規(guī)劃、工具、知識、記憶、多智能體交互基礎上,針對大量級API工具指令生產(chǎn)任務、實時性和時效性的幻覺問題、多模態(tài)下的復雜鏈路調優(yōu)三大挑戰(zhàn),搭建了最適應小布架構演進的對話系統(tǒng)架構。

在高效支持千級別API的接入層面,小布可依靠單指令、多指令、嵌套指令支持用戶的復雜說法。

在解決實時性和時效性的幻覺問題方面,小布采取高時效高精度的RAG和混合大模型調度的方式,分別對應垂域實現(xiàn)知識覆蓋和通用場景解決長尾事實性和時效性。依托小布在流量調度上的精細化控制,在解決問題的同時也能兼顧成本ROI。

近期,小布發(fā)布的多模態(tài)能力下,技術團隊采用多信源融合理解和決策,建立全面的感知表征信息,對多模態(tài)多信源做深度理解,并進行混合建模交叉驗證的規(guī)劃,最終優(yōu)化多模態(tài)能力響應速度更快。而通過理解和交互的并行化、圖像多級壓縮、多步指令緩存等手段,小布也實現(xiàn)了復雜鏈路全鏈路耗時優(yōu)化,為用戶帶來了更為順暢高效的交互體驗。

無論是詢問、執(zhí)行還是長尾溝通甚至是為用戶畫圖、修片,一系列高效、精準的服務和體驗,已讓小布真正成為了用戶身邊隨叫隨到的AI助手。OPPO小布助手服務平臺負責人莫驍分享到,“未來,基于記憶和個性化,復雜任務規(guī)劃,端云協(xié)同優(yōu)勢,小布也將錨定為用戶個人設備帶來更懂我、更智能、更快捷的體驗技術方向持續(xù)迭代。”

4、小布助手.jpg

OPPO 小布助手服務平臺負責人 莫驍

持續(xù)深挖AI價值,以智能體生態(tài)帶動行業(yè)繁榮

誠然,AI正在基于大模型等技術能力不斷更迭,但AI的價值并未被完全挖掘,同時更存在著數(shù)據(jù)偏差、幻覺、多模態(tài)的局限性等問題,也缺少使其高效運轉、高效交互、完成復雜任務的運行框架?;诖?OPPO提出了基于LLM,能夠自主感知環(huán)境、做出決策并執(zhí)行行動的系統(tǒng)智能體框架。

智能體將圍繞交互性、反應性、自主性、適應性,實現(xiàn)接收外界信息并給出及時合理的反應,且具備代理和有約束性的自主決策能力,可根據(jù)過程和結果不斷優(yōu)化策略提升效果的能力。手機,作為可承載各種物理感知能力和多模態(tài)能力并擁有一定算力的產(chǎn)品,也成為了智能體發(fā)展的沃土。

為推動智能體生態(tài)快速發(fā)展,OPPO在本次ODC上發(fā)布了OPPO智能體平臺,OPPO智能體平臺研發(fā)負責人張磊在分論壇上對該平臺做了詳細介紹。通過提供大模型應用開發(fā)能力以及豐富的工具庫、插件庫,為開發(fā)者適配多種業(yè)務場景,而可視化拖拽開發(fā),也降低了應用開發(fā)門檻,讓更多用戶和開發(fā)者都能參與到智能體匯聚眾智的過程中來。

5、智能體開發(fā).jpg

OPPO 智能體平臺研發(fā)負責人 張磊

針對智能體在手機上的分發(fā)能力,OPPO給出了應用場景的能力增強和問題解決方案,可在例如桌面、負一屏等OS系統(tǒng)級入口進行智能體推薦。通過小布亦可進行智能體專區(qū)、上下文精準推薦、啟動時推薦等高效分發(fā);在軟件商店、瀏覽器等互聯(lián)網(wǎng)全場景入口也能高效觸達用戶。最終實現(xiàn)優(yōu)質的智能體和有需求的用戶彼此發(fā)現(xiàn),讓服務和需求雙向對接。

目前,OPPO智能體平臺已完成整體建設,智能體已涵蓋生活、娛樂、醫(yī)療、健康以及生產(chǎn)制造多個領域,通過開放接口與各領域業(yè)務實現(xiàn)了深度融合。開發(fā)平臺基于OPPO云的彈性算力,實現(xiàn)了智能體模型開發(fā)調試、服務、數(shù)據(jù)的彈性支撐?;谫Y源層、開發(fā)層、應用層以及智能體運營層,平臺對開發(fā)者開放了簡潔的智能體全鏈路托管。通過對開發(fā)者提供創(chuàng)建智能體所需的快速構建、快速集成、插件工具和個性化定制能力,為開發(fā)者從開發(fā)到運營再到分發(fā)的全程護航。


【結語】

在圓桌論壇上,OPPO技術戰(zhàn)略規(guī)劃總監(jiān)陳曉春組織來自阿里云智能、百度、火山引擎以及網(wǎng)易有道的專家們,就AI手機發(fā)展以及智能體生態(tài)建設展開了積極討論。在深挖AI能力的過程中,無論是為用戶構建更合理、可信、可靠的服務,還是基于千行百業(yè)塑造更加專注的智能體生態(tài),其本身依舊是圍繞“人”的需求進行的。在以人為本的服務理念中,更懂用戶、更自然的交互,更順暢絲滑的體驗,是倒逼技術發(fā)展的剛需,而對于OPPO以及更多廠商而言,持續(xù)深挖AI能力,以AI為核心拓展更智能的生態(tài)體系,不僅是為AI與手機融合塑造了更具象化的目標,也是手機廠商依托自身用戶基數(shù)優(yōu)勢放大在AI時代長久競爭力的良策。

分享到

songjy

相關推薦