同時,火山引擎還推出了扣子核心能力的開源計劃,以及企業(yè)自有模型托管方案等一系列工具,旨在為企業(yè)和開發(fā)者打造Agent、推動AI應用落地提供全方位、全棧式的支持。
文字編輯|宋雨涵
1
雙模型突破
SeedEdit 3.0重構圖像編輯邏輯
還記得那些年我們?yōu)榱薖一張圖而苦苦學習Photoshop的日子嗎?或者為了一個簡單的圖片修改需求,不得不求助于專業(yè)設計師的尷尬?豆包最新圖像編輯模型的發(fā)布,正在悄然改變這一切。
該模型通過三重能力升級,徹底改變人機協(xié)作的修圖模式:
更強指令遵循能力:精準解析自然語言指令,理解如“將西裝材質換成燈芯絨并保持褶皺自然”的復雜要求
更強圖像保持能力:確保修改僅針對目標區(qū)域,避免誤改
更強圖像生成質量:輸出效果自然無AI痕跡,達到商業(yè)級視覺標準
“用戶只需通過自然語言指令,就能完成消除多余內容、改變光影效果、替換文字等操作,甚至實現(xiàn)圖像風格轉換、變換材質、變化人物姿勢等創(chuàng)意場景?!被鹕揭婕夹g負責人在演示中介紹。
在實際應用層面,這款模型已經(jīng)引起了多個行業(yè)的關注。電商行業(yè)可以用它快速生成產(chǎn)品展示圖;媒體行業(yè)可以用它進行新聞圖片的即時編輯;教育行業(yè)可以用它制作生動的教學素材。更重要的是,它大大降低了創(chuàng)意表達的門檻,讓更多人能夠將自己的想象力轉化為視覺作品。
語言無界,
豆包同傳模型打破溝通壁壘
在國際溝通領域,傳統(tǒng)同傳系統(tǒng)依賴“級聯(lián)模型”架構——語音識別、機器翻譯、語音合成等多個模塊串聯(lián)工作,導致翻譯延遲高達8-10秒。當聽眾聽到翻譯時,演講者可能已進入下一個話題。
豆包·同聲傳譯模型2.0采用全雙工框架,實現(xiàn)邊聽邊說。將語音延遲從8-10秒降低到2-3秒,接近人類同傳譯員水平。
更突破性的是其0樣本聲音復刻功能:無需提前錄制,系統(tǒng)在翻譯過程中實時捕捉說話者音色特征,讓同一個人以相同音色說外語,甚至匹配方言口音。
2
豆包大模型升級
速度與成本的極致平衡
作為AI應用的基礎設施,大模型性能直接影響企業(yè)智能化轉型成效?;鹕揭娲舜稳嫔壎拱竽P?.6系列,在速度、成本和多模態(tài)能力上實現(xiàn)突破。
Doubao-Seed-1.6-flash極速版成為最大亮點。該模型專為大規(guī)模商業(yè)化場景設計,在保持強大視覺理解能力的同時,強化代碼、推理、數(shù)學等核心能力。
其性能參數(shù)令人印象深刻:TPOT(首Token輸出時間)低至10ms,為業(yè)界領先水平。在0-32k輸入文本長度區(qū)間(企業(yè)最常用場景),成本降至每百萬tokens輸入0.15元、輸出1.5元。
在實際客戶案例中,該模型幫助企業(yè)延遲下降60%,成本降低70%。對部署數(shù)萬終端的大型企業(yè),這意味著每年節(jié)省數(shù)千萬元計算成本。
同時亮相的全模態(tài)向量化模型Seed1.6-Embedding首次實現(xiàn)“文本+圖像+視頻”混合模態(tài)融合檢索。在權威測評中,該模型包攬多模態(tài)全面任務及中文文本的最優(yōu)成績,為企業(yè)構建新一代多模態(tài)知識庫提供核心引擎。
三、加速Agent開發(fā)開源生態(tài)與效率革命
模型能力的釋放依賴開發(fā)工具和基礎設施?;鹕揭娲舜卧贏I云原生服務端發(fā)力,構建了從開發(fā)到部署的全棧解決方案。
7月26日,AI Agent開發(fā)平臺扣子核心能力正式開源,成為開發(fā)者社區(qū)熱議焦點。開源項目包括:
采用Apache 2.0許可證開源僅三天,Coze Studio在GitHub星標數(shù)破萬,Coze Loop超3000星標。開發(fā)者可在火山引擎云基礎產(chǎn)品上一鍵拉起資源完成部署,大幅降低Agent開發(fā)門檻。
對于有模型定制需求的企業(yè),火山引擎推出企業(yè)自有模型托管方案。企業(yè)無需運維底層GPU資源及復雜配置,實現(xiàn)自研模型全托管,享受彈性算力,精準控制時延,且無需為業(yè)務低谷期付費。
“傳統(tǒng)Agent開發(fā)需要460行代碼,耗時1-2天,現(xiàn)在縮減至60行代碼,1小時內完成?!逼錁O大的提升了開發(fā)效率。
另外火山引擎也為Coze開源版提供了全面支持。企業(yè)AI平臺產(chǎn)品HiAgent,可調用Coze開源版提供的智能體搭建和運維能力,并通過共享Agent標準,支持扣子開源版智能體的納管。
火山引擎的云基礎產(chǎn)品,也將為扣子開源版提供高效、穩(wěn)定、可靠的基礎設施支持,開發(fā)者可以一鍵拉起資源,完成部署。
結語:
火山引擎此次以模型能力突破、開發(fā)效率革命、開源生態(tài)共建三位一體的戰(zhàn)略級發(fā)布,標志著AI技術落地進入全新階段。圖像編輯與同傳模型的進化不僅解決了垂直場景的核心痛點,更通過Responses API實現(xiàn)7倍開發(fā)效率躍升,配合扣子平臺開源及企業(yè)模型托管方案,構建了覆蓋“模型-工具-部署”的完整產(chǎn)業(yè)閉環(huán)。