2

技術(shù)指標(biāo)全面領(lǐng)先

一致性的圖像編輯能力

除了在文本處理方面的優(yōu)勢(shì),Qwen-Image在通用圖像生成和圖像編輯領(lǐng)域也具備廣泛的應(yīng)用能力:

多風(fēng)格圖像生成:支持從照片級(jí)寫(xiě)實(shí)場(chǎng)景到印象派繪畫(huà),從動(dòng)漫風(fēng)格到極簡(jiǎn)設(shè)計(jì)等多種藝術(shù)風(fēng)格,能夠靈活響應(yīng)各類(lèi)創(chuàng)意提示,滿(mǎn)足不同的創(chuàng)作需求。

最近爆火的吉卜力風(fēng)格簡(jiǎn)直是不在話(huà)下,除此之外官方還曬出了不同風(fēng)格的生成圖像如下:

此外在圖像編輯方面:提供風(fēng)格遷移、增刪改、細(xì)節(jié)增強(qiáng)、文字編輯、人物姿態(tài)調(diào)整等多種編輯操作,讓普通用戶(hù)無(wú)需專(zhuān)業(yè)技能,也能實(shí)現(xiàn)專(zhuān)業(yè)級(jí)的圖像編輯效果。

目前,Qwen-Image已在魔搭社區(qū)、Hugging Face和GitHub等平臺(tái)全面開(kāi)源,并提供了詳細(xì)的技術(shù)報(bào)告和演示示例。

普通用戶(hù)可通過(guò)訪問(wèn)QwenChat選擇“圖像生成”功能,親身體驗(yàn)這款強(qiáng)大模型。

免費(fèi)在線(xiàn)體驗(yàn)地址:https://chat.qwen.ai/c/guest

開(kāi)源策略的實(shí)施將顯著降低視覺(jué)內(nèi)容創(chuàng)作的技術(shù)門(mén)檻。對(duì)于缺乏大規(guī)模研發(fā)資源的中小企業(yè)和個(gè)人開(kāi)發(fā)者而言,這是一個(gè)重要的技術(shù)賦能機(jī)會(huì)。

通過(guò)開(kāi)源模型的二次開(kāi)發(fā)和定制化改進(jìn),更多創(chuàng)新應(yīng)用有望在此基礎(chǔ)上涌現(xiàn)。

隨著文本渲染問(wèn)題的解決,AIGC正從藝術(shù)創(chuàng)作邁向標(biāo)準(zhǔn)化生產(chǎn)。當(dāng)文本渲染不再成為障礙,AI圖像生成將更廣泛地應(yīng)用于商業(yè)場(chǎng)景。

三、文生圖領(lǐng)域市場(chǎng)格局

Qwen-Image的開(kāi)源策略已在開(kāi)發(fā)者社區(qū)引發(fā)熱潮。模型在GitHub發(fā)布僅數(shù)小時(shí)即收獲上千星標(biāo),Hugging Face平臺(tái)上的體驗(yàn)請(qǐng)求激增。

騰訊同日公開(kāi)MixGRPO圖像生成框架,訓(xùn)練時(shí)間縮短近50%。全球科技巨頭圍繞生成式AI的競(jìng)賽已進(jìn)入技術(shù)深水區(qū)。

現(xiàn)在市場(chǎng)上主流的文生圖大模型分為兩大陣營(yíng):

以Stable Diffusion 3.5和Qwen – Image為代表的開(kāi)源模型,注重技術(shù)創(chuàng)新和開(kāi)放共享。Stable Diffusion 3.5的MMDiT混合架構(gòu)和ControlNet精準(zhǔn)控制技術(shù),為圖像生成提供了豐富的控制手段;Qwen – Image的多模態(tài)擴(kuò)散變換器(MMDiT)和中文渲染SOTA技術(shù),則在中文場(chǎng)景的應(yīng)用中表現(xiàn)出色。開(kāi)源模式使得廣大開(kāi)發(fā)者和研究者能夠參與其中,共同推動(dòng)技術(shù)的進(jìn)步。

閉源模型則憑借其獨(dú)特的技術(shù)優(yōu)勢(shì)和商業(yè)策略,在市場(chǎng)中占據(jù)特定份額。Midjourney V7的Omni Reference多圖融合技術(shù),使其在藝術(shù)創(chuàng)作中能夠生成極具創(chuàng)意的作品;Flux系列的超高分辨率輸出和流匹配訓(xùn)練技術(shù),滿(mǎn)足了影視級(jí)圖像生成的需求;Seedream 3.0的分辨率自適應(yīng)采樣和快速生成能力,在廣告設(shè)計(jì)和社交媒體素材生成方面表現(xiàn)出色;Grok Imagine的“Spicy Mode”支持NSFW內(nèi)容,吸引了小眾用戶(hù)群體。閉源模型往往由企業(yè)獨(dú)立研發(fā)和維護(hù),通過(guò)技術(shù)壁壘來(lái)保持競(jìng)爭(zhēng)優(yōu)勢(shì)。

可以看出文生圖模型已形成 “開(kāi)源控細(xì)節(jié),閉源追效率”的雙軌格局。Qwen-Image以中文場(chǎng)景破局,Seedream以速度革新,F(xiàn)lux憑品質(zhì)占市場(chǎng),而Midjourney持續(xù)定義AI藝術(shù)上限。未來(lái)勝負(fù)手在于:能否平衡開(kāi)源生態(tài)、實(shí)時(shí)性、跨模態(tài)能力三大維度,同時(shí)降低算力民主化門(mén)檻。

結(jié)語(yǔ):

Qwen-Image的開(kāi)源,不僅豐富了通義千問(wèn)系列的模型生態(tài),也為開(kāi)發(fā)者和用戶(hù)在圖像生成與編輯領(lǐng)域提供了更強(qiáng)大的工具,有望推動(dòng)文生圖領(lǐng)域的一步發(fā)展與應(yīng)用落地。希望在不久的將來(lái)可以看到AI生圖可以?xún)?yōu)化到景深與擬人化層面。

分享到

lixiangjing

算力豹主編

相關(guān)推薦