同時(shí),騰訊混元團(tuán)隊(duì)透露,即將發(fā)布原生多模態(tài)圖像生成模型。

混元圖像2.1在2.0架構(gòu)的基礎(chǔ)上全面升級(jí),更加注重生成效果與性能之間的平衡。新版本不僅支持中英文的原生輸入,還能夠?qū)崿F(xiàn)中英文文本與復(fù)雜語義的高質(zhì)量生成。同時(shí),在生成圖片的整體美學(xué)表現(xiàn)和適用場(chǎng)景的多樣性方面,都有了顯著提升。

這意味著,設(shè)計(jì)師、插畫師等視覺創(chuàng)作者能夠更加高效、便捷地將自己的創(chuàng)意轉(zhuǎn)化為畫面。無論是生成高保真的創(chuàng)意插畫,還是制作包含中英文宣傳語的海報(bào)和包裝設(shè)計(jì),亦或是復(fù)雜的四格漫畫與連環(huán)畫,混元圖像2.1都能為創(chuàng)作者提供快速、高質(zhì)量的支持。

混元圖像2.1是一款全面開源的基座模型,不僅具備業(yè)界領(lǐng)先的生成效果,還能夠靈活適配社區(qū)多樣化的衍生需求。目前,混元圖像2.1的模型權(quán)重和代碼已在Hugging Face、GitHub等開源社區(qū)正式發(fā)布,個(gè)人和企業(yè)開發(fā)者均可基于這一基礎(chǔ)模型開展研究,或開發(fā)各類衍生模型與插件。

得益于更大規(guī)模的圖文對(duì)齊數(shù)據(jù)集,混元圖像2.1在復(fù)雜語義理解和跨領(lǐng)域泛化能力上有了顯著提升。它支持最長(zhǎng)達(dá)1000個(gè)tokens的提示詞,可精準(zhǔn)生成場(chǎng)景細(xì)節(jié)、人物表情和動(dòng)作,實(shí)現(xiàn)多物體的分別描述與控制。此外,混元圖像2.1還能夠?qū)D像中的文字進(jìn)行精細(xì)控制,使文字信息與畫面自然融合。

(混元圖像2.1亮點(diǎn)1:模型對(duì)復(fù)雜語義理解能力強(qiáng),支持多主體分別描述與精確生成。)

(混元圖像2.1亮點(diǎn)2:對(duì)圖像中的文字和場(chǎng)景細(xì)節(jié)的把控更為穩(wěn)定。)

(混元圖像2.1亮點(diǎn)3:支持風(fēng)格豐富,如真人、漫畫與搪膠手辦等,并具備較高美感。)

騰訊混元圖像模型2.1處于開源模型中的SOTA水平。

從 SSAE(Structured Semantic Alignment Evaluation) 的評(píng)估結(jié)果上看,騰訊混元圖像模型2.1在語義對(duì)齊上目前達(dá)到了開源模型上最優(yōu)的效果,并且非常接近閉源商業(yè)模型 (GPT-Image) 的效果。

同時(shí),GSB(Good Same Bad) 評(píng)測(cè)結(jié)果表明,HunyuanImage 2.1的圖像生成質(zhì)量與閉源商業(yè)模型Seedream3.0相當(dāng),同時(shí)相較于同類開源模型Qwen-Image略優(yōu)。

混元圖像2.1模型不僅采用了海量訓(xùn)練數(shù)據(jù),還利用結(jié)構(gòu)化、不同長(zhǎng)度、內(nèi)容多樣的caption,極大提升了對(duì)文本描述的理解能力。在caption模型中,引入了OCR和IP RAG專家模型,有效增強(qiáng)了對(duì)復(fù)雜文字識(shí)別和世界知識(shí)的響應(yīng)能力。

為大幅降低計(jì)算量、提升訓(xùn)練和推理效率,模型采用了32倍超高壓縮倍率的VAE, 并使用dinov2對(duì)齊和repa loss來降低訓(xùn)練難度。因此,模型能高效原生生成2K圖。

在文本編碼方面,混元圖像2.1配備了雙文本編碼器:一個(gè)MLLM模塊用于進(jìn)一步提升圖文對(duì)齊能力,另一個(gè)ByT5模型則增強(qiáng)了文字生成表現(xiàn)力。整體架構(gòu)為17B參數(shù)的單/雙流DiT模型。

此外,混元圖像2.1還在17B參數(shù)量級(jí)的模型上解決了平均流模型(meanflow)的訓(xùn)練穩(wěn)定性問題,將模型推理步數(shù)由100步蒸餾到8 步,顯著提升推理速度的同時(shí)保證了模型原有的效果。

同步開源的混元文本改寫模型(PromptEnhancer)是業(yè)內(nèi)首個(gè)系統(tǒng)化、工業(yè)級(jí)的中英文改寫模型,能夠?qū)τ脩舻奈谋局噶钸M(jìn)行結(jié)構(gòu)化優(yōu)化,豐富視覺表達(dá),使改寫后的文本生成圖像的語義表現(xiàn)得到大幅提升。

騰訊混元在圖像生成領(lǐng)域持續(xù)深耕,曾發(fā)布首個(gè)開源的中文原生DiT架構(gòu)圖像大模型——混元DiT,以及業(yè)界首個(gè)商用級(jí)實(shí)時(shí)生圖模型——混元圖像2.0。此次推出的原生2K模型混元圖像2.1則在效果與性能之間實(shí)現(xiàn)了更好的平衡,能夠滿足用戶和企業(yè)在多樣化視覺場(chǎng)景下的多種需求。

同時(shí),騰訊混元堅(jiān)定擁抱開源,陸續(xù)開放了多種尺寸語言模型,圖像、視頻、3D等完整多模態(tài)生成能力和工具集插件,提供接近商業(yè)模型性能的開源基座。圖像、視頻衍生模型數(shù)量總數(shù)達(dá)到3000個(gè),混元3D系列模型社區(qū)下載量超過230萬,已成為全球最受歡迎的3D開源模型。

附項(xiàng)目相關(guān)鏈接:

騰訊混元官網(wǎng)

https://hunyuan.tencent.com/image

Github

https://github.com/Tencent-Hunyuan/HunyuanImage-2.1

Hugging Face

https://huggingface.co/tencent/HunyuanImage-2.1

分享到

nina

相關(guān)推薦