9月28日,騰訊混元發(fā)布并開源原生多模態(tài)生圖模型“混元圖像3.0(HunyuanImage 3.0)”,參數(shù)規(guī)模高達(dá)80B。這是首個(gè)開源工業(yè)級(jí)原生多模態(tài)生圖模型,也是目前效果最好、參數(shù)量最大的開源生圖模型,效果對(duì)標(biāo)業(yè)界頭部閉源模型。

用戶訪問電腦端騰訊混元官網(wǎng)(https://hunyuan.tencent.com/image)即可體驗(yàn)混元圖像3.0,模型將逐步上線元寶;同時(shí)模型權(quán)重和加速版本已在Github、Hugging Face等開源社區(qū)發(fā)布,企業(yè)和個(gè)人開發(fā)者可直接下載并免費(fèi)使用。

混元圖像3.0具備常識(shí)并能夠利用知識(shí)進(jìn)行推理;同時(shí)語義理解準(zhǔn)確度高,并具備極致美學(xué)質(zhì)感,能生成真實(shí)的高質(zhì)感圖片;可以解析千字級(jí)別的復(fù)雜語義,生成長(zhǎng)文本文字,整體圖像生成效果業(yè)界領(lǐng)先。

原生多模態(tài)指在技術(shù)架構(gòu)上,通過一個(gè)模型完成文字、圖片、視頻與音頻等多個(gè)模態(tài)的輸入與輸出,而非通過多個(gè)模型的組合實(shí)現(xiàn)圖文理解、圖片生成等任務(wù)?;煸獔D像3.0是業(yè)界首個(gè)開源工業(yè)級(jí)原生多模態(tài)生圖模型。

這意味著,混元圖像3.0不僅擁有生圖模型的畫畫能力,還具備語言模型的思考能力和常識(shí)。它就像一個(gè)自帶“大腦”的畫家,可以利用智能去思考圖像的布局、構(gòu)圖、筆觸,利用世界知識(shí)去推理常識(shí)性的畫面。

比如,用戶只需要輸入提示詞:“生成一個(gè)月全食的四格科普漫畫”,模型就可以自主生成完整的月全食科普,無需用戶描述逐格內(nèi)容。

同時(shí),混元圖像3.0語義理解能力和美學(xué)質(zhì)感也得到了大幅提升,可以實(shí)現(xiàn)對(duì)用戶指令的精確生成,包括圖片中的文字生成,都能較好地實(shí)現(xiàn)。

比如輸入“你是一個(gè)小紅書穿搭博主,請(qǐng)根據(jù)模特穿搭生成一張封面圖片,要求: 1.畫面左側(cè)是模特的OOTD全身圖;2.右側(cè)是衣服的展示,分別是上衣深棕色夾克、下裝黑色百褶短裙、棕色靴子、黑色包包 風(fēng)格:實(shí)物攝影,要求真實(shí),有氛圍感,秋季美拉德色系穿搭”。在這個(gè)提示詞下,混元圖像3.0可以準(zhǔn)確地把左側(cè)博主的穿搭分解成右側(cè)單獨(dú)的衣物。

再如有復(fù)雜文字要求的海報(bào)類需求,混元圖像3.0也可以很好地生成。海報(bào)商品圖中,西紅柿水珠新鮮飽滿、紅潤(rùn)欲滴、質(zhì)感誘人,具備高品質(zhì)拍攝質(zhì)感,同時(shí)海報(bào)中頂部、底部、點(diǎn)綴等各處的文字都能順利呈現(xiàn),畫面層次清晰,整體配色與布局十分和諧,兼具美觀與實(shí)用價(jià)值。

這張?bào)w現(xiàn)有月亮、企鵝和月餅的中秋節(jié)創(chuàng)意海報(bào),混元3.0也能很好地完成。

可以看到,混元圖像3.0不僅能生成復(fù)雜文本、復(fù)雜漫畫、表情包,還能生成生動(dòng)有趣的科普插畫。這些能力能夠大幅提升插畫師、設(shè)計(jì)師等視覺創(chuàng)作者的效率,原來可能需要畫幾個(gè)小時(shí)的漫畫,現(xiàn)在可能只需要幾分鐘就能實(shí)現(xiàn);同時(shí),沒有美術(shù)功底和設(shè)計(jì)經(jīng)驗(yàn)的內(nèi)容創(chuàng)作者,也能創(chuàng)作出更豐富、生動(dòng)的視覺內(nèi)容。行業(yè)與學(xué)界研究者、企業(yè)與個(gè)人開發(fā)者,均可基于混元圖像3.0進(jìn)行應(yīng)用研發(fā)或二次開發(fā),制作相關(guān)衍生模型。

在文生圖領(lǐng)域,當(dāng)前學(xué)術(shù)界和業(yè)界正在從傳統(tǒng)DiT轉(zhuǎn)向原生多模態(tài)模型架構(gòu)。當(dāng)前業(yè)界已經(jīng)有一些開源的模型,但都是小模型,偏向于學(xué)術(shù)研究和實(shí)驗(yàn)階段,生圖效果也離工業(yè)界最優(yōu)效果有較大差距。

作為原生多模態(tài)開源模型,混元圖像3.0需要對(duì)模型整體架構(gòu)進(jìn)行重構(gòu),以支持多任務(wù)的訓(xùn)練,并實(shí)現(xiàn)多任務(wù)效果之間的相互促進(jìn)?;煸獔D像3.0以Hunyuan-A13B為基礎(chǔ),基于50億量級(jí)的圖文對(duì),視頻幀,圖文交織數(shù)據(jù)和6T的語料數(shù)據(jù)進(jìn)行了多模態(tài)生成、理解和LLM的混合訓(xùn)練,使得模型能夠充分融合多任務(wù)效果;實(shí)現(xiàn)超強(qiáng)的語義理解能力,能夠響應(yīng)復(fù)雜的長(zhǎng)文本,生成長(zhǎng)文本文字,同時(shí)具有LLM的世界知識(shí),能夠利用世界知識(shí)進(jìn)行推理。

騰訊混元團(tuán)隊(duì)透露,混元圖像3.0目前的版本僅開放了文生圖能力,圖生圖、圖像編輯、多輪交互等版本將于后續(xù)發(fā)布。

一直以來,騰訊混元在圖像生成領(lǐng)域持續(xù)深耕,曾發(fā)布首個(gè)開源中文原生DiT架構(gòu)圖像大模型“混元DiT”、開源原生2K模型“混元圖像2.1”,以及業(yè)界首個(gè)工業(yè)級(jí)實(shí)時(shí)生圖模型——混元圖像2.0。

同時(shí),騰訊混元堅(jiān)定擁抱開源,陸續(xù)開放了多種尺寸語言模型,圖像、視頻、3D等完整多模態(tài)生成能力和工具集插件,提供接近商業(yè)模型性能的開源基座。圖像、視頻衍生模型數(shù)量總數(shù)達(dá)到3000個(gè),混元3D系列模型社區(qū)下載量超過230萬,已成為全球最受歡迎的3D開源模型。

分享到

nina

相關(guān)推薦