亚洲丰满熟女一区二区哦,中国女人内射6xxxxx

9月28日，騰訊混元發(fā)布并開源原生多模態(tài)生圖模型“混元圖像3.0（HunyuanImage 3.0）”，參數(shù)規(guī)模高達(dá)80B。這是首個(gè)開源工業(yè)級(jí)原生多模態(tài)生圖模型，也是目前效果最好、參數(shù)量最大的開源生圖模型，效果對(duì)標(biāo)業(yè)界頭部閉源模型。

用戶訪問電腦端騰訊混元官網(wǎng)（https://hunyuan.tencent.com/image）即可體驗(yàn)混元圖像3.0，模型將逐步上線元寶；同時(shí)模型權(quán)重和加速版本已在Github、Hugging Face等開源社區(qū)發(fā)布，企業(yè)和個(gè)人開發(fā)者可直接下載并免費(fèi)使用。

混元圖像3.0具備常識(shí)并能夠利用知識(shí)進(jìn)行推理；同時(shí)語義理解準(zhǔn)確度高，并具備極致美學(xué)質(zhì)感，能生成真實(shí)的高質(zhì)感圖片；可以解析千字級(jí)別的復(fù)雜語義，生成長(zhǎng)文本文字，整體圖像生成效果業(yè)界領(lǐng)先。

原生多模態(tài)指在技術(shù)架構(gòu)上，通過一個(gè)模型完成文字、圖片、視頻與音頻等多個(gè)模態(tài)的輸入與輸出，而非通過多個(gè)模型的組合實(shí)現(xiàn)圖文理解、圖片生成等任務(wù)?；煸獔D像3.0是業(yè)界首個(gè)開源工業(yè)級(jí)原生多模態(tài)生圖模型。

這意味著，混元圖像3.0不僅擁有生圖模型的畫畫能力，還具備語言模型的思考能力和常識(shí)。它就像一個(gè)自帶“大腦”的畫家，可以利用智能去思考圖像的布局、構(gòu)圖、筆觸，利用世界知識(shí)去推理常識(shí)性的畫面。

比如，用戶只需要輸入提示詞：“生成一個(gè)月全食的四格科普漫畫”，模型就可以自主生成完整的月全食科普，無需用戶描述逐格內(nèi)容。

同時(shí)，混元圖像3.0語義理解能力和美學(xué)質(zhì)感也得到了大幅提升，可以實(shí)現(xiàn)對(duì)用戶指令的精確生成，包括圖片中的文字生成，都能較好地實(shí)現(xiàn)。

比如輸入“你是一個(gè)小紅書穿搭博主，請(qǐng)根據(jù)模特穿搭生成一張封面圖片，要求： 1.畫面左側(cè)是模特的OOTD全身圖；2.右側(cè)是衣服的展示，分別是上衣深棕色夾克、下裝黑色百褶短裙、棕色靴子、黑色包包風(fēng)格：實(shí)物攝影，要求真實(shí)，有氛圍感，秋季美拉德色系穿搭”。在這個(gè)提示詞下，混元圖像3.0可以準(zhǔn)確地把左側(cè)博主的穿搭分解成右側(cè)單獨(dú)的衣物。

再如有復(fù)雜文字要求的海報(bào)類需求，混元圖像3.0也可以很好地生成。海報(bào)商品圖中，西紅柿水珠新鮮飽滿、紅潤(rùn)欲滴、質(zhì)感誘人，具備高品質(zhì)拍攝質(zhì)感，同時(shí)海報(bào)中頂部、底部、點(diǎn)綴等各處的文字都能順利呈現(xiàn)，畫面層次清晰，整體配色與布局十分和諧，兼具美觀與實(shí)用價(jià)值。

這張?bào)w現(xiàn)有月亮、企鵝和月餅的中秋節(jié)創(chuàng)意海報(bào)，混元3.0也能很好地完成。

可以看到，混元圖像3.0不僅能生成復(fù)雜文本、復(fù)雜漫畫、表情包，還能生成生動(dòng)有趣的科普插畫。這些能力能夠大幅提升插畫師、設(shè)計(jì)師等視覺創(chuàng)作者的效率，原來可能需要畫幾個(gè)小時(shí)的漫畫，現(xiàn)在可能只需要幾分鐘就能實(shí)現(xiàn)；同時(shí)，沒有美術(shù)功底和設(shè)計(jì)經(jīng)驗(yàn)的內(nèi)容創(chuàng)作者，也能創(chuàng)作出更豐富、生動(dòng)的視覺內(nèi)容。行業(yè)與學(xué)界研究者、企業(yè)與個(gè)人開發(fā)者，均可基于混元圖像3.0進(jìn)行應(yīng)用研發(fā)或二次開發(fā)，制作相關(guān)衍生模型。

在文生圖領(lǐng)域，當(dāng)前學(xué)術(shù)界和業(yè)界正在從傳統(tǒng)DiT轉(zhuǎn)向原生多模態(tài)模型架構(gòu)。當(dāng)前業(yè)界已經(jīng)有一些開源的模型，但都是小模型，偏向于學(xué)術(shù)研究和實(shí)驗(yàn)階段，生圖效果也離工業(yè)界最優(yōu)效果有較大差距。

作為原生多模態(tài)開源模型，混元圖像3.0需要對(duì)模型整體架構(gòu)進(jìn)行重構(gòu)，以支持多任務(wù)的訓(xùn)練，并實(shí)現(xiàn)多任務(wù)效果之間的相互促進(jìn)?；煸獔D像3.0以Hunyuan-A13B為基礎(chǔ)，基于50億量級(jí)的圖文對(duì)，視頻幀，圖文交織數(shù)據(jù)和6T的語料數(shù)據(jù)進(jìn)行了多模態(tài)生成、理解和LLM的混合訓(xùn)練，使得模型能夠充分融合多任務(wù)效果；實(shí)現(xiàn)超強(qiáng)的語義理解能力，能夠響應(yīng)復(fù)雜的長(zhǎng)文本，生成長(zhǎng)文本文字，同時(shí)具有LLM的世界知識(shí)，能夠利用世界知識(shí)進(jìn)行推理。

騰訊混元團(tuán)隊(duì)透露，混元圖像3.0目前的版本僅開放了文生圖能力，圖生圖、圖像編輯、多輪交互等版本將于后續(xù)發(fā)布。

一直以來，騰訊混元在圖像生成領(lǐng)域持續(xù)深耕，曾發(fā)布首個(gè)開源中文原生DiT架構(gòu)圖像大模型“混元DiT”、開源原生2K模型“混元圖像2.1”，以及業(yè)界首個(gè)工業(yè)級(jí)實(shí)時(shí)生圖模型——混元圖像2.0。

同時(shí)，騰訊混元堅(jiān)定擁抱開源，陸續(xù)開放了多種尺寸語言模型，圖像、視頻、3D等完整多模態(tài)生成能力和工具集插件，提供接近商業(yè)模型性能的開源基座。圖像、視頻衍生模型數(shù)量總數(shù)達(dá)到3000個(gè)，混元3D系列模型社區(qū)下載量超過230萬，已成為全球最受歡迎的3D開源模型。

分享到

多模態(tài)騰訊混元

nina

相關(guān)推薦

近期文章

熱門標(biāo)簽