一致性模型思路,打破固有

核心原理

sCM的核心原理是基于一致性模型思路,通過(guò)直接將噪聲轉(zhuǎn)換為無(wú)噪聲樣本來(lái)生成數(shù)據(jù)。

在傳統(tǒng)擴(kuò)散模型中,數(shù)據(jù)生成過(guò)程被視作一條從噪聲到數(shù)據(jù)的漸進(jìn)路徑,每一步都通過(guò)去噪來(lái)逐漸恢復(fù)數(shù)據(jù)的清晰度。

一致性模型則恰恰相反,可找到一條更直接的路徑,在單步或少數(shù)幾步內(nèi)直接從噪聲狀態(tài)跳躍到數(shù)據(jù)狀態(tài)。

sCM采用了連續(xù)時(shí)間框架,使得模型在理論上可以在連續(xù)的時(shí)間軸上進(jìn)行操作,從而避免了離散時(shí)間模型中的離散化誤差。在連續(xù)時(shí)間于一致性模型中,模型的參數(shù)化、擴(kuò)散過(guò)程和訓(xùn)練目標(biāo)都被重新定義,以適應(yīng)連續(xù)時(shí)間的設(shè)置。

例如,模型的參數(shù)化不再依賴(lài)于離散的時(shí)間步,而是直接依賴(lài)于時(shí)間本身。這種連續(xù)時(shí)間的參數(shù)化方式使得模型能夠更精確地捕捉數(shù)據(jù)生成過(guò)程中的動(dòng)態(tài)變化。

網(wǎng)絡(luò)架構(gòu)方面

sCM引入了改進(jìn)的時(shí)間條件、自適應(yīng)組歸一化、新的激活函數(shù)和自適應(yīng)權(quán)重,以提高模型的訓(xùn)練穩(wěn)定性和生成質(zhì)量。改進(jìn)的時(shí)間條件使得模型能夠更準(zhǔn)確地感知時(shí)間t的變化,從而在生成過(guò)程中做出更合理的決策。

自適應(yīng)組歸一化則有助于模型在訓(xùn)練過(guò)程中保持內(nèi)部特征的穩(wěn)定性,減少訓(xùn)練過(guò)程中的噪聲干擾。新的激活函數(shù)被引入以增強(qiáng)模型的非線(xiàn)性表達(dá)能力,使得模型能夠更好地學(xué)習(xí)復(fù)雜的數(shù)據(jù)分布。

而自適應(yīng)權(quán)重的引入允許模型根據(jù)訓(xùn)練數(shù)據(jù)的分布動(dòng)態(tài)調(diào)整損失函數(shù)中的權(quán)重,從而減少了不同時(shí)間步長(zhǎng)之間的損失方差。

總結(jié)起來(lái)看sCM模型基于擴(kuò)散模型的不同在于:

sCM是基于擴(kuò)散模型的改進(jìn): sCM依賴(lài)于擴(kuò)散模型的PF-ODE來(lái)定義訓(xùn)練目標(biāo)和采樣路徑,它并不是一個(gè)完全獨(dú)立的模型。

sCM關(guān)注單步去噪: sCM的訓(xùn)練目標(biāo)是學(xué)習(xí)一個(gè)能夠在單個(gè)時(shí)間步內(nèi)進(jìn)行有效去噪的函數(shù),而不是像擴(kuò)散模型那樣進(jìn)行多步迭代去噪。

sCM采樣速度更快: 由于sCM只需要進(jìn)行少量采樣步驟(例如兩步),因此其采樣速度比擴(kuò)散模型快得多。

sCM并非一步到位:sCM的單步去噪并非一步到位地去除所有噪聲,而是沿著PF-ODE的軌跡向更清晰的方向移動(dòng)一步,多次迭代操作最終達(dá)到去噪效果。

sCM:兩步到位,速度起飛!

OpenAI基于之前的consistency models研究,并吸取了EDM和流匹配模型的優(yōu)點(diǎn),提出了TrigFlow,一個(gè)統(tǒng)一的框架。這個(gè)框架升級(jí)的地方在于,它簡(jiǎn)化了理論公式,讓訓(xùn)練過(guò)程更穩(wěn)定,還把擴(kuò)散過(guò)程、擴(kuò)散模型參數(shù)化、PF-ODE、擴(kuò)散訓(xùn)練目標(biāo)以及CM參數(shù)化都整合成更簡(jiǎn)單的表達(dá)式了!這為后續(xù)的理論分析和改進(jìn)奠定了堅(jiān)實(shí)的基礎(chǔ)。

基于TrigFlow,OpenAI開(kāi)發(fā)出了sCM模型,甚至可以在ImageNet 512×512分辨率上訓(xùn)練15億參數(shù)的模型,簡(jiǎn)直是史無(wú)前例!這是目前最大的連續(xù)時(shí)間一致性模型!

sCM 最厲害的地方在于,它只需兩步采樣,就能生成與擴(kuò)散模型質(zhì)量相當(dāng)?shù)膱D像,速度提升50倍!例如,最大的15億參數(shù)模型,在單個(gè)A100 GPU上生成一張圖片只需0.11秒,而且還沒(méi)做任何優(yōu)化!如果再進(jìn)行系統(tǒng)優(yōu)化,速度還能更快,簡(jiǎn)直是打開(kāi)了實(shí)時(shí)生成的大門(mén)!

性能評(píng)估與優(yōu)勢(shì)

1

高效的圖像生成

OpenAI用FID(Fréchet Inception Distance它是一種用于評(píng)估生成模型生成圖像質(zhì)量的指標(biāo))分?jǐn)?shù)(越低越好)和有效采樣計(jì)算量(生成每個(gè)樣本所需的總計(jì)算成本)來(lái)評(píng)估sCM的性能。

結(jié)果顯示,sCM兩步采樣的質(zhì)量與之前最好的方法相當(dāng),但計(jì)算量卻不到10%!在 ImageNet 512×512 上,sCM的FID分?jǐn)?shù)甚至比一些需要63步的擴(kuò)散模型還要好!

在CIFAR-10上達(dá)到了2.06的FID,ImageNet 64×64上達(dá)到了1.48,ImageNet 512×512上達(dá)到了1.88,與最好的擴(kuò)散模型的FID分?jǐn)?shù)差距在10%以?xún)?nèi)。

2

跨領(lǐng)域生成能力

sCM不僅能夠生成高質(zhì)量的圖像

sCM同樣具備生成三維模型的能力。這對(duì)于3D打印、虛擬現(xiàn)實(shí)等領(lǐng)域來(lái)說(shuō)具有重要意義,因?yàn)樗梢钥焖偕筛哔|(zhì)量的三維模型數(shù)據(jù)。

通過(guò)利用sCM的高效生成能力,可以加速三維模型的設(shè)計(jì)和制作過(guò)程,提高生產(chǎn)效率。

除了圖像和視頻生成外,sCM還能處理音頻內(nèi)容的生成。這擴(kuò)展了sCM的應(yīng)用范圍,使其能夠在音頻領(lǐng)域也發(fā)揮作用。

在音樂(lè)制作、音頻設(shè)計(jì)等領(lǐng)域,sCM可以用于生成或編輯音樂(lè)和聲音效果,為創(chuàng)作者提供更多的創(chuàng)作靈感和工具。

3

計(jì)算成本降低

與傳統(tǒng)擴(kuò)散模型相比,sCM在保證樣本質(zhì)量的前提下顯著降低了計(jì)算成本。這使得sCM在資源受限的環(huán)境中也能實(shí)現(xiàn)高效的生成任務(wù)。

未來(lái)展望與應(yīng)用

實(shí)時(shí)視頻生成:隨著sCM的推出,實(shí)時(shí)視頻生成將不再是夢(mèng)。sCM的高效采樣能力有望推動(dòng)視頻生成技術(shù)的進(jìn)一步發(fā)展,為媒體、娛樂(lè)等領(lǐng)域帶來(lái)更多創(chuàng)新應(yīng)用。

系統(tǒng)優(yōu)化與定制:OpenAI的研究暗示了進(jìn)一步系統(tǒng)優(yōu)化的潛力,可以根據(jù)各個(gè)行業(yè)的特定需求定制這些模型。這將使得sCM在不同領(lǐng)域中發(fā)揮更大的作用。

推動(dòng)AI技術(shù)發(fā)展:sCM的發(fā)布不僅提升了圖像生成的速度和質(zhì)量,也為AI技術(shù)的進(jìn)一步發(fā)展和應(yīng)用提供了新的思路和方法。它將推動(dòng)AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。

結(jié)語(yǔ)

OpenAI發(fā)布的sCM新型連續(xù)時(shí)間一致性模型在圖像生成速度上實(shí)現(xiàn)了50倍的提升,這一技術(shù)突破將為實(shí)時(shí)視頻生成等應(yīng)用帶來(lái)革命性的變化。同時(shí),sCM的跨領(lǐng)域生成能力和計(jì)算成本降低的優(yōu)勢(shì)也將推動(dòng)AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關(guān)推薦