隨著模型的發(fā)布,業(yè)內(nèi)圍繞技術(shù)的猜想隨即展開(kāi)。有人認(rèn)為Sora創(chuàng)新的模型架構(gòu)為大模型的發(fā)展開(kāi)辟了新道路,也有人認(rèn)為Sora的推出讓通用人工智能到來(lái)的日期大大提前,還有市場(chǎng)人士表示Sora的爆紅與OpenAI高超的營(yíng)銷密不可分??梢灶A(yù)見(jiàn)的是,Sora的橫空出世,無(wú)疑將促使人工智能引領(lǐng)新一輪行業(yè)變革。
還有業(yè)內(nèi)人士指出,AI視頻生成的難點(diǎn)在于,一方面視頻是連續(xù)的多幀圖像,并且要有邏輯性,并非簡(jiǎn)單的圖片組合;另一方面是帶來(lái)模型復(fù)雜度提升、計(jì)算難度和成本的提升。此外,文生視頻需要大量的“文本-視頻”配對(duì)數(shù)據(jù),而目前缺乏多樣化的數(shù)據(jù)集,且數(shù)據(jù)標(biāo)注的工作量較大。因而此前視頻大多為5-15秒,而Sora將視頻時(shí)長(zhǎng)提升至1分鐘,支持生成多個(gè)鏡頭,同時(shí)基本維持了角色和視覺(jué)風(fēng)格的一致性,并能在一定程度上“理解”現(xiàn)實(shí)世界。
在Sora的技術(shù)報(bào)告中,完全沒(méi)有討論訓(xùn)練來(lái)源和構(gòu)建,這可能意味著數(shù)據(jù)很可能是Sora成功的最關(guān)鍵因素。很多人好奇Sora的數(shù)據(jù)來(lái)自哪里,當(dāng)前的猜測(cè)有:游戲引擎、電影、紀(jì)錄片、電影長(zhǎng)鏡頭等。例如,PyTorch創(chuàng)始人Soumith Chintala從視頻推測(cè)Sora是由游戲引擎驅(qū)動(dòng)的,并為游戲引擎生成組件和參數(shù)。紐約大學(xué)助理教授謝賽寧推測(cè),整個(gè)Sora模型可能有30億個(gè)參數(shù)。
文生視頻模型需要大量的視頻數(shù)據(jù)進(jìn)行訓(xùn)練,包含各種場(chǎng)景、人物、動(dòng)作、物品等,以幫助模型學(xué)習(xí)視頻的生成規(guī)律和運(yùn)動(dòng)軌跡等重要元素。在訓(xùn)練數(shù)據(jù)層面,云測(cè)數(shù)據(jù)認(rèn)為數(shù)據(jù)標(biāo)注的質(zhì)量與效率、行業(yè)知識(shí)經(jīng)驗(yàn)豐富程度和數(shù)據(jù)的隱私安全,是發(fā)揮著訓(xùn)練數(shù)據(jù)價(jià)值的重要維度,影響著模型的效果。
有科技大咖指出,Sora可能使用了虛幻引擎5合成的游戲視頻訓(xùn)練數(shù)據(jù),從視頻的色彩、細(xì)節(jié)來(lái)看這個(gè)判斷有一定的可信度。這樣看來(lái)OpenAI手里已經(jīng)掌握了一批高質(zhì)量視頻訓(xùn)練數(shù)據(jù),同時(shí)找到了新的高效數(shù)據(jù)合成方法。此外,在訓(xùn)練方法、模型架構(gòu)、算力需求等方面,Sora也進(jìn)行了創(chuàng)新,將ChatGPT、DALL·E 3等模型融合在一起。
目前Sora的訓(xùn)練數(shù)據(jù)源是業(yè)界普遍的關(guān)注重點(diǎn),但OpenAI一如既往遵循“ClosedAI”原則,并沒(méi)有透露相關(guān)信息。