「AI 文本理解」模型

更進(jìn)一步,火山語(yǔ)音團(tuán)隊(duì)在滿(mǎn)足發(fā)音清晰、韻律連貫、語(yǔ)調(diào)起伏的基礎(chǔ)上,自研半監(jiān)督學(xué)習(xí)的端到端風(fēng)格控制聲學(xué)模型,使聲音遵循普魯契克情感色輪(Plutchik’s Wheel of Emotions)的情感類(lèi)型,表現(xiàn)出開(kāi)心、悲傷、驚訝、恐懼等多種情感色彩,以情感遷移的方式,讓原本沒(méi)有情感的發(fā)音獲得多情感合成的效果。更好表達(dá)“以聲傳情”,將人類(lèi)語(yǔ)言中常會(huì)出現(xiàn)的「副語(yǔ)言」現(xiàn)象進(jìn)行了精細(xì)化的建模還原,實(shí)現(xiàn)了在有聲書(shū)中常見(jiàn)的重音停頓、疑問(wèn)反問(wèn)、笑聲哭腔、以及各類(lèi)嘆息、叫喊聲等,達(dá)成了文本內(nèi)容的精彩演繹。

“接近真人播講的效果,使最終的AI語(yǔ)音能夠體現(xiàn)出不同角色在不同上下文環(huán)境里的效果,是我們一直以來(lái)追求的目標(biāo)。未來(lái),我們更希望可以做到,通過(guò)文本-語(yǔ)音聯(lián)合訓(xùn)練大模型,對(duì)不同上下文環(huán)境的文本提取表征,提升角色判別成功率;憑借多話(huà)者語(yǔ)音合成大模型,對(duì)情感、風(fēng)格、音色和口音等屬性進(jìn)行解耦并能夠自由遷移;同時(shí)根據(jù)文本描述生成匹配的背景音來(lái)提升有聲書(shū)聆聽(tīng)時(shí)的代入感?!?/p>

提高內(nèi)容質(zhì)量和產(chǎn)生效率才是AIGC的核心價(jià)值

在更多實(shí)踐中我們發(fā)現(xiàn),除了文字和圖像,人們對(duì)語(yǔ)音交互的應(yīng)用范圍更廣,例如,人們?cè)诩抑薪?jīng)常通過(guò)語(yǔ)音交互發(fā)出指令控制各種電器;出行時(shí)通過(guò)車(chē)載語(yǔ)音助手完成導(dǎo)航、預(yù)定餐廳等事項(xiàng);以及在辦公場(chǎng)景中高頻率使用的會(huì)議助手等,都離不開(kāi)智能語(yǔ)音方案來(lái)提高內(nèi)容質(zhì)量和生產(chǎn)效率。

對(duì)此火山語(yǔ)音團(tuán)隊(duì)也隨之進(jìn)行了更多相關(guān)的創(chuàng)新性嘗試,例如在短視頻成為全民時(shí)尚的今天,面對(duì)ugc群體視頻創(chuàng)作的隨性記錄以及音頻質(zhì)量不可控等現(xiàn)實(shí)因素,通過(guò)火山語(yǔ)音智能字幕解決方案為視頻創(chuàng)作自動(dòng)添加字幕,不僅可以兼容識(shí)別中、英、粵等常用的語(yǔ)言和方言,還能對(duì)歌曲進(jìn)行識(shí)別。

對(duì)此火山語(yǔ)音音頻理解方向產(chǎn)品經(jīng)理W補(bǔ)充道:“視頻內(nèi)容生產(chǎn)中,傳統(tǒng)加字幕的方式需要?jiǎng)?chuàng)作者對(duì)視頻進(jìn)行數(shù)次聽(tīng)寫(xiě)并校對(duì),還需要根據(jù)起始時(shí)間逐幀對(duì)齊,經(jīng)常10分鐘的視頻需要幾小時(shí)的后期制作時(shí)間才能完成。此外字幕組還要精通多語(yǔ)言并熟悉字幕文件的制作,整體下來(lái)視頻制作成本很高,這對(duì)于當(dāng)今短視頻時(shí)代的個(gè)人創(chuàng)作者或是單純以記錄生活的用戶(hù)來(lái)說(shuō)早已高不可及。”

為了降低創(chuàng)作門(mén)檻,讓所有創(chuàng)作者都能輕松制作高質(zhì)量的視頻內(nèi)容,記錄美好生活,火山語(yǔ)音自研推出了智能字幕解決方案。不僅能夠高效識(shí)別方言與歌曲,還可以對(duì)語(yǔ)種混合以及說(shuō)話(huà)唱歌混合的場(chǎng)景有很好的識(shí)別效果;此外還可通過(guò)對(duì)用戶(hù)創(chuàng)作內(nèi)容的音頻特性以及領(lǐng)域分析,憑借算法優(yōu)化,大大提升語(yǔ)音識(shí)別對(duì)于噪聲場(chǎng)景、多人說(shuō)話(huà)等復(fù)雜場(chǎng)景的表現(xiàn)。尤其面對(duì)移動(dòng)端用戶(hù)針對(duì)功能響應(yīng)時(shí)間的較高要求,即希望字幕可以既快且準(zhǔn),對(duì)此火山語(yǔ)音做了大量的工程優(yōu)化和策略,1分鐘的視頻只需2-3秒即可完成。

智能字幕解決方案展示

眾所周知,面對(duì)相同的內(nèi)容,人類(lèi)對(duì)于音頻信息的獲取效率遠(yuǎn)低于文本信息的獲取效率,而將語(yǔ)音轉(zhuǎn)化成文本被記錄與使用的關(guān)鍵在于語(yǔ)音識(shí)別,例如火山語(yǔ)音推出的“千言轉(zhuǎn)文字,一字勝千言”的實(shí)時(shí)字幕解決方案就是通過(guò)“語(yǔ)音識(shí)別+語(yǔ)音翻譯”的AI鏈路,讓跨國(guó)家、跨語(yǔ)言交流變得更加流暢;通過(guò)自動(dòng)生成會(huì)議記錄與紀(jì)要,做到大大提升與會(huì)者的工作效率,大幅減少會(huì)后整理和會(huì)中記錄的工作量??梢灶A(yù)見(jiàn)伴隨科技的迅速發(fā)展,AI語(yǔ)音會(huì)為人機(jī)交互增加信息輸出的渠道,為信息獲取提升效率。

同樣面對(duì)AIGC帶來(lái)質(zhì)量以及效率的提升問(wèn)題,在火山語(yǔ)音語(yǔ)音交互產(chǎn)品經(jīng)理Y看來(lái),AIGC確實(shí)有望在智能語(yǔ)音交互的輔助場(chǎng)景中落地,可以實(shí)現(xiàn)包括會(huì)話(huà)摘要、話(huà)術(shù)推薦、情緒安撫、工單摘要等方向的客服功能,輔助解決方案來(lái)提高生產(chǎn)效率。舉個(gè)例子,在人機(jī)對(duì)話(huà)觸發(fā)轉(zhuǎn)人工時(shí),可自動(dòng)生成人機(jī)對(duì)話(huà)的對(duì)話(huà)摘要,輔助人工更快了解用戶(hù)訴求,避免出現(xiàn)突然冷場(chǎng)去翻查聊天記錄的情況;在與人對(duì)話(huà)過(guò)程中,通過(guò)對(duì)用戶(hù)話(huà)術(shù)的理解,運(yùn)用AIGC能力來(lái)生成答案供客服參考,提高了客服對(duì)話(huà)的效率。

“此外在異常情況處理方面也可發(fā)揮作用,比方說(shuō)用戶(hù)出現(xiàn)煩躁、憤怒等情緒時(shí),AICG或可自動(dòng)生成安撫話(huà)術(shù)供客服參考,提升服務(wù)滿(mǎn)意度等。未來(lái),伴隨多模態(tài)技術(shù)和AIGC技術(shù)的不斷成熟,或許通過(guò)虛擬數(shù)字人可取代部分人工,以人機(jī)共生的形態(tài)直接服務(wù)客戶(hù),更顯著降低人力成本,提升服務(wù)效率?!钡裁鞔_表示,如今的AIGC還無(wú)法做到真正獨(dú)立生產(chǎn)內(nèi)容,尚處于輔助人類(lèi)提升內(nèi)容生產(chǎn)效率的階段。

成本、版權(quán)、實(shí)用性仍是AIGC發(fā)展的瓶頸

不論是ChatGPT給出了驚人回答,還是番茄小說(shuō)中AI演繹出了感人聲音,就連馬斯克也驚嘆:我們離強(qiáng)大到危險(xiǎn)的人工智能不遠(yuǎn)了。這似乎預(yù)示著AIGC的時(shí)代即將來(lái)臨。

然而在AI算法一線(xiàn)工作多年的火山語(yǔ)音音頻合成算法研究員Stephen卻有著更為清醒的判斷,他指出:“AIGC背后的技術(shù),未來(lái)可能會(huì)進(jìn)行多模態(tài)融合,不僅僅是單一模態(tài)的生成式任務(wù),這就像人類(lèi)在創(chuàng)造內(nèi)容的過(guò)程中也不僅僅是根據(jù)單一形態(tài)的知識(shí)而構(gòu)思出新內(nèi)容。舉個(gè)例子,就像生成交互式數(shù)字人的任務(wù)中,目前主要是人臉、表情、姿態(tài)和動(dòng)作的單獨(dú)預(yù)測(cè),未來(lái)或?qū)⒂靡粋€(gè)生成式模型預(yù)測(cè)這些特征,提升各特征之間的協(xié)同效果,降低分別錄制帶來(lái)的工作量;此外也會(huì)根據(jù)多模態(tài)理解任務(wù)得到的表征,基于正在對(duì)話(huà)的用戶(hù)的表情、語(yǔ)氣和肢體動(dòng)作,在生成的形象和聲音上給予對(duì)應(yīng)的反饋?!?/p>

除了技術(shù)發(fā)展的預(yù)測(cè),不容忽視的一點(diǎn),目前AIGC在成本、版權(quán)和實(shí)用性上仍存在巨大挑戰(zhàn)。他認(rèn)為目前AIGC成本居高不下,很顯著的表現(xiàn)是高質(zhì)量文本、圖片和視頻生成技術(shù)等,都對(duì)應(yīng)著大量訓(xùn)練和推理階段硬件資源的消耗,這導(dǎo)致高校和研究機(jī)構(gòu)均很難參與其中,不利于行業(yè)發(fā)展的推動(dòng)。

“此外在版權(quán)保護(hù)上,目前生成的內(nèi)容有些可能會(huì)被用來(lái)進(jìn)行非法活動(dòng),因此在內(nèi)容中加入版權(quán)保護(hù),例如圖像和音頻水印變得越來(lái)越重要,但是在加入過(guò)程中,還得考慮不要因?yàn)榧羟?、混合等后處理方式?dǎo)致水印失效?!?/p>

過(guò)去的2022年,盡管在圖片和視頻生成方向的技術(shù)應(yīng)用效果顯著提升,但依然需要大量人工篩選后,內(nèi)容才能實(shí)際落地;而基于長(zhǎng)篇章文本生成上下文相關(guān)的漫畫(huà)和視頻,既要保證場(chǎng)景的連續(xù)性,又要能體現(xiàn)人物的變化,還有大量的技術(shù)難題需要解決,避免人工智能變成“人工智障”是個(gè)挑戰(zhàn),所以實(shí)用性還有更多的提升空間。

我們或許可以這樣認(rèn)為,AIGC作為一種新型的內(nèi)容生產(chǎn)方式,之所以受到關(guān)注,充分說(shuō)明了各行各業(yè)對(duì)于內(nèi)容的渴望,尤其是互聯(lián)網(wǎng)平臺(tái),如何高效理解、創(chuàng)作、互動(dòng)和分發(fā)內(nèi)容,確實(shí)給現(xiàn)今的AI 技術(shù)帶來(lái)了機(jī)遇和挑戰(zhàn)。

分享到

songjy

相關(guān)推薦