又色又爽又爽黄的视频免费,永久黄网站色视频免费无下载,硬汉视频在线观看免费完整版

致力文本口語(yǔ)化讓“擬真人表達(dá)”躍然紙上

文本作為語(yǔ)音合成技術(shù)的輸入，其風(fēng)格是否貼近真人的表達(dá)方式，是合成效果提升的第一步；但受限于根深蒂固的書寫用語(yǔ)習(xí)慣，大多數(shù)合成前的文本并不夠自然，或者需要投入大量精力不斷調(diào)整，費(fèi)時(shí)費(fèi)力。為了解決此類問(wèn)題，火山語(yǔ)音團(tuán)隊(duì)采用了兩階段方案并取得了不錯(cuò)的效果：

· 階段一：采用自監(jiān)督方法，使用偽數(shù)據(jù)對(duì)口語(yǔ)化模型進(jìn)行預(yù)訓(xùn)練，降低了數(shù)據(jù)量的需求；同時(shí)在模型中引入了指針網(wǎng)絡(luò)結(jié)構(gòu)，增強(qiáng)了文本可控性。

· 階段二：利用少量?jī)?yōu)質(zhì)的人工標(biāo)注數(shù)據(jù)，對(duì)預(yù)訓(xùn)練好的口語(yǔ)化模型進(jìn)行微調(diào)，最終實(shí)現(xiàn)可控的、自然的口語(yǔ)化文本效果。

為了更好地還原真人，區(qū)別于傳統(tǒng)的語(yǔ)音合成技術(shù)，火山語(yǔ)音在副語(yǔ)言建模和韻律多樣性上也分別進(jìn)行了深入研究。在副語(yǔ)言建模方面，團(tuán)隊(duì)推出的合成技術(shù)實(shí)現(xiàn)了聲學(xué)模型對(duì)自然表達(dá)中出現(xiàn)的吸氣、笑聲、猶豫、修正等多種副語(yǔ)言現(xiàn)象建模，并且結(jié)合文本的語(yǔ)義信息自動(dòng)插入副語(yǔ)言現(xiàn)象。在插入過(guò)程中同時(shí)考慮合理性與隨機(jī)性，表現(xiàn)更加自然真實(shí)。

副語(yǔ)言建模+韻律多樣性可圈可點(diǎn) 語(yǔ)音真實(shí)感全面升級(jí)

“在韻律多樣化的探究中，我們結(jié)合無(wú)監(jiān)督表征學(xué)習(xí)技術(shù)，自主研發(fā)了高表現(xiàn)力的聲學(xué)模型框架，通過(guò)發(fā)音、韻律、音色解耦等方式，不但降低了數(shù)據(jù)量的需求，實(shí)現(xiàn)對(duì)出現(xiàn)頻率極低發(fā)音現(xiàn)象的高效建模；同時(shí)使用無(wú)監(jiān)督表征特征并結(jié)合音素級(jí)別的基頻、能量信息等，實(shí)現(xiàn)了韻律的自然多變，促成高質(zhì)量對(duì)話語(yǔ)音生成?！被鹕秸Z(yǔ)音團(tuán)隊(duì)總結(jié)道。

火山語(yǔ)音，字節(jié)跳動(dòng)AI Lab Speech&Audio智能語(yǔ)音與音頻團(tuán)隊(duì)，長(zhǎng)期以來(lái)面向抖音、剪映、番茄小說(shuō)、飛書等業(yè)務(wù)提供領(lǐng)先的AI語(yǔ)音技術(shù)能力及全棧語(yǔ)音產(chǎn)品解決方案，并通過(guò)火山引擎向外部企業(yè)開放技術(shù)服務(wù)。

分享到

xiesc

相關(guān)推薦

近期文章

熱門標(biāo)簽