從文本合成為人工語音,通常稱為“文語轉(zhuǎn)換”(簡稱TTS),這是許多應(yīng)用程序中的必要組件,例如在具有語音功能的設(shè)備、導(dǎo)航系統(tǒng)和視覺障礙者的可訪問性上?;旧希恼Z轉(zhuǎn)換允許人工技術(shù)交互,而不需要可視化界面。
現(xiàn)代TTS系統(tǒng)以復(fù)雜的多階段處理途徑為基礎(chǔ),其中每一個(gè)環(huán)節(jié)都可以依賴于手工工程的特點(diǎn)和啟發(fā)法。由于過程復(fù)雜,開發(fā)新TTS系統(tǒng)的工作可能是勞動(dòng)密集型的,也是困難的。
Deep Voice的靈感來自于傳統(tǒng)的文語轉(zhuǎn)換途徑,采用相同的結(jié)構(gòu),基于神經(jīng)網(wǎng)絡(luò)并根據(jù)更為簡單的特征來替換所有組件。這使我們的系統(tǒng)更容易適用于新的數(shù)據(jù)集、語音和區(qū)域,而無需任何手動(dòng)數(shù)據(jù)注釋或附加功能工程。
Deep Voice為真正的端到端語音合成奠定了基礎(chǔ),沒有復(fù)雜的處理流程,也不依賴于手工設(shè)計(jì)的輸入或預(yù)訓(xùn)練功能。
當(dāng)前的處理途徑還不是端到端的,包括音素模型和音頻合成組件之內(nèi)。機(jī)器語音合成源于處理途徑的結(jié)構(gòu)和音素模型,語音合成組件單獨(dú)生成為更加自然的剪輯。其聲音樣本聽起來非常接近原始語音,表明語音合成組件可以非常有效地再現(xiàn)人類的聲音。
當(dāng)今,深度學(xué)習(xí)改變了諸多領(lǐng)域的發(fā)展,如計(jì)算機(jī)視覺技術(shù)和語音識(shí)別,而文語轉(zhuǎn)換當(dāng)前正處于一個(gè)類似的轉(zhuǎn)折點(diǎn)。