欧美另类极品videosbesr,国产精品一区二区av交换,七七久久成人影院网站

從文本合成為人工語音，通常稱為“文語轉(zhuǎn)換”（簡稱TTS），這是許多應(yīng)用程序中的必要組件，例如在具有語音功能的設(shè)備、導(dǎo)航系統(tǒng)和視覺障礙者的可訪問性上。基本上，文語轉(zhuǎn)換允許人工技術(shù)交互，而不需要可視化界面。

現(xiàn)代TTS系統(tǒng)以復(fù)雜的多階段處理途徑為基礎(chǔ)，其中每一個環(huán)節(jié)都可以依賴于手工工程的特點和啟發(fā)法。由于過程復(fù)雜，開發(fā)新TTS系統(tǒng)的工作可能是勞動密集型的，也是困難的。

Deep Voice的靈感來自于傳統(tǒng)的文語轉(zhuǎn)換途徑，采用相同的結(jié)構(gòu)，基于神經(jīng)網(wǎng)絡(luò)并根據(jù)更為簡單的特征來替換所有組件。這使我們的系統(tǒng)更容易適用于新的數(shù)據(jù)集、語音和區(qū)域，而無需任何手動數(shù)據(jù)注釋或附加功能工程。

Deep Voice為真正的端到端語音合成奠定了基礎(chǔ)，沒有復(fù)雜的處理流程，也不依賴于手工設(shè)計的輸入或預(yù)訓(xùn)練功能。

當前的處理途徑還不是端到端的，包括音素模型和音頻合成組件之內(nèi)。機器語音合成源于處理途徑的結(jié)構(gòu)和音素模型，語音合成組件單獨生成為更加自然的剪輯。其聲音樣本聽起來非常接近原始語音，表明語音合成組件可以非常有效地再現(xiàn)人類的聲音。

當今，深度學習改變了諸多領(lǐng)域的發(fā)展，如計算機視覺技術(shù)和語音識別，而文語轉(zhuǎn)換當前正處于一個類似的轉(zhuǎn)折點。

分享到

Deep Voice 文語轉(zhuǎn)換百度神經(jīng)網(wǎng)絡(luò)

zhangnn

相關(guān)推薦

近期文章

熱門標簽