今年7月,達摩院發(fā)布新一代語音合成技術KAN-TTS,首次將該數(shù)字提高到97%以上。這被認為是入選MIT Technology Review 2019年”全球十大突破性技術”后,阿里巴巴語音技術實力的又一次跨越式提升。

基于遷移學習以及多種新型算法模型,KAN-TTS可根據(jù)特定發(fā)音人的風格快速生成高度相似的語音,并且大幅降低語音合成的門檻,手機錄音十分鐘,機器即可通過算法完成聲音的模仿。

過去數(shù)月,KAN-TTS技術已實現(xiàn)了主流場景風格聲音的全覆蓋,可針對通用場景、客服場景、童聲場景、英文場景和方言場景,提供 41種高品質的聲音,例如溫柔、甜蜜、嚴厲等風格。據(jù)達摩院專家透露,團隊還計劃用該技術來幫助視障和語言障礙人士實現(xiàn)無障礙溝通。

達摩院成立兩年以來,阿里巴巴在視覺、語音以及自然語言處理等領域已創(chuàng)下了多項世界紀錄,并且躍升為中國最大的人工智能公司。今年的杭州云棲大會上,阿里巴巴表示,阿里AI每天調用超1萬億次,服務全球10億人,日處理圖像10億張、視頻120萬小時、語音55萬小時及自然語言5千億句。

分享到

xiesc

相關推薦