(百度地圖語音定制功能推出9句話錄制的“極速模式”)
2019年9月,百度地圖推出全球首個(gè)地圖語音定制產(chǎn)品,用戶需要錄制20句、每句15個(gè)字左右的文本,經(jīng)過15-20分鐘的AI訓(xùn)練,最終實(shí)現(xiàn)定制語音包的合成輸出。而如今,依托百度獨(dú)創(chuàng)的時(shí)長(zhǎng)可控端到端合成技術(shù),升級(jí)后的地圖語音定制功能對(duì)其中的Tacotron模型進(jìn)行了調(diào)整和優(yōu)化,特別是在Location Sensitive Attention的機(jī)制上,使得語音合成過程中時(shí)長(zhǎng)信息的獲取更加靈活、可控,極大提高了訓(xùn)練遷移的穩(wěn)定性,即便通過極少的語句也能進(jìn)行穩(wěn)定的合成,最終實(shí)現(xiàn)了從20句到9句的錄制縮減。
盡管錄制過程做了減法,但百度地圖依舊可以生成一如既往的高品質(zhì)語音合成效果,這背后依賴的,就是百度獨(dú)創(chuàng)的音色風(fēng)格細(xì)粒度編碼器?;贕lobal Style Tokens技術(shù),此次升級(jí)強(qiáng)化了分離音色風(fēng)格信息的能力,增強(qiáng)了音色風(fēng)格抽取的一致性,即便只有極少量的語句,也能夠完成穩(wěn)定的音色風(fēng)格控制和遷移。
目前,百度地圖智能語音助手用戶量超4億,個(gè)性化語音包每日播放次數(shù)超1億次。隨著百度地圖語音定制功能的再度升級(jí),相信會(huì)有越來越多用戶去嘗試錄制自己專屬的語音包,在導(dǎo)航、語音交互、智能旅游等眾多地圖場(chǎng)景中,體驗(yàn)個(gè)人專屬語音包的魅力。