值得提及的是,在將該模型遷移到移動(dòng)端的過(guò)程中,面臨的重大問(wèn)題聚焦在嵌入式詞表表征矩陣過(guò)大。針對(duì)該問(wèn)題,火山語(yǔ)音團(tuán)隊(duì)依照重要性,對(duì)于高維度詞表進(jìn)行壓縮,有效縮減詞表尺寸至20倍以下,保證效果損失可控的同時(shí)使其能在低計(jì)算及存儲(chǔ)資源的移動(dòng)端設(shè)備上運(yùn)行。“針對(duì)云端發(fā)音轉(zhuǎn)寫模型在移動(dòng)端的壓縮比較受限,性能與模型尺寸高度相關(guān),火山語(yǔ)音重新設(shè)計(jì)了一款新的低資源轉(zhuǎn)寫模型,引入專家先驗(yàn)同時(shí)采用并行結(jié)構(gòu)設(shè)計(jì),最終可以在云端效果接近的同時(shí),模型尺寸縮減10倍以上,已應(yīng)用到離線TTS模型中?!毙揸豢偨Y(jié)道。

針對(duì)具體場(chǎng)景下的優(yōu)化提效,以語(yǔ)音識(shí)別為例。通常,語(yǔ)音識(shí)別的準(zhǔn)確率在部分理想場(chǎng)景中可以高達(dá)98%,但由于很多實(shí)際場(chǎng)景表現(xiàn)復(fù)雜,識(shí)別效果就會(huì)伴隨大幅降低,尤其在會(huì)議場(chǎng)景中,由于一些英文詞會(huì)被識(shí)別成發(fā)音相近的中文,從而導(dǎo)致準(zhǔn)確率大幅下降。火山語(yǔ)音語(yǔ)音識(shí)別方向算法研究員李志進(jìn)一步表示:“在具體場(chǎng)景中解決中英文混合識(shí)別問(wèn)題時(shí),其實(shí)盲目加大模型或者增加訓(xùn)練數(shù)據(jù)量并不能根本解決問(wèn)題,而是要貼合實(shí)際場(chǎng)景,針對(duì)性增加中英混合的數(shù)據(jù),并人工仿真出部分?jǐn)?shù)據(jù);另外在模型設(shè)計(jì)上也需要針對(duì)兩種語(yǔ)言混說(shuō)的情況,設(shè)計(jì)具備編碼開關(guān)能力的編碼器來(lái)提升模型建模能力,并保證當(dāng)只有中文的情況下還能保障效果不變才可以?!笨梢?,無(wú)論是數(shù)據(jù)還是模型的改良,都要基于場(chǎng)景來(lái)?yè)駜?yōu)路線才行。

02 降低AI成本:從算法到工程缺一不可,且須持之以恒

“降低AI成本是一個(gè)端到端長(zhǎng)鏈條的工作,整個(gè)過(guò)程中算法、工程以及相關(guān)的專業(yè)人員需要緊密配合才能將成本壓縮極致?!?這是火山語(yǔ)音工程團(tuán)隊(duì)研發(fā)工程師小L長(zhǎng)期經(jīng)驗(yàn)的總結(jié)。

具體來(lái)說(shuō),在整體鏈路中,數(shù)據(jù)成本降低的關(guān)鍵在于如何采用組合拳有效減少帶標(biāo)數(shù)據(jù)的生產(chǎn)成本。小L表示,目前看通過(guò)更好的模型結(jié)構(gòu)方案直接降低訓(xùn)練所需要的帶標(biāo)數(shù)據(jù)量,或者經(jīng)過(guò)大規(guī)模預(yù)訓(xùn)練模型附加少量數(shù)據(jù)微調(diào)等手段都是減少帶標(biāo)數(shù)據(jù)量的常見方案。此外還涉及到通過(guò)引入AI輔助、平臺(tái)化、自動(dòng)化等方式來(lái)提升單位人力標(biāo)注效率,例如通過(guò)音頻消重、裁剪靜音片段、加入輔助文本、平臺(tái)化自動(dòng)流轉(zhuǎn)任務(wù)、標(biāo)注和校驗(yàn)流程設(shè)計(jì)和自動(dòng)化等方式,也可以顯著提升標(biāo)注效率,降低單位標(biāo)注數(shù)據(jù)成本。

“在訓(xùn)練環(huán)節(jié),除了需要考慮生產(chǎn)模型本身花費(fèi)的計(jì)算資源外,實(shí)踐中還需考慮算法人員在得到這樣一個(gè)生產(chǎn)可用的模型,過(guò)程中所使用的計(jì)算資源開銷,因此如何提升算法人員訓(xùn)練出可上線模型的過(guò)程效率,并降低生產(chǎn)模型本身的計(jì)算成本,是這個(gè)過(guò)程中的關(guān)鍵問(wèn)題?!被鹕秸Z(yǔ)音工程團(tuán)隊(duì)研發(fā)工程師張工補(bǔ)充道。關(guān)于這個(gè)問(wèn)題的解決,火山語(yǔ)音工程團(tuán)隊(duì)提出可以使用容器化的方式來(lái)支持算法實(shí)驗(yàn),比方說(shuō)通過(guò)排隊(duì)等策略控制資源的總開銷;使用 AutoML 等手段加速模型結(jié)構(gòu)、參數(shù)搜索的過(guò)程;通過(guò)高性能 I/O、分布式通信優(yōu)化、計(jì)算通信并行、高性能算子等加速模型訓(xùn)練過(guò)程等;還可以通過(guò)平臺(tái)化方案,讓運(yùn)營(yíng)人員能夠直接調(diào)優(yōu)和訓(xùn)練模型,降低投入并節(jié)省人力成本。

談及重要的推理階段,小L表示,“由于AI服務(wù)屬于計(jì)算密集型,要把硬件資源利用到極致才是降低單位服務(wù)能力成本的重點(diǎn),所以可以通過(guò)把計(jì)算offload到用戶側(cè)設(shè)備(例如手機(jī)),在設(shè)備上運(yùn)行全部/部分的模型推理,來(lái)節(jié)省云端的服務(wù)成本和中間的帶寬成本?!袄绮捎迷诮K端側(cè)直接運(yùn)行離線 ASR、TTS 等方式,使用專用的 AI 芯片、計(jì)算硬件等,可以極大降低單位服務(wù)能力的成本;還可以通過(guò)端云異構(gòu)統(tǒng)一框架,提高AI原子能力迭代效率,對(duì)于基于不同硬件和指令集做深度的算子優(yōu)化,都是降低成本的可行辦法?!?/p>

火山語(yǔ)音,長(zhǎng)期以來(lái)面向字節(jié)跳動(dòng)各大業(yè)務(wù)線以及火山引擎ToB行業(yè)與創(chuàng)新場(chǎng)景,提供全球領(lǐng)先的AI語(yǔ)音技術(shù)能力以及卓越的全棧語(yǔ)音產(chǎn)品解決方案,包括音頻理解、音頻合成、虛擬數(shù)字人、對(duì)話交互、音樂(lè)檢索、智能硬件等。目前團(tuán)隊(duì)的語(yǔ)音識(shí)別和語(yǔ)音合成覆蓋了多種語(yǔ)言和方言,多篇技術(shù)論文入選各類AI 頂級(jí)會(huì)議,為抖音、剪映、飛書、番茄小說(shuō)、Pico等業(yè)務(wù)提供了領(lǐng)先的語(yǔ)音能力,并適用于短視頻、直播、視頻創(chuàng)作、辦公以及穿戴設(shè)備等多樣化場(chǎng)景,通過(guò)火山引擎開放給外部企業(yè)。

分享到

songjy

相關(guān)推薦