聲網(wǎng) AI 降噪:兼顧強降噪與高保真,實現(xiàn)遠場去混響
相比于傳統(tǒng)的一些降噪算法,聲網(wǎng) AI 降噪的效果有巨大提升,可以一次性解決上百種突發(fā)性噪聲,比如在會議場景可能經(jīng)常會遇到敲鍵盤,裝修、背景討論等噪聲;居家辦公可能會遇到小孩哭叫、廚房做飯等噪聲,這些噪聲通通可以抑制干凈。
聲網(wǎng) AI 降噪在強降噪的同時還能兼顧高保真,即使在多人同時說話的場景下,做到在抑制噪聲的同時不對說話人語音產(chǎn)生損傷,使每個人的聲音都聽得清晰。還實現(xiàn)了在不增加額外運算量的前提下,對遠場語音具有明顯的混響抑制能力,如果你在一個房間里面離麥克風比較遠,這時候對方聽你的聲音是模糊的,使用了聲網(wǎng)的 AI 降噪算法,可以使對端也能清晰地聽到你的聲音。
此外,聲網(wǎng)自研的 AI 推理引擎還可以使得 AI 降噪算法在 Android、iOS、Mac、Windows、Web 等主流平臺以低精度損傷、高性能、低功耗方式運行,使用戶的設備不卡不燙。
通過聲網(wǎng) AI 降噪音頻Demo 可更直觀的體驗聲網(wǎng) AI 降噪帶來的遠場去混響和噪聲抑制能力,Demo中依次展示敲擊鍵盤音、辦公室噪聲等典型非穩(wěn)態(tài)噪聲以及室內(nèi)去混響的效果,因為這是AI降噪相對于傳統(tǒng)降噪所具有的核心價值;
行業(yè)同類降噪算法對比:聲網(wǎng) AI 降噪更優(yōu)概率超過47%
在聲網(wǎng)推出 AI降噪前,行業(yè)已存在一些降噪算法,但大多數(shù)傳統(tǒng)的語音降噪算法是基于嚴密的數(shù)學推導而來的,其中存在一些嚴格的假設條件,實際上很多時候這些假設條件并不都是成立的。例如傳統(tǒng)降噪算法在處理穩(wěn)態(tài)噪聲(噪聲功率起伏比較平緩)這類符合假設條件的情況效果較好,在處理非穩(wěn)態(tài)噪聲這類不符合假設條件的情況,降噪效果會有明顯回退。而隨著深度學習的發(fā)展,當前基于數(shù)據(jù)驅動的 AI 語音降噪算法發(fā)展迅猛,它們相較于傳統(tǒng)的語音降噪算法的一大優(yōu)勢是不依賴于任何假設條件,處理非穩(wěn)態(tài)噪聲效果顯著。
此外,隨著算力持續(xù)增長,基于大數(shù)據(jù)訓練的 AI 語音降噪算法具有強大的擬合能力和魯棒性(系統(tǒng)性能的健壯性),使實時 AI 語音降噪算法商業(yè)化落地成為可能。
于是,聲網(wǎng)的 AI 降噪算法融合了傳統(tǒng)語音降噪算法與AI語音降噪算法的各自優(yōu)勢,通過采用兼顧強降噪和高保真的損失函數(shù)、自研的 AI 推理引擎等一系列技術手段,同時實現(xiàn)了優(yōu)秀的噪聲抑制和遠場去混響功能,可以很好的應用在視頻會議、語聊房、遠程問診等實時互動場景中。
此外,為了更清晰的了解聲網(wǎng) AI 降噪在用戶端的體驗評價,聲網(wǎng)還選取了一些行業(yè)同類的降噪算法進行效果對比,在由真實數(shù)據(jù)組成的大規(guī)模測試集上,和行業(yè)標桿國際友商 A 和友商 B 對比,聲網(wǎng)均取得了最高的 MOS 分數(shù)(平均主觀意見分)。參與測試的人員,在體驗后給出的推薦評分中,聲網(wǎng)明顯占優(yōu);聲網(wǎng)優(yōu)于友商 A 和友商 B 的概率分別是 47.4067% 和 48.1341%,聲網(wǎng)輸給友商 A 和友商 B 的概率分別是 31.4674% 和 30.7717%,聲網(wǎng)和友商 A 和友商 B 打平的概率分別是 21.1259% 和 21.0942%。
目前聲網(wǎng) WebSDK AI 降噪插件和 Native SDK AI 降噪動態(tài)庫已跟多個客戶進行了集成,得到了客戶的高度認可;聲網(wǎng)也將持續(xù)提升 AI 降噪算法的性能,目前基于最新 AI 降噪算法的 AI 降噪插件可以與 Web SDK v4.10.0 及以上配合使用,同時也推出了基于最新 AI 降噪算法的 AI 降噪動態(tài)庫可以與 Native SDK v3.7.0 及以上配合使用。