本屆大會同時在線上和線下(新加坡)舉辦。“云知聲-上師大自然人機交互”聯(lián)合實驗室提出的語音分離-DPCCN和目標語音分離-sDPCCN技術論文被收錄且在線上會議平臺展示了相關算法細節(jié),代表了云知聲在語音信號處理領域的底層技術的創(chuàng)新,與國際學術界對云知聲技術創(chuàng)新的認可。
此外,這已經(jīng)不是云知聲在語音信號處理方向第一次獲得國際認可,早在2020年已經(jīng)收獲ICASSP DNS國際評測第四,2021獲得Interspeech 2021 DNS 第二,Interspeech 2021 AEC Challenge 第二等多項榮譽。
此次被錄取的論文主要利用語音分離的技術突破來處理雞尾酒會問題,涉及語音識別、降噪等諸多方向。
雞尾酒會問題:在復雜場景下,人類可以輕易地關注于自身感興趣的語音,但是對于機器來說卻顯得尤為困難,這種現(xiàn)象被稱為雞尾酒會問題。
在本次論文中,聯(lián)合實驗室團隊從時頻域的角度出發(fā),提出了一種基于U-Net結構的語音分離模型DPCCN(Densely-connectedPyramidComplexConvolutionalNetwork),并在DPCCN基礎上,設計了一個特殊的目標說話人聲紋編碼模塊來對目標說話人的注冊語音進行聲紋信息提取,從而監(jiān)督DPCCN分離網(wǎng)絡提取出相應的目標說話人語音sDPCCN。在業(yè)界公開帶噪帶混響的LibriSpeech數(shù)據(jù)集合上,實驗結果顯示所提出的DPCCN方法顯著超過了目前業(yè)界主流技術。
另外,目前大多數(shù)主流的目標語音提取系統(tǒng)都是受監(jiān)督學習驅動的,它們對訓練數(shù)據(jù)有著很強的依賴。由于源域和目標域的聲學特性之間存在著一定程度的不匹配,域內(nèi)和跨域條件下的目標語音提取之間通常有著巨大的性能差異。因此,論文還提出了一種Mixture-Remix機制(Fig2所示)來提高跨域條件下的目標語音提取性能。
在Libri2Mix和Aishell2Mix構建的英文-中文跨域目標語音分離任務上,文中提出的Mixture-Remix機制不管在sDPCCN還是經(jīng)典的TD-SpeakerBeam(TSB)結構上都體現(xiàn)出了顯著效果。
在此之前,云知聲就已經(jīng)在語音識別,降噪領域有了諸多建樹,并將相關技術在多個領域、多個項目、多個產(chǎn)品中落地。比如云知聲的遠場陣列處理技術已被廣泛應用于多種智能家電,(如智能音箱、智能空調(diào)、智能抽油煙機);智慧交通設備(如8mic大陣列地鐵問詢機、購票機),三代共6款專用AI語音芯片(截至目前,已達到千萬級出貨)等產(chǎn)品。
其中智慧交通的相關產(chǎn)品與設備已在上海、廣州、徐州、深圳、合肥、三亞、蘇州、昆明、無錫、南寧等全國10余個城市、20余條地鐵線路的200余個地鐵站落地,其中包括云知聲傾力打造的全國首個智慧軌交標桿示范站——廣州地鐵廣州塔(“小蠻腰”)站,以及無人地鐵示范線路——深圳地鐵20號線等。
另外,針對低功耗可穿戴設備,云知聲基于深度學習技術構建了近場降噪技術,語音質量客觀指標SNR、PESQ、STOI已處于國際領先水平,在目前大火的智能AR工業(yè)眼鏡,藍牙智能眼鏡等產(chǎn)品中都有它的身影。
未來,云知聲將不斷探索科技新高度,促進AI系統(tǒng)的“智力”提升,讓后者更好地應用于千行百業(yè),為用戶締造更加出色的智能體驗。