AV Pipeline 已支持的多種插件

揭秘視頻超分與聲音事件檢測,以深度學習實現“升體驗、降成本”

端側最高 3 倍超分背后,采用深度學習與 NPU 方案

手機和移動設備可以隨時隨處播放視頻,不過網絡質量會因為地點條件各有不同。為了降低網絡差異對觀眾觀看體驗的影響,視頻 App 一般會針對網絡調整降低視頻碼率,減少播放卡頓。另外,用戶對畫質要求水漲船高,視頻App 需在服務器端存儲高清視頻,大大增加了視頻網站服務器端的成本開支。

這種情況下,AV Pipeline 用端側超分技術,提升畫質和觀看體驗,同時降低運營成本,堪稱一舉兩得。而這背后,是AV Pipeline 采用 AI 深度學習對超分功能進行了設計和應用。

根據技術專家介紹,首先在模型方面 ,AV Pipeline 利用卷積神經網絡的非線性擬合能力,去近似自然場景中高分辨率圖像到低分辨率圖像的復雜的退化過程,實現更為真實的超分效果。其次,在數據工程上,除超分素材里龐雜的真實采集的數據外,AV Pipeline 也會構造接近真實場景的合成數據,用于模型的優(yōu)化過程。最后也是非常重要的一點,為了突破手機端側的性能瓶頸,AV Pipeline 采用了多種模型小型化的方案,包括剪枝、量化、蒸餾、神經架構搜索等。

AV Pipeline 有 GPU 超分方案和NPU 超分兩種方案。GPU 超分方案具有較高的并行效率以及較好的通用性,對于 270P 及以下的視頻,可以實現最高 2 倍超分。而 NPU 超分方案則具有更好的超分體驗,可以提供 3 倍的超分能力,但是需要專有硬件的支持。這是因為 NPU 提供了直接支持視頻格式的接口,可以實現端到端的視頻轉化,減少了調用開銷。

另外,AV Pipeline 針對視頻超分提出特有的融合機制,對計算流水進行重排,可以降低超分對內存帶寬的需求,提高了推理性能,降低內存讀寫的功耗。

現在,AV Pipeline 視頻超分支持 270P-720P 等多種分辨率,最高可以實現 3 倍效果。根據視頻分辨率的不同,AV Pipeline 視頻超分插件會靈活采用不同的增強策略,以達到效果和時延功耗的平衡。

聲音事件檢測:98%識別準確率背后的四大設計亮點

AV Pipeline 另一個重要的插件是聲音事件檢測,聲音事件檢測采用主流的深度學習 NN 網絡算法模型,重點關注準確率和誤闖問題。在設計中,首先,根據聲音事件長短不同,AV Pipeline 采用并行計算多個不同卷積,以分析更豐富的特征。

第二,在頻譜中很難區(qū)分的易混淆聲音事件,AV Pipeline 采用注意力機制,對不同聲音特征計算貢獻度,以區(qū)分易混淆的聲音類別,并且可用于對誤闖聲音的抑制。第三,分類后的聲音事件,在時間維度(時域上),也使用注意力機制,為貢獻度打分。第四,AV Pipeline 設計了融合判決池,得分較高聲音事件直接判決,得分較低但不想遺漏的聲音事件,采用融合判決池做平滑處理。

AV Pipeline 聲音事件檢測現在可支持日常使用的 13 種聲音,可以用于無障礙功能、健康檢測、輔助安全駕駛、安全防盜、事故報警防剮蹭、停車啟動安全等更豐富的場景。研發(fā)團隊針對預置聲音類別進行了深度優(yōu)化、組合驗證,當前識別準確率平均在 98% 以上。

最后,AV Pipeline 技術專家透露,AV Pipeline 已經在和視頻 App 大廠合作超分商用方案,目前灰度測試階段。同時,AV Pipeline 也可用于視頻編輯軟件和直播類應用。接下來,AV Pipeline 會繼續(xù)完善框架和插件,例如預置視頻錄制、編輯等業(yè)務的 Pipeline,還會新增與人像拍攝美化相關的插件能力。

從 AV Pipeline 在視頻領域新的玩法和探索,可以看到華為在持續(xù)投入大量核心技術,簡化底層開發(fā)繁瑣流程和難點,用以降低智能化音視頻開發(fā)的門檻,這是贏得開發(fā)者的最好契機。AV Pipeline 的設計與進展,也讓業(yè)界看到,華為正在探索核心場景和痛點的技術方案,持續(xù)加碼技術生態(tài)實力,未來可期。

分享到

zhupb

相關推薦