其次,為了更符合實時互動場景,聲網(wǎng)數(shù)據(jù)集的設(shè)計非常嚴謹,覆蓋了多樣化的場景視頻損傷失真類型,包括:暗光多噪點、運動模糊、花屏、塊效應(yīng)、運動模糊(攝像頭抖動)、色調(diào)、飽和度、亮點和噪聲等。打分指標也設(shè)置了1-5分,以0.5分為一個畫質(zhì)區(qū)間,每個區(qū)間確到0.1,顆粒度更細并對應(yīng)了詳細的標準。
最后,在數(shù)據(jù)清洗階段,依照 ITU 標準成立≥15人的評分員組,先計算每個評分員和總體均值的相關(guān)性,剔除相關(guān)性較低的評分員后,再對剩余評分員的評價求均值,得出最后的視頻主觀體驗MOS分。雖然不同的評分員對于“好”和“壞”的絕對區(qū)間定義,或者是對畫質(zhì)損傷的敏感程度都不盡相同,但是對“較好”和“較差”的判斷還是趨同的。
建立基于移動端的視頻畫質(zhì)主觀體驗 MOS 分評估模型
收集完數(shù)據(jù),接下來需要基于數(shù)據(jù)庫通過深度學(xué)習(xí)算法來建立視頻主觀體驗 MOS 分評估模型,使該模型能夠取代人工評分。由于在實時互動場景下,接收端無法獲取無損的視頻參考源,因此聲網(wǎng)的方案是將客觀 VQA 定義為接收端解碼分辨率上的無參考評價工具,用深度學(xué)習(xí)的方法監(jiān)控解碼后的視頻質(zhì)量。
模型設(shè)計的學(xué)術(shù)嚴謹性:在訓(xùn)練深度學(xué)習(xí)模型的過程中也參考了多篇學(xué)術(shù)級的的論文(見文末的論文參考文獻),例如在非端到端的訓(xùn)練中會對原始視頻提取部分特征,發(fā)現(xiàn)視頻空間上的采樣對性能的影響最大,而進行時域上的采樣與原視頻的 MOS 相關(guān)性最高(參考論文文獻1)。同時,影響畫質(zhì)體驗的不光是空域的特征,時域上的失真也會有影響,其中有一個時域滯后效應(yīng)(參考論文2)。該效應(yīng)對應(yīng)著兩個行為:一是視頻畫質(zhì)下降時主觀體驗立即降低,二是視頻畫質(zhì)提升時觀看者體驗的緩慢提升。對此,聲網(wǎng)在建模時也考慮了這種現(xiàn)象。
移動端超小模型參數(shù)量減少99.1%:考慮到當前很多實時互動場景應(yīng)用在移動端,聲網(wǎng)針對性的設(shè)計了移動端更易應(yīng)用的超小模型,模型相對大模型參數(shù)量減少99.1%,運算量減少99.4%。就算是低端手機接入后,也可以無壓力的跑起來,進行端上視頻畫質(zhì)的普查。同時還實現(xiàn)了創(chuàng)新的深度學(xué)習(xí)模型壓縮方法,在基于某個輕量化版本并且保持模型預(yù)測相關(guān)性情況下,進一步將模型參數(shù)量減少59%,運算量減少49.2%。可做為通用方法,推廣應(yīng)用到對其他深度學(xué)習(xí)任務(wù)的模型做簡化,形成一個有效的通用簡化辦法。
模型性能優(yōu)于學(xué)術(shù)界公開大模型:一方面,聲網(wǎng) VQA 小模型的預(yù)測結(jié)果相關(guān)性與學(xué)術(shù)界公開的大模型保持相當,甚至略優(yōu)于一些大模型的結(jié)果選取了聲網(wǎng) VQA 的模型與學(xué)術(shù)界公開的IQA、BRISQUE、V-BLINDS以及VSFA等四種視頻畫質(zhì)評估算法模型在兩個大規(guī)模的公開數(shù)據(jù)集KoNViD-1k 、LIVE-VQC上進行了實驗,實驗結(jié)果如下圖:
另一方面,聲網(wǎng) VQA 的模型相比于學(xué)術(shù)界基于深度學(xué)習(xí)的大模型有著很大的運算優(yōu)勢,將聲網(wǎng) VQA 與VSFA 進行了模型的參數(shù)量和運算量對比,結(jié)果聲網(wǎng) VQA 的參數(shù)量與運算量都遠遠低于 VSFA 模型。而這種性能上的優(yōu)勢賦予了聲網(wǎng) VQA 在端上直接評估視頻通話服務(wù)體驗的可能性,在提供一定準確率保障情況下,大大提升了運算資源的節(jié)省。
VQA 模型具備較好的泛化能力,在深度學(xué)習(xí)算法中,泛化能力指的是算法對新鮮樣本的適應(yīng)能力,簡單來講就是通過深度學(xué)習(xí)方法訓(xùn)練出來的模型,對已知的數(shù)據(jù)訓(xùn)練集性能表現(xiàn)良好,對未知的數(shù)據(jù)測試集經(jīng)過訓(xùn)練后也能給出合理的結(jié)果。在前期,聲網(wǎng) VQA 模型主要針對內(nèi)部的視頻會議工具以及教育場景數(shù)據(jù)為優(yōu)先進行打磨,但在后續(xù)對娛樂場景測試結(jié)果相關(guān)性達到84%以上。良好的泛化能力將為未來基于聲網(wǎng) VQA 打造行業(yè)認可的視頻質(zhì)量評價標準建立很好的基礎(chǔ)。
更適用于 RTE 實時互動場景:目前行業(yè)一些同類的 VQA 算法主要應(yīng)用在非實時的流媒體播放場景,而且由于評估方法的局限性,最終的評測結(jié)果往往與用戶真實的主觀體驗評分有一定差距,而聲網(wǎng)的 VQA 算法模型可以適用實時互動的眾多場景,并且最終評估的主觀視頻質(zhì)量分和用戶的真實感官體驗吻合度高。同時,聲網(wǎng) VQA 模型的視頻數(shù)據(jù)不需要上傳到服務(wù)器,可直接在端上實時運行,不僅節(jié)省了資源,還有效為客戶規(guī)避數(shù)據(jù)隱私問題。
從 XLA 到 VQA 是 QoS 到 QoE 指標的進化
在實時互動中,QoS服務(wù)質(zhì)量主要反應(yīng)了音視頻技術(shù)服務(wù)的性能與質(zhì)量,而QoE體驗質(zhì)量代表了用戶對實時互動服務(wù)質(zhì)量和性能的主觀感受。聲網(wǎng)此前推出了實時互動 XLA 體驗質(zhì)量標準,包含5s 登錄成功率、600ms 視頻卡頓率、200ms音頻卡頓率、<400ms 網(wǎng)絡(luò)延時這四項指標,每個指標的月度達標率均需超過99.5%,XLA 的四項指標主要反應(yīng)了實時音視頻的服務(wù)質(zhì)量(QoS)。聲網(wǎng) VQA 可以更直觀的反應(yīng)用戶對視頻畫質(zhì)的主觀體驗質(zhì)量(QoE),也代表著實時互動質(zhì)量評估指標將實現(xiàn)從QoS到QoE的進化。
而對于企業(yè)客戶與開發(fā)者而言,聲網(wǎng) VQA 也可以賦能多重價值:
1、企業(yè)選型避坑,很多企業(yè)與開發(fā)者在挑選實時音視頻服務(wù)商時,會將幾段音視頻通話Demo的主觀感受或者簡單的接入測試作為選型標準,聲網(wǎng) VQA 的推出可以幫助企業(yè)在服務(wù)商選型時多了一種可量化的評價標準,更清晰地了解服務(wù)商的音視頻質(zhì)量在用戶側(cè)的主觀體驗評價。
2、幫助ToB企業(yè)為客戶提供視頻質(zhì)量評估工具,對于提供企業(yè)級視頻會議、協(xié)作、培訓(xùn),以及各類行業(yè)級視頻系統(tǒng)的企業(yè)可以通過聲網(wǎng) VQA 有效量化視頻畫質(zhì),幫助企業(yè)更直觀、可量化地展現(xiàn)自身產(chǎn)品服務(wù)的畫質(zhì)質(zhì)量。
3、助力產(chǎn)品體驗優(yōu)化,聲網(wǎng) VQA 將實時互動中原本未知的用戶主觀體驗變成可知,無疑將幫助客戶對產(chǎn)品端的體驗評價、故障檢測帶來很大的幫助,只有更全面的了解客觀的服務(wù)質(zhì)量指標與主觀的用戶體驗質(zhì)量,才能進一步優(yōu)化產(chǎn)品體驗,最終提升用戶端的體驗。
未來展望
接下來,聲網(wǎng) VQA 還有很長的路要走,例如用于模型訓(xùn)練的 VQA 數(shù)據(jù)集,多由時長為 4~10s 不等的視頻片段組成,而實際通話中需考慮近因效應(yīng),僅通過對視頻片段線性追蹤、打點上報的方式,或許無法準確擬合用戶整體的主觀感受,下一步計劃綜合考慮清晰度、流暢度、互動延時、音畫同步等,形成時變的體驗評價方法。
同時,未來聲網(wǎng) VQA 也有望進行開源,與行業(yè)廠商、開發(fā)者一起推動 VQA 的持續(xù)演進,最終形成 RTE 行業(yè)認可的視頻質(zhì)量主觀體驗評價標準。
目前聲網(wǎng) VQA 已在內(nèi)部系統(tǒng)迭代打磨中,后續(xù)將逐漸開放,并計劃同步在 SDK 集成在線評估功能,并發(fā)布離線測評工具。