超分算法在業(yè)內(nèi)已經(jīng)不是新詞,在介紹聲網(wǎng)的多倍實(shí)時(shí)超分前,先來看看目前行業(yè)主流的超分算法都有哪些?超分算法主要分為非實(shí)時(shí)與實(shí)時(shí)處理兩種類型。我們經(jīng)常會(huì)看到某某視頻網(wǎng)站將一些年代久遠(yuǎn)、低分辨率、低清晰度的老視頻轉(zhuǎn)換成當(dāng)前主流的720p、1080p、2k 的高分辨率視頻,這種是在線視頻行業(yè)比較主流的基于云端服務(wù)器處理的“非實(shí)時(shí)超分算法”,這類超分適用的場(chǎng)景是追求更高分辨率、更清晰的視頻觀看體驗(yàn),對(duì)處理速度的實(shí)時(shí)性沒有要求,并且算力充足,可以讓年代久遠(yuǎn)的視頻,煥發(fā)新的活力。但非實(shí)時(shí)超分算法計(jì)算量普遍比較大,只能適用于對(duì)實(shí)時(shí)性沒有要求的場(chǎng)景。
在實(shí)時(shí)互動(dòng)的場(chǎng)景中,就需要用到實(shí)時(shí)處理的超分算法,這其中主要包含云端、終端處理兩種方式,在云端服務(wù)器實(shí)時(shí)處理的超分算法計(jì)算量比第一種非實(shí)時(shí)的小,在超分效果和處理速度做了權(quán)衡,保證較好的超分效果的同時(shí),可以滿足服務(wù)器上實(shí)時(shí)處理的要求。但弊端也非常明顯,由于需要在 GPU (圖形處理器)服務(wù)器上部署,并且一臺(tái)服務(wù)器只能同時(shí)處理有限路視頻,當(dāng)處理大量并發(fā)的實(shí)時(shí)視頻流時(shí),則需要部署大量的 GPU 服務(wù)器,這種算法的使用成本比較高,而終端的超分算法可以很好的解決這個(gè)問題。
終端超分算法可在用戶的終端進(jìn)行視頻播放時(shí),對(duì)視頻畫面進(jìn)行實(shí)時(shí)后處理,從而在提升視頻觀看畫面主觀視覺效果的同時(shí)不增加企業(yè)傳輸帶寬成本。目前業(yè)內(nèi)很多主流的終端實(shí)時(shí)超分算法更集中在PC端,PC端的設(shè)備相對(duì)可以提供更強(qiáng)的算力,實(shí)現(xiàn)高性能的視頻畫質(zhì)實(shí)時(shí)增強(qiáng)。但當(dāng)下隨著實(shí)時(shí)互動(dòng)場(chǎng)景的爆發(fā),很多 RTE 場(chǎng)景集中在移動(dòng)端,在移動(dòng)終端用戶的設(shè)備性能參差不齊,這就要求移動(dòng)端實(shí)時(shí)超分的復(fù)雜度必須極低,這樣才能在大部分移動(dòng)設(shè)備中做到實(shí)時(shí)處理。如何在超低計(jì)算量的情況下還保持較好的視頻超分效果,這成為了實(shí)時(shí)超分領(lǐng)域內(nèi)的難點(diǎn)。
業(yè)內(nèi)首個(gè)! 可運(yùn)行于移動(dòng)端的多倍實(shí)時(shí)超分算法
針對(duì)移動(dòng)端的實(shí)時(shí)超分難點(diǎn),聲網(wǎng)人工智能算法團(tuán)隊(duì)經(jīng)過持續(xù)的技術(shù)鉆研,正式推出了業(yè)內(nèi)首個(gè)基于移動(dòng)端實(shí)時(shí)處理的多倍超分算法,該算法的優(yōu)勢(shì)是成本低、功耗小,不需要部署 GPU 服務(wù)器,僅依靠移動(dòng)端設(shè)備自身的CPU、GPU 或 NPU 來實(shí)時(shí)超分,以較小的算法計(jì)算量實(shí)現(xiàn)視頻分辨率的多倍超分,有效增強(qiáng)了視頻的畫質(zhì),并降低視頻傳輸?shù)某杀尽?/p>
由于移動(dòng)端的算力有限,并且對(duì)算法的功耗、模型大小要求十分苛刻,這類算法的研發(fā)難度是極具挑戰(zhàn)性的,既要保持較好超分效果,也要滿足移動(dòng)端實(shí)時(shí)處理的要求。傳統(tǒng)超分的技術(shù)原理可以簡(jiǎn)單理解為插值+銳化,插值是將低分辨圖像放大為高分辨率圖像,銳化是使圖像邊緣更清晰的一種圖像處理方法,插值法和銳化方法,都是人工基于觀察、總結(jié)和試驗(yàn)出來的方法,存在一定的局限性,常常出現(xiàn)圖像放大后出現(xiàn)模糊、銳化過度的現(xiàn)象。
而聲網(wǎng)移動(dòng)端實(shí)時(shí)超分的技術(shù)原理是基于深度學(xué)習(xí)算法進(jìn)行豐富的視頻數(shù)據(jù)訓(xùn)練,從大量的低分辨圖像和高分辨圖像對(duì),有監(jiān)督地學(xué)習(xí)低分辨到高分辨率的映射關(guān)系,實(shí)現(xiàn)圖像放大后,細(xì)節(jié)豐富、畫面清晰的效果,其超分效果、自適應(yīng)能力明顯優(yōu)于傳統(tǒng)的超分方法。
為了更直觀的展示聲網(wǎng)實(shí)時(shí)超分算法的應(yīng)用效果,一段視頻demo展示了在采集端 360p 分辨率的視頻經(jīng)過聲網(wǎng)多倍超分到 1080p 后的效果。
聲網(wǎng)多倍實(shí)時(shí)超分算法的核心優(yōu)勢(shì):
移動(dòng)端最高支持3倍實(shí)時(shí)超分:聲網(wǎng)多倍超分算法可以做到在移動(dòng)端實(shí)時(shí)處理,支持2倍與3倍超分,例如360p 兩倍超分720p,240p 3倍超分 720p,360p 3倍超分 1080p,并且經(jīng)過測(cè)試,與行業(yè)其他超分算法相比,在同等計(jì)算量的條件下,聲網(wǎng)的實(shí)時(shí)超分效果與畫質(zhì)表現(xiàn)更勝一籌。
覆蓋機(jī)型廣,中低端機(jī)型也能實(shí)時(shí)處理:聲網(wǎng)多倍超分算法在移動(dòng)端的機(jī)型覆蓋非常廣,iOS 可覆蓋iPhone6s 及以上機(jī)型,能夠覆蓋95%以上的 iOS 視頻用戶;Android 覆蓋所有中高端機(jī)以及部分低端機(jī),能夠覆蓋85%以上的安卓用戶。
CPU 消耗、SDK 內(nèi)存消耗低:聲網(wǎng)多倍超分算法對(duì)移動(dòng)端設(shè)備的性能消耗占比極低,有著出色的能耗表現(xiàn),例如在移動(dòng)端 360p 超分至 720p,超分的模型跑在設(shè)備的 GPU上,幾乎不會(huì)增加CPU 消耗,單幀處理耗時(shí)平均在 10ms以內(nèi)。在1對(duì)1視頻通話場(chǎng)景中,360p/15fps 的視頻開啟2倍或3倍超分后,SDK 的內(nèi)存消耗只增加10%左右。
聲網(wǎng)實(shí)時(shí)超分算法目前適用的場(chǎng)景主要分為三種:
IoT平臺(tái)的實(shí)時(shí)互動(dòng)場(chǎng)景:在智能硬件終端對(duì)音視頻SDK的功耗要求非常高,一旦視頻通話的視頻傳輸太占功耗,就會(huì)造成硬件的續(xù)航時(shí)間下降,發(fā)燙發(fā)熱等,對(duì)此,聲網(wǎng)實(shí)時(shí)超分可以將硬件設(shè)備端的720p 視頻以360p 進(jìn)行采集,并通過360p 進(jìn)行傳輸,在接收端將接收到的360p視頻增強(qiáng)到720p,不僅保證了智能硬件終端的視頻畫質(zhì),還降低了SDK功耗,增加了硬件的續(xù)航時(shí)間。
帶寬受限的實(shí)時(shí)互動(dòng)場(chǎng)景:在很多實(shí)時(shí)互動(dòng)場(chǎng)景中由于網(wǎng)絡(luò)帶寬受限,無法傳輸高分辨率的視頻,可通過聲網(wǎng)實(shí)時(shí)超分進(jìn)行降分辨率傳輸,將帶寬受限的影響降到最低,最終在接收端進(jìn)行恢復(fù)原視頻的畫質(zhì)。
視頻首幀出圖清晰:在視頻通話開啟時(shí),用戶都會(huì)希望第一眼映入眼簾的畫面就很清晰,但在一些實(shí)時(shí)互動(dòng)場(chǎng)景中,為了快速出圖,剛出來的視頻畫面是低分辨率,過一會(huì)才會(huì)變成清晰,從視頻小流切到大流。通過聲網(wǎng)實(shí)時(shí)超分可以在視頻小流階段就對(duì)視頻畫質(zhì)進(jìn)行放大增強(qiáng),從而實(shí)現(xiàn)首幀的畫面達(dá)到清晰,同時(shí)首幀出圖的時(shí)延也不會(huì)受到影響。
如何評(píng)價(jià)實(shí)時(shí)超分算法的實(shí)現(xiàn)效果?
介紹完聲網(wǎng)實(shí)時(shí)超分的特點(diǎn)、優(yōu)勢(shì)以及應(yīng)用場(chǎng)景,很多人可能想問最后如何去衡量實(shí)時(shí)超分的效果?這里就要說到上一期聲網(wǎng) VQA 的技術(shù)解析文章,聲網(wǎng) VQA 利用深度學(xué)習(xí)算法實(shí)現(xiàn)對(duì)實(shí)時(shí)互動(dòng)場(chǎng)景接收端視頻畫質(zhì)主觀體驗(yàn) MOS 分的評(píng)估,解除了傳統(tǒng)主觀畫質(zhì)評(píng)估對(duì)人力評(píng)分的高度依賴,從而極大提高視頻畫質(zhì)評(píng)估的效率,使實(shí)時(shí)的視頻質(zhì)量評(píng)估成為可能。
目前聲網(wǎng)多倍超分已跟多個(gè)客戶進(jìn)行了集成,并得到客戶高度認(rèn)可。