(Photo by Sergey)
受疫情影響,遠(yuǎn)程協(xié)同辦公軟件市場(chǎng)爆發(fā),騰訊會(huì)議上線兩個(gè)月內(nèi)日活超千萬(wàn),在如此高并發(fā)流量沖擊下,騰訊會(huì)議保持了清晰流暢的語(yǔ)音服務(wù)。近日,騰訊多媒體實(shí)驗(yàn)室高級(jí)總監(jiān)商世東接受LiveVideoStack專訪,圍繞騰訊會(huì)議及其背后的故事進(jìn)行了分享。
以下為采訪實(shí)錄:
1. 選擇
離開杜比從來(lái)都不是一個(gè)困難的決定
剛剛畢業(yè)的時(shí)候,我在摩托羅拉做音頻方面的工作,一做就是將近十年的時(shí)間。2010年,我去了杜比實(shí)驗(yàn)室,算起來(lái)是國(guó)內(nèi)入職杜比研發(fā)團(tuán)隊(duì)的第二個(gè)員工。當(dāng)時(shí)負(fù)責(zé)整個(gè)杜比中國(guó)的工程團(tuán)隊(duì),差不多有五六十個(gè)人的規(guī)模。后來(lái)我又去了杜比澳大利亞,再后來(lái),也就是2019年1月,我加入了騰訊多媒體實(shí)驗(yàn)室,在音頻技術(shù)中心負(fù)責(zé)整個(gè)音頻團(tuán)隊(duì)的建設(shè)、產(chǎn)品的技術(shù)路線規(guī)劃、技術(shù)的交互以及負(fù)責(zé)對(duì)多個(gè)產(chǎn)品,包括騰訊會(huì)議在內(nèi)的端到端的音頻體驗(yàn),現(xiàn)在團(tuán)隊(duì)(音頻)大概有20個(gè)人。
對(duì)我來(lái)說(shuō),首先,在杜比這樣的業(yè)界領(lǐng)先公司工作,我學(xué)習(xí)到了很多,國(guó)際化的視野、前瞻性的技術(shù)布局、完整的思維體系、團(tuán)隊(duì)建設(shè)等等,這些都是讓我終身獲益的東西。
但離開杜比并不是一個(gè)非常困難的決定,這其中大環(huán)境、小環(huán)境的原因都有一些。我后來(lái)回顧了一下,最重要的原因還是在于杜比的主要業(yè)務(wù)是在傳統(tǒng)領(lǐng)域,成長(zhǎng)速度不盡人意。作為一家主要做技術(shù)授權(quán)業(yè)務(wù)的公司,它沒(méi)有最終面對(duì)消費(fèi)者的產(chǎn)品,相對(duì)而言公司規(guī)模也比較小,對(duì)整個(gè)生態(tài)的影響有限,很難有一個(gè)全面的把握。
換一種說(shuō)法,這其中有很多的東西是個(gè)人想要但是平臺(tái)無(wú)法給與的,個(gè)人成長(zhǎng)容易碰到天花板,想要向上突破的時(shí)候,公司已經(jīng)不能給自己提供這樣的平臺(tái)了。就這方面而言的話,在騰訊,天花板幾乎不存在,在這里,只要有能力、有潛力、有愿望,個(gè)人擁有持續(xù)不斷的提升空間,并且可以在這個(gè)無(wú)限上升的空間里做到最好,這對(duì)我來(lái)說(shuō)是非常重要的一點(diǎn)。
在騰訊面臨的用戶數(shù)量,以前在杜比的時(shí)候是想都不敢想的。現(xiàn)在一天會(huì)有千萬(wàn)級(jí)DAU的產(chǎn)品,可以看到自己開發(fā)的產(chǎn)品在整個(gè)市場(chǎng)上遇到各種意想不到的困難、挑戰(zhàn)、問(wèn)題以及機(jī)會(huì)。
現(xiàn)在我們很大一部分的精力放在騰訊會(huì)議上,通過(guò)種種技術(shù)對(duì)用戶使用場(chǎng)景進(jìn)行分析并通過(guò)統(tǒng)計(jì)數(shù)據(jù)的上報(bào)、分析,了解用戶可能遇到的問(wèn)題并快速加以解決。
2. 改變
需要更多的思考與更確定的答案
(Photo by Sergey)
以前我們做視頻會(huì)議,考慮會(huì)議中的語(yǔ)音質(zhì)量提升和評(píng)估的出發(fā)點(diǎn)都是要求對(duì)標(biāo)或者超越電話(典型的比如電話話筒終端),這個(gè)是典型的雙人通話場(chǎng)景,但是現(xiàn)在我們也發(fā)現(xiàn)視頻會(huì)議大量的場(chǎng)景都是圍繞多人的、多地的聯(lián)合辦公場(chǎng)景。以前基于電信行業(yè)終端(電話話筒為主要語(yǔ)音設(shè)備)定義的完整的語(yǔ)音質(zhì)量體系需要重新審視和演進(jìn)來(lái)滿足現(xiàn)在用戶的需求。簡(jiǎn)單地說(shuō),會(huì)議軟件是從模仿打電話的體驗(yàn)開始的,雖然從使用方式、使用場(chǎng)景、使用時(shí)間等等角度來(lái)看,多樣性已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了電話。而且,僅僅倆人打電話是不夠的,我們要一個(gè)小組打電話,光打電話還不夠,還要分享視頻、分享屏幕、圖片和文檔。從國(guó)際標(biāo)準(zhǔn),比如ITU-T的演進(jìn)路線圖來(lái)看,制訂的通話標(biāo)準(zhǔn),也不斷的從雙人通話向多人、跨地區(qū)的實(shí)時(shí)、強(qiáng)交互場(chǎng)景演進(jìn)。
會(huì)議當(dāng)中關(guān)鍵的語(yǔ)音體驗(yàn)簡(jiǎn)單的來(lái)說(shuō),可以從三個(gè)維度來(lái)衡量,語(yǔ)音通信的可懂度,語(yǔ)音自然度/保真度和語(yǔ)音舒適度。從這三方面來(lái)說(shuō),在多人會(huì)議中面臨的挑戰(zhàn)明顯要多于雙人。
比如多人通話采集設(shè)備的多樣性。兩個(gè)人的時(shí)候當(dāng)然很好協(xié)調(diào),人多了以后采集設(shè)備如何配置,以及采集的音質(zhì)、采樣率、比特率;在多人場(chǎng)景里面音頻編解碼的接入配置,到底是寬帶還是超寬帶,最簡(jiǎn)單的辦法就是所有的配置都按照最好的來(lái),但是這樣對(duì)系統(tǒng)資源的占用是最高的。同時(shí)因?yàn)閷?duì)系統(tǒng)資源的占用最高,會(huì)帶來(lái)總體體驗(yàn)的下降。
那么如何動(dòng)態(tài)來(lái)在多種因素中平衡,保證多人語(yǔ)音通信的綜合體驗(yàn)在三個(gè)維度上有最優(yōu)的均衡,就變成一個(gè)很有挑戰(zhàn)性的課題。
同時(shí),不同場(chǎng)景的網(wǎng)絡(luò)環(huán)境也不一樣。你的網(wǎng)絡(luò)、我的網(wǎng)絡(luò),可能還有第三個(gè)、第四個(gè)人的網(wǎng)絡(luò),有的人使用有線網(wǎng)絡(luò)、有的則是WiFi,有的是4G,帶寬差異巨大,網(wǎng)絡(luò)QoS也參差不齊,這時(shí)候如何有效的探測(cè)網(wǎng)絡(luò)實(shí)際帶寬,進(jìn)而高效的進(jìn)行流控管理,在多人場(chǎng)景下的復(fù)雜度遠(yuǎn)遠(yuǎn)高于雙人。
所以,綜上所述,一旦開始考慮多人參會(huì)的因素,你會(huì)發(fā)現(xiàn),在兩人通話的情形下討論的音質(zhì)體驗(yàn)、QoS、QoE等等問(wèn)題,現(xiàn)在要重新思考答案。這在國(guó)際上當(dāng)前也是很熱的領(lǐng)域,大家也都在探索答案。
對(duì)于整個(gè)視頻會(huì)議體驗(yàn)來(lái)說(shuō),或者對(duì)于用戶體驗(yàn)來(lái)說(shuō),這不是一個(gè)單一的因素或者指標(biāo)就可以決定的。之前我們有針對(duì)網(wǎng)絡(luò)規(guī)劃的常見QoS三個(gè)指標(biāo),丟包,抖動(dòng)和延遲,這些東西都是必要條件,但是不是充分條件。決定一個(gè)用戶體驗(yàn)的是很多方面的因素,比如從音頻角度來(lái)說(shuō),從我們做音頻的角度來(lái)說(shuō),用的最多的就是上面說(shuō)到的三個(gè)維度:語(yǔ)音可懂度、自然度、舒適度。
首先是聽得懂你說(shuō)的話,這是可懂度。如果音量很低,卡頓很嚴(yán)重,或者回聲,或者很嘈雜,或者嘯叫發(fā)生,那我基本就無(wú)法聽了,那視頻會(huì)議通話中反應(yīng)比較多的卡頓來(lái)說(shuō),我們通過(guò)深度學(xué)習(xí)技術(shù)來(lái)解決網(wǎng)絡(luò)丟包的問(wèn)題。
IP網(wǎng)絡(luò)上面?zhèn)鬏數(shù)臅r(shí)候常常會(huì)發(fā)生丟包的現(xiàn)象,以前處理丟包的技術(shù)比較簡(jiǎn)單粗暴,比如直接拿后面一幀填補(bǔ)一下或者前一幀內(nèi)容直接復(fù)制。但是現(xiàn)在我們通過(guò)機(jī)器學(xué)習(xí)的方法,可以很準(zhǔn)確的預(yù)測(cè)丟掉的那個(gè)音節(jié)的部分內(nèi)容,在用戶體驗(yàn)上則并沒(méi)有感知。
但是光聽得懂肯定不行,你肯定不可能只滿足于聽得懂。
比如聽機(jī)器人說(shuō)話,那聽得懂是沒(méi)有問(wèn)題的,但自然度方面就不會(huì)太好,這里面就涉及很多音質(zhì)的東西,不僅是延遲、卡頓,抖動(dòng),這些是網(wǎng)絡(luò)的指標(biāo)。自然度對(duì)于用戶來(lái)說(shuō)更多是一個(gè)感知問(wèn)題,我們用音色是否明亮、是否均衡、是否豐滿,等等多項(xiàng)指標(biāo)來(lái)衡量。當(dāng)我們?cè)谡Z(yǔ)音處理中不可避免需要非線性處理的時(shí)候,我們就可以通過(guò)上述的指標(biāo)來(lái)保證語(yǔ)音的感知自然度。
在語(yǔ)音舒適度維度方面,我們的終極目標(biāo)是視頻會(huì)議語(yǔ)音通話的體驗(yàn)要盡可能的接近真實(shí)場(chǎng)景下的人和人間距1米時(shí)的通話體驗(yàn),要達(dá)到這樣的目標(biāo),我們還有很長(zhǎng)的一段路要走。目前可以想象到哪些困難我們需要克服,除了網(wǎng)絡(luò)QoS三要素外,如何盡可能真實(shí)的仿真出所處的聲學(xué)場(chǎng)景和對(duì)話形式,對(duì)于目標(biāo)的達(dá)成至關(guān)重要,我們的技術(shù)演進(jìn)路線圖也是朝著這個(gè)方向在努力。
3. 趕車
咖啡與信念缺一不可
(Photo by Sergey)
今年的需求(疫情)爆發(fā)了以后,我們整個(gè)團(tuán)隊(duì)一直加班加點(diǎn),針對(duì)以前很多沒(méi)有覆蓋到的場(chǎng)景、沒(méi)有碰到過(guò)的用戶需求,陸陸續(xù)續(xù)開發(fā)了更多的技術(shù)和功能。比如,我們發(fā)現(xiàn)很多老師給學(xué)生上課時(shí)需要聲音共享,而且這是一個(gè)非常剛性的需求。以前我們?cè)谵k公室很少有聲音共享,屏幕共享就可以了,所以我們?cè)赪indows(大部分老師都是用電腦進(jìn)行教學(xué)直播互動(dòng))上提供了很多音頻共享的功能。
比如我們可以在學(xué)生把麥克風(fēng)禁麥后還講話的時(shí)候提醒學(xué)生,我們通過(guò)信號(hào)處理的技術(shù),可以把學(xué)生講話的聲音有效的從環(huán)境背景聲分離處理,從而實(shí)現(xiàn)關(guān)麥講話提醒這個(gè)功能。
另外,用戶激增后,我們也看到了不同用戶的終端設(shè)備差異性導(dǎo)致的產(chǎn)品行為的不一致。舉個(gè)例子,用戶開關(guān)麥克風(fēng)的過(guò)程當(dāng)中需要整個(gè)設(shè)備驅(qū)動(dòng)進(jìn)行重啟。設(shè)備驅(qū)動(dòng)重啟的過(guò)程中,大部分設(shè)備都沒(méi)有問(wèn)題,但是某些設(shè)備確會(huì)導(dǎo)致關(guān)麥的時(shí)候揚(yáng)聲器無(wú)聲,一秒兩秒的無(wú)聲用傳統(tǒng)的質(zhì)量評(píng)估手段是看不出來(lái)的,但對(duì)用戶體驗(yàn)有很大的影響。所有這樣的問(wèn)題被發(fā)現(xiàn)后,快速迭代的能力就非常關(guān)鍵。
在這個(gè)過(guò)程中,對(duì)產(chǎn)品的思考更多時(shí)候是一個(gè)信念問(wèn)題,當(dāng)有這么多人使用這款產(chǎn)品時(shí),我們是帶有使命感在工作的。我們更多是希望早一點(diǎn)把需求解決、把功能做出來(lái),早一點(diǎn)優(yōu)化用戶的體驗(yàn)。
所以大家常常是咬著牙,加班加點(diǎn),周末也不休息。在聲音共享這個(gè)功能上線的時(shí)候,我記得我們有一個(gè)同學(xué)一晚上調(diào)bug調(diào)到了兩三點(diǎn),我們當(dāng)時(shí)想到底還要不要跟著這次產(chǎn)品更新一起發(fā)布新功能,還是說(shuō)再挺一下,堅(jiān)持把這最后一個(gè)問(wèn)題解決掉。
因?yàn)楫a(chǎn)品的發(fā)布時(shí)間已經(jīng)確定,如果這次趕不上,那意味著老師和學(xué)生們第二天上課時(shí)又沒(méi)有聲音,上課的效率和體驗(yàn)都會(huì)受到比很大的影響, 所以我們的同學(xué)那天就趕了一整個(gè)晚上,在這期間咖啡就沒(méi)停過(guò)。
最后,終于在凌晨5點(diǎn)多鐘的時(shí)候,問(wèn)題解決了,最后還做了全面的自測(cè),確保沒(méi)有問(wèn)題,第二天我們真的就硬是趕上了新版本發(fā)布的這趟車。
這個(gè)聲音共享功能發(fā)布了以后,我們非常非常開心,就是那種很單純的喜悅,希望上網(wǎng)課的老師們都趕緊升級(jí)到新版本,這樣他們?cè)俳o學(xué)生分享視頻的時(shí)候,聲音的分享就再也不成問(wèn)題了。
聲音是傳遞信息非常重要的媒介,所以我們的想法很簡(jiǎn)單,就是這個(gè)東西能夠越早做出來(lái)越好。
4. 出海
VooV Meeting的師、敵、友
(Photo by Sergey)
最近,Zoom是一個(gè)非常值得關(guān)注的對(duì)象。Zoom對(duì)我們來(lái)說(shuō),是云視頻會(huì)議的先行者。因?yàn)樗鼈冊(cè)谶@個(gè)行業(yè)進(jìn)入比較早,做得比較久,對(duì)用戶需求、行為的理解也比較深刻,有很多值得我們學(xué)習(xí)的地方。其實(shí)我也蠻喜歡微軟Teams的產(chǎn)品,它也有一些自己獨(dú)到的地方。它從Skype時(shí)代開始演進(jìn),有比較多的積累。而且微軟對(duì)底層技術(shù)有長(zhǎng)期的投入,很多先進(jìn)的思想一直在引領(lǐng)這個(gè)行業(yè)的進(jìn)步。
因?yàn)槲覀冏鲆曨l會(huì)議的時(shí)間相對(duì)比較短,有這樣一些先行者給我們先進(jìn)的思路,包括用戶的支持、合作伙伴、硬件合作伙伴合作模式等等,都是值得借鑒的。
騰訊會(huì)議海外版本VooV Meeting也同樣是我們?cè)谥С?,畢竟底層技術(shù)都是一樣的。
從音頻角度來(lái)說(shuō),海外用戶跟國(guó)內(nèi)用戶的訴求大體上一樣,但也有一些不一樣的地方。比如國(guó)內(nèi)開會(huì)的時(shí)候,整個(gè)網(wǎng)絡(luò)架構(gòu)都是比較均勻的,尤其是我們看到北上廣這些城市,他們本身的網(wǎng)絡(luò)條件是不錯(cuò)的,延遲也處于比較好的狀況。
到了海外,我們的服務(wù)器部署不像在國(guó)內(nèi)這么完善,我們需要知道哪些地方的服務(wù)器部署是不足的。海外也不需要像國(guó)內(nèi)這樣面面俱到的部署,很多地域人口密度很低,比如美國(guó)的用戶可能比較集中在東西海岸,那么就需要針對(duì)東西海岸加強(qiáng)部署,在后臺(tái)的調(diào)度也要加以注意。
國(guó)內(nèi)的話,我們的信息獲得比較全面,流量高發(fā)的城市地區(qū)我們都有掌握,但海外這些需求和信息要如何獲得,這就是一個(gè)問(wèn)題。你怎么知道到底哪些城市在哪些時(shí)候會(huì)有一個(gè)峰值的需求?這必須要有一個(gè)對(duì)全網(wǎng)質(zhì)量的評(píng)估和監(jiān)控,這樣才能近乎實(shí)時(shí)地知道用戶的需求出現(xiàn)在什么地方,從而可以有針對(duì)性的、非常靈活快捷地進(jìn)行相應(yīng)的部署。
從具體使用技術(shù)的角度來(lái)說(shuō),國(guó)內(nèi)外的用戶使用視頻會(huì)議的習(xí)慣也有些區(qū)別,國(guó)外可能習(xí)慣用PSTN電話的接入方式,國(guó)內(nèi)則是IP來(lái)接入。國(guó)外很多用戶傾向于使用固定電話或者移動(dòng)電話接入體驗(yàn),因?yàn)閭鹘y(tǒng)電話網(wǎng)絡(luò)PSTN跟我們的IP網(wǎng)絡(luò)是屬于不同的運(yùn)營(yíng)商網(wǎng)絡(luò),他們的運(yùn)營(yíng)商網(wǎng)絡(luò)到我們的網(wǎng)絡(luò)里面要經(jīng)過(guò)很多網(wǎng)關(guān)、路由,針對(duì)這種情況怎么優(yōu)化體驗(yàn)是我們要加以考慮的,這方面的開發(fā)技術(shù)比如說(shuō)頻譜擴(kuò)展,比如PSTN專門的降噪,諸如此類的需求可以有針對(duì)性的加以開發(fā)。
5. 硬件
1+1>2
(Photo by Sergey)
國(guó)內(nèi)有非常不錯(cuò)的硬件制造商,深圳就有很多了。我們和這些硬件制造商合作的時(shí)候,怎么互相之間博采眾長(zhǎng),產(chǎn)生一加一大于二的效果,這里面其實(shí)有很多合作的空間。騰訊會(huì)議在很多場(chǎng)景里面是要跟不同的合作伙伴聯(lián)合打造一個(gè)比較好的會(huì)議體驗(yàn)的,而這些合作伙伴在他們的相關(guān)領(lǐng)域里面,像硬件領(lǐng)域、網(wǎng)絡(luò)領(lǐng)域的未來(lái)發(fā)展是怎樣的,有什么有前景的趨勢(shì),哪些變化在醞釀當(dāng)中、又會(huì)什么時(shí)候發(fā)生,都是我們要持續(xù)關(guān)注的問(wèn)題。比如,我們看到麥克風(fēng)不斷有新技術(shù)材料出來(lái),那相關(guān)制造商的路線規(guī)劃是什么,某些技術(shù)難點(diǎn)突破了以后會(huì)對(duì)視頻會(huì)議云通信的產(chǎn)品有怎樣的影響,這些都需要你擁有很好的前瞻性。
另外,我們一直比較關(guān)注相關(guān)的領(lǐng)域。比如,5G時(shí)代整個(gè)接入網(wǎng)絡(luò)帶寬上去了,那我們就思考當(dāng)接入帶寬不再成為瓶頸以后,可以在哪些用戶體驗(yàn)上做進(jìn)一步的優(yōu)化。
像之前提到的教學(xué)場(chǎng)景,老師們可能有些高品質(zhì)的音頻需要傳輸,不僅僅是語(yǔ)音,還有基于音樂(lè)的特定場(chǎng)景。比如老師給學(xué)生放一段視頻,視頻里面可能不僅僅有對(duì)話,還會(huì)有高品質(zhì)的音樂(lè)。那么對(duì)于音樂(lè)來(lái)講,面臨的挑戰(zhàn)是不一樣的。音樂(lè)的內(nèi)容特征、頻譜、碼率需求,從音質(zhì)體驗(yàn)的角度來(lái)說(shuō)比語(yǔ)音要求要高。
這樣的訴求在3G、4G網(wǎng)絡(luò)視頻會(huì)議下由于帶寬的限制、網(wǎng)絡(luò)的擁塞可能不得不放棄,但在5G的時(shí)候就會(huì)提上日程,要研究如何在新的場(chǎng)景下滿足用戶更多的需求,從而去優(yōu)化他們的體驗(yàn)。
另外,基于AI的技術(shù),我們也看到音頻視頻兩者多模態(tài)可以更好的結(jié)合起來(lái),能夠大大往前走一步,給用戶更好的綜合體驗(yàn)。同時(shí),計(jì)算能力上來(lái)以后,你會(huì)發(fā)現(xiàn)很多事情做起來(lái)受限于當(dāng)時(shí)的設(shè)備,而現(xiàn)在慢慢都成為了可能,我們?cè)谒伎荚趺窗堰@些事情一步一步做起來(lái)。我們現(xiàn)在和硬件廠商的很多合作,已經(jīng)在緊鑼密鼓地開展了。騰訊會(huì)議本身可以提供很好的音視頻處理、傳輸、編解碼技術(shù),我們的硬件合作伙伴也有一些他們專有的硬件上面的特色功能。
第一步,我們之間要先相互打通。直接打通第一步以后,我們要思考怎么把自己的技術(shù)和對(duì)方的優(yōu)勢(shì)結(jié)合,這里面有很多工作可以做。
舉個(gè)例子,用戶的設(shè)備跟我們騰訊會(huì)議軟件,不管是通過(guò)有線網(wǎng)絡(luò)還是USB進(jìn)行連接,以前在用戶設(shè)備上受限于運(yùn)算能力做不到的事情,現(xiàn)在就可以做到了。因?yàn)橥ǔN覀冎v的會(huì)議電話這樣的產(chǎn)品,它的運(yùn)算能力、內(nèi)存總是受限的,很多基于AI的算法做不到。
但是騰訊會(huì)議的APP跑在我們通用的、運(yùn)算能力強(qiáng)大的設(shè)備里面(像電腦)就不存在這樣的限制,尤其是和云結(jié)合起來(lái)后。一旦和硬件廠商打通以后,雙方找到彼此之間的配合點(diǎn),以前做不到的事情現(xiàn)在都成為可能,典型的例子比如會(huì)議內(nèi)容轉(zhuǎn)錄、整理會(huì)議紀(jì)要等等。
像一些傳統(tǒng)的視頻會(huì)議方案提供商,它本身是一個(gè)閉環(huán),它的解決方案里,軟件硬件全都是它自己的,不存在運(yùn)營(yíng)多樣化的挑戰(zhàn)問(wèn)題,因?yàn)槊總€(gè)鏈條它都自己把握,這樣質(zhì)量有保證。但是相對(duì)而言,他們的完整解決方案的價(jià)位也比較高,兼容性也會(huì)是很大的問(wèn)題。
騰訊會(huì)議的話,要跟所有設(shè)備商都可以接入,面臨著保證可靠性、穩(wěn)定性、安全性的挑戰(zhàn),因?yàn)椴煌膹S商的產(chǎn)品要在它的性能范圍之內(nèi)互相協(xié)同,無(wú)縫連接。
在安全性方面,我不是專家,但從開發(fā)SDK的角度來(lái)說(shuō),我們對(duì)于用戶本身的信息肯定是不做收集的。對(duì)于用戶談話,比如交流的具體內(nèi)容,我們也不會(huì)做任何收集,只是用算法對(duì)這些內(nèi)容的統(tǒng)計(jì)信息進(jìn)行收集,包括通話過(guò)程當(dāng)中的質(zhì)量,比如是否失真、嘈雜、有卡頓等等,這些都是從技術(shù)方面統(tǒng)計(jì)的信息。
因?yàn)槲覀冃枰獙?duì)這些技術(shù)指標(biāo)進(jìn)行評(píng)估,比如我發(fā)現(xiàn)你那邊頻繁出現(xiàn)卡頓現(xiàn)象,那么我希望能夠知道你在什么時(shí)候、為什么發(fā)生了卡頓,如果發(fā)生卡頓的原因是技術(shù)網(wǎng)絡(luò)架構(gòu),或者是應(yīng)用本身消耗了太多的CPU導(dǎo)致的,我們就可以更有針對(duì)性地進(jìn)行優(yōu)化,從而給予用戶更好的體驗(yàn)。
6. 問(wèn)題
Everything matters
(Photo by Sergey)
接下來(lái)我們要解決的問(wèn)題,更多的會(huì)是更具挑戰(zhàn)性的多方會(huì)議場(chǎng)景下面的問(wèn)題。因?yàn)楝F(xiàn)在的用戶場(chǎng)景非常多,多樣化場(chǎng)景下,不同的場(chǎng)景里面用戶對(duì)聲音的需求是不一樣的。這就說(shuō)回到用戶場(chǎng)景的問(wèn)題,當(dāng)下的場(chǎng)景相對(duì)以前確實(shí)有很大的變化。以前騰訊會(huì)議的用戶場(chǎng)景沒(méi)有(也沒(méi)有想到)現(xiàn)在這么多?,F(xiàn)在你可以在家里面、在辦公室里面、小型會(huì)議室里面、大型會(huì)議室里面開會(huì),甚至各種直播場(chǎng)景都是以前沒(méi)有想過(guò)的。在各種場(chǎng)景里面,你的架構(gòu)、相應(yīng)的技術(shù)應(yīng)該如何規(guī)劃、配合,在不同的場(chǎng)景里側(cè)重點(diǎn)又是什么,不同的人都有不一樣的理解。
我們這方面做得比較細(xì),要根據(jù)用戶不同的場(chǎng)景去考量。比如開信息傳達(dá)的大會(huì)的場(chǎng)景,對(duì)于這種絕大部分時(shí)間都是信息單向傳輸?shù)那闆r,延遲可能就不是那么重要了,重要的是聲音的可懂度和自然度,要保證用戶在長(zhǎng)時(shí)間傾聽的條件下,避免聽覺疲勞和注意力分散。
而在小規(guī)模小組討論的場(chǎng)景下,大家都是是熟人,交互非常激烈,你一句我一句,這時(shí)候?qū)?shí)時(shí)交互的需求會(huì)非常強(qiáng),需要很低的延時(shí),除了對(duì)于可懂度和語(yǔ)音自然度的正常要求外,對(duì)于聲音的舒適度要求盡可能模仿面對(duì)面的溝通,要求很高。我們會(huì)考慮在這樣的場(chǎng)景下,需要哪些新技術(shù),如何在多種限定條件下權(quán)衡,來(lái)達(dá)到一個(gè)最好的綜合體驗(yàn)和容忍度,。
另外就是基于視頻會(huì)議的主場(chǎng)景,還有哪些衍生的需求,比如會(huì)議內(nèi)容轉(zhuǎn)錄、同聲傳譯,以及和智能音箱的結(jié)合、如何通過(guò)語(yǔ)音助手來(lái)喚醒和交互……這些以前在傳統(tǒng)的視頻會(huì)議產(chǎn)品中見不到的功能,現(xiàn)在隨著相關(guān)市場(chǎng)產(chǎn)品、技術(shù)的成熟,都可以進(jìn)一步融合起來(lái),在協(xié)同辦公這樣的一個(gè)大背景下,共同來(lái)提升效率。
諸如此類,在當(dāng)下和未來(lái),我們都會(huì)碰到不一樣的挑戰(zhàn),你要問(wèn)哪個(gè)最重要,我沒(méi)有辦法回答,因?yàn)橛脩鬉和用戶B的需求對(duì)我來(lái)說(shuō)同樣重要。同時(shí),我們也會(huì)用數(shù)據(jù)來(lái)說(shuō)話,數(shù)據(jù)告訴我們用戶的需求在哪里,我們就去開發(fā)哪里;如果目前還沒(méi)能滿足這部分的需求,那我們就把它丟到map里,以后的每一天都要想辦法去滿足它。
騰訊多媒體實(shí)驗(yàn)室簡(jiǎn)介:
作為騰訊旗下頂尖的音視頻通信和處理研發(fā)團(tuán)隊(duì),騰訊多媒體實(shí)驗(yàn)室專注于實(shí)時(shí)音視頻通信、音視頻編解碼前沿算法研究、音視頻國(guó)際標(biāo)準(zhǔn)、計(jì)算機(jī)視覺圖像處理、端到端音視頻質(zhì)量評(píng)測(cè)。在實(shí)時(shí)音視頻通信和處理技術(shù)、音視頻國(guó)際標(biāo)準(zhǔn)等領(lǐng)域積累了完整的解決方案和領(lǐng)先的技術(shù)水平。
本文來(lái)源于: LiveVideoStack