這是發(fā)生在5月23日云棲大會(huì)武漢峰會(huì)上的一幕。鄢志杰是阿里巴巴機(jī)器智能技術(shù)實(shí)驗(yàn)室語(yǔ)音交互首席科學(xué)家。人類(lèi)咖啡師在聽(tīng)了鄢志杰第二次復(fù)述后完成了訂單,用時(shí)2分37秒,而機(jī)器只用了49秒。
“今天我們將機(jī)器對(duì)人類(lèi)口語(yǔ)的理解能力帶到了新的高度”,鄢志杰說(shuō),這種交互方式完全打破了”語(yǔ)音喚醒+語(yǔ)音指令”傳統(tǒng)命令式交互方式,我們首創(chuàng)的流式多意圖口語(yǔ)理解引擎,極大地提升了對(duì)人類(lèi)隨意、自然的口語(yǔ)表達(dá)的理解力,能夠做到免喚醒的自然的人機(jī)交流式的語(yǔ)音交互。
上述點(diǎn)單環(huán)節(jié)包含了修改、刪除、加單等多輪對(duì)話,在整個(gè)交流過(guò)程中,顧客不需要說(shuō)”hi,點(diǎn)單機(jī)“之類(lèi)呆板的喚醒詞,可直接下單,更符合人與人的自然對(duì)話。
據(jù)鄢志杰介紹,這些模塊并非簡(jiǎn)單級(jí)聯(lián),而是深度融合而形成了多模態(tài)語(yǔ)音交互方案,包括是公共場(chǎng)所強(qiáng)噪聲環(huán)境下的信號(hào)處理和語(yǔ)音識(shí)別、視頻識(shí)別與面部識(shí)別、場(chǎng)景感知等多模態(tài)融合的感知智能,同時(shí)更融合了流式對(duì)話、多輪多意圖口語(yǔ)理解、業(yè)務(wù)知識(shí)圖譜自適應(yīng)等認(rèn)知智能。
據(jù)了解,阿里云這項(xiàng)解決方案除了可以做收銀員之外,還能在地鐵賣(mài)票。目前,上海地鐵已經(jīng)部署了這一技術(shù)。乘客直接說(shuō)出目的地,售票機(jī)便可選擇合適的站點(diǎn)和路線。這對(duì)于初到上海的乘客尤其幫助巨大,面對(duì)十幾條線路三百多個(gè)站點(diǎn)誰(shuí)都會(huì)懵。測(cè)試數(shù)據(jù)顯示,普通買(mǎi)票耗時(shí)往往超過(guò)30秒,而語(yǔ)音購(gòu)票全程只需要10秒左右。
鄢志杰介紹,依托于業(yè)務(wù)知識(shí)圖譜自適應(yīng)的技術(shù),這套方案能夠快速的在更多場(chǎng)景落地,目前已經(jīng)落地的場(chǎng)景還有車(chē)內(nèi)語(yǔ)音助手、電話智能客服、可免遙控器操作的遠(yuǎn)場(chǎng)語(yǔ)音電視、可精準(zhǔn)區(qū)分多人對(duì)話的智能麥克風(fēng)等?!拔磥?lái)我們希望實(shí)現(xiàn)公眾空間里的萬(wàn)物皆能對(duì)話?!?/p>
阿里云產(chǎn)品總監(jiān)何云飛說(shuō),阿里云去年提供出了”產(chǎn)業(yè)AI“的戰(zhàn)略,呼吁行業(yè)將AI技術(shù)沉淀到產(chǎn)業(yè)中,不要成為炒作股價(jià)的營(yíng)銷(xiāo)詞匯。無(wú)論是咖啡點(diǎn)餐還是地鐵售票,我們都是讓AI在真實(shí)的產(chǎn)業(yè)場(chǎng)景下發(fā)揮價(jià)值。這比那些在實(shí)驗(yàn)室里炫技的AI更有意義,更具生命力。
據(jù)了解,除了解決方案之外阿里云還推出了ET大腦,包含ET城市大腦、ET工業(yè)大腦、ET醫(yī)療大腦等。目前,ET工業(yè)大腦已經(jīng)幫助工業(yè)制造企業(yè)創(chuàng)造利潤(rùn)數(shù)十億,ET城市大腦在杭州、澳門(mén)、吉隆坡等城市落地,承擔(dān)著交通優(yōu)化、平安城市等職責(zé)。