百度和其他公司之所以能夠在ImageNet測(cè)試中取得佳績(jī),依靠的是一種名為“深度學(xué)習(xí)”的算法。這種算法近期才從學(xué)術(shù)界引入到硅谷,但已開始對(duì)人們?nèi)粘I町a(chǎn)生影響。兩年前,谷歌使用深度學(xué)習(xí)算法來(lái)大幅提升Android語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率。
報(bào)道稱,百度正使用一種更大型超級(jí)計(jì)算機(jī)對(duì)1.4萬(wàn)個(gè)小時(shí)的語(yǔ)音數(shù)據(jù)進(jìn)行分析,旨在提升百度在中文和英文語(yǔ)音識(shí)別上的準(zhǔn)確率。
“對(duì)于整個(gè)行業(yè)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得的所有進(jìn)步,我感到十分激動(dòng),”百度首席科學(xué)家吳恩達(dá)表示,“計(jì)算機(jī)能夠顯著提升圖像理解的準(zhǔn)確率,做這么多它們?cè)谝荒昵斑€無(wú)法做的事情。”
百度計(jì)劃在未來(lái)18個(gè)月開發(fā)一款更大型計(jì)算機(jī),每秒可執(zhí)行1千萬(wàn)億次(quadrillion)運(yùn)算,這一運(yùn)算能力足以讓該計(jì)算機(jī)排進(jìn)全球超級(jí)計(jì)算機(jī)性能榜的前十,盡管其計(jì)算復(fù)雜度不及世界頂尖超級(jí)計(jì)算機(jī)。
吳恩達(dá)稱:“有趣的是,排在ImageNet圖像識(shí)別測(cè)試前三的計(jì)算機(jī)都來(lái)自擁有重大計(jì)算資源的大型科技公司。”他表示,百度利用從中國(guó)及其硅谷實(shí)驗(yàn)室獲取的超級(jí)計(jì)算專業(yè)知識(shí)來(lái)開發(fā)Minwa。
Facebook人工智能項(xiàng)目負(fù)責(zé)人、著名人工智能研究員Yann LeCun也已表示,F(xiàn)acebook正在部署一流計(jì)算資源,但他不愿透露Facebook計(jì)算機(jī)系統(tǒng)的規(guī)模。
微軟首次超越人類識(shí)別能力
一直以來(lái),計(jì)算科學(xué)家一直在為建立世界上最精確的計(jì)算機(jī)視覺(jué)系統(tǒng)孜孜不倦地努力著,但取得進(jìn)展的過(guò)程卻一直如馬拉松競(jìng)賽般漫長(zhǎng)而艱辛。
早些時(shí)候,微軟亞洲研究院視覺(jué)計(jì)算組基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的計(jì)算機(jī)視覺(jué)系統(tǒng),在ImageNet 1000挑戰(zhàn)中首次超越了人類進(jìn)行對(duì)象識(shí)別分類的能力,將錯(cuò)誤率降低至4.94%。此前同樣的實(shí)驗(yàn)中,人眼辨識(shí)的錯(cuò)誤率大概為5.1%。這個(gè)數(shù)據(jù)集包含約120萬(wàn)張訓(xùn)練圖像、5萬(wàn)張驗(yàn)證圖像和10萬(wàn)張測(cè)試圖像,分為1000個(gè)不同的類別。
該研究團(tuán)隊(duì)由微軟亞洲研究院研究員孫劍、何愷明以及來(lái)自西安交通大學(xué)和中國(guó)科學(xué)技術(shù)大學(xué)的實(shí)習(xí)生張祥雨和任少卿組成。孫劍已在微軟亞洲研究院工作了十二年,現(xiàn)任視覺(jué)計(jì)算組首席研究員。
孫劍將團(tuán)隊(duì)取得的最新成果歸功于以下兩項(xiàng)關(guān)鍵突破:一是開發(fā)了適應(yīng)性更強(qiáng)的非線性神經(jīng)元,二是改進(jìn)訓(xùn)練算法,使得神經(jīng)網(wǎng)絡(luò)更為強(qiáng)大。微軟研究員在論文中指出,修正神經(jīng)元 (rectifier neuron)是近期將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于計(jì)算機(jī)視覺(jué)挑戰(zhàn)時(shí)取得成功的關(guān)鍵要素之一。
研究團(tuán)隊(duì)成員也強(qiáng)調(diào),計(jì)算機(jī)視覺(jué)目前從根本上仍無(wú)法與人類視覺(jué)相比。計(jì)算機(jī)系統(tǒng)在識(shí)別物體、理解圖像上下文及場(chǎng)景高級(jí)信息等領(lǐng)域仍面臨諸多挑戰(zhàn)。
“人類可以毫不費(fèi)力地區(qū)分出一只羊和一頭牛。但計(jì)算機(jī)在執(zhí)行這些簡(jiǎn)單任務(wù)時(shí)卻不盡完美,”孫劍解釋道。“但是,當(dāng)涉及到不同品種的羊的區(qū)分時(shí),計(jì)算機(jī)可超越人類。通過(guò)訓(xùn)練,計(jì)算機(jī)可觀察圖像的細(xì)節(jié)、紋理、形狀及環(huán)境,并發(fā)現(xiàn)人類無(wú)法察覺(jué)出的區(qū)別。”
“我們的目標(biāo)是在眾多應(yīng)用上開發(fā)出能與人類視覺(jué)媲美,甚至比人類更準(zhǔn)確的計(jì)算機(jī)視覺(jué)系統(tǒng),”孫劍說(shuō)道。“如要實(shí)現(xiàn)這一目標(biāo),我們需要更多的訓(xùn)練數(shù)據(jù)和更加真實(shí)的測(cè)試場(chǎng)景。我們?cè)诒貞?yīng)、OneDrive和其他服務(wù)平臺(tái)上的工作將幫助我們進(jìn)一步改善算法的魯棒性。”
微軟研究團(tuán)隊(duì)的工作并不僅僅局限于基礎(chǔ)研究,其多項(xiàng)成果已被應(yīng)用到微軟的產(chǎn)品和服務(wù)中,包括必應(yīng)圖片搜索及微軟云存儲(chǔ)解決方案OneDrive。在OneDrive近期一篇的一片官方博文中,微軟OneDrive項(xiàng)目經(jīng)理Douglas Pearce介紹了 OneDrive自動(dòng)識(shí)別照片內(nèi)容的功能。
“OneDrive會(huì)自動(dòng)為用戶上傳的照片創(chuàng)建標(biāo)簽,比如人、狗、沙灘、落日等等,使用戶借助標(biāo)簽?zāi)軌蚋p松地尋找到自己的圖片。有了這項(xiàng)功能,我們向演示項(xiàng)目中添加照片、與家人重溫特殊回憶,或與Facebook好友分享重要時(shí)刻就變得輕而易舉。”Pearce如是說(shuō)。
2010年,來(lái)自斯坦福大學(xué)、普林斯頓大學(xué)及哥倫比亞大學(xué)的科學(xué)家們啟動(dòng)大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(Large Scale Visual Recognition Challenge),推動(dòng)了計(jì)算機(jī)視覺(jué)識(shí)別挑戰(zhàn)的持續(xù)發(fā)展??萍夹袠I(yè)知名記者John Markoff于2014年8月在《紐約時(shí)報(bào)》上刊登文章指出,到2014年計(jì)算機(jī)識(shí)別挑戰(zhàn)的目標(biāo)識(shí)別準(zhǔn)確率幾乎提升了一倍,圖像分類錯(cuò)誤率也減少了一半。