以下為演講實(shí)錄:
各位專家早上好,我今天要講的題目就是大數(shù)據(jù)與人工智能研究的思考。關(guān)于大數(shù)據(jù),這里有兩個(gè)概念,一個(gè)是數(shù)據(jù)大?,F(xiàn)在大家把這個(gè)焦點(diǎn)都集中在數(shù)據(jù)大,不管現(xiàn)在講3語義4語義講好多語義,這個(gè)語義就是容量大,大確實(shí)是問題,但是我們說大數(shù)據(jù)的處理問題是一個(gè)老問題,這個(gè)老問題比如說我們?cè)跉庀髷?shù)據(jù)的處理里頭我們也遇到數(shù)據(jù)量也很大,那里頭也有各種不同的有圖象,也有文本,也有動(dòng)態(tài)的情況所以變化很大,所以應(yīng)該說數(shù)據(jù)大不是網(wǎng)絡(luò)時(shí)候才有的,無非是現(xiàn)在更加嚴(yán)重一些。解決數(shù)據(jù)大的問題,我們有很多辦法,這里也是現(xiàn)在大家都提到,比如首先遇到的數(shù)據(jù)大的計(jì)算復(fù)雜度。
如果我們過去說多象計(jì)量復(fù)雜度就可以了,可是在大數(shù)據(jù)情況下面算法都有問題,如何提高算法的速度,如何并行處理等等,從結(jié)算上處理它,這個(gè)大家都講得很多了,我就不多講。我現(xiàn)在重點(diǎn)講這個(gè)數(shù)據(jù),就是大數(shù)據(jù),而不是重點(diǎn)在數(shù)據(jù)大。也就是說我們要看一下網(wǎng)絡(luò)的數(shù)據(jù)跟以往的數(shù)據(jù)有什么不同?這里不同就是這里講的,就是這個(gè)數(shù)據(jù)有用的很少,雖然數(shù)據(jù)很多,但是有用的只有30%、40%不到,好用的更不多,經(jīng)過標(biāo)志的好用,也就是說有用的30、40%,好用的中間只有7%,經(jīng)過大家清洗的不到1%。這和我們以往的數(shù)據(jù)不大一樣,比如說氣象數(shù)據(jù)盡管有噪聲問題,但是從來沒有氣象數(shù)據(jù)虛假的沒有用的、造謠的,但是在網(wǎng)絡(luò)里頭這種數(shù)據(jù)就很不一樣了。
還有一個(gè)與以往數(shù)據(jù)不同的,這些數(shù)據(jù)跟用戶跟社會(huì)關(guān)聯(lián)起來,也就是說這種數(shù)據(jù)是在社會(huì)中間,在人與人中間不斷的傳播,因此它所造成的影響,它所造成的效果是跟以往的數(shù)據(jù)不一樣的。我們看一看,這樣的數(shù)據(jù)會(huì)引起什么樣的問題?換句話講,我們過去考慮比較多的是形式、規(guī)模這個(gè)維度來考慮大數(shù)據(jù),我們說它形式上很復(fù)雜,我們說它數(shù)量很大,可是我們沒有考慮到另外一個(gè)維度,網(wǎng)絡(luò)數(shù)據(jù)我們涉及了內(nèi)容。
下面我們講到,我們看到網(wǎng)絡(luò)的數(shù)據(jù)為什么還有這個(gè)維度?語義的維度?內(nèi)容的維度?現(xiàn)在我們先看一下人機(jī)交互的變化。我們說在當(dāng)今時(shí)代我們?cè)趺磥碛糜?jì)算機(jī)呢?人機(jī)的截面又是怎么樣呢?我們實(shí)際上在用計(jì)算機(jī)的時(shí)候只是把程序輸出去,計(jì)算機(jī)根據(jù)程序來完成這個(gè)計(jì)算,然后把結(jié)果輸給用戶。計(jì)算機(jī)用不著了解我在干什么,這輸進(jìn)來的數(shù)據(jù)是什么行業(yè),因?yàn)樗械臄?shù)據(jù)在計(jì)算機(jī)存在的語音和語義,并沒有碼,計(jì)算機(jī)并沒有了解到它的內(nèi)容??墒堑骄W(wǎng)絡(luò)時(shí)代變成計(jì)算機(jī)人機(jī)網(wǎng)絡(luò),人機(jī)界面起到非常大的變化。也就是說人們把自己的需求用文本用圖象用語音輸入到計(jì)算機(jī)里面,計(jì)算機(jī)必須得通過文本、圖象了解用戶意圖情況,然后根據(jù)用戶意圖我輸出用戶需要的信息,從這里我們看到這個(gè)時(shí)候信息的內(nèi)容已經(jīng)包含在計(jì)算機(jī)里頭要考慮的。
我們?cè)诋?dāng)今時(shí)代計(jì)算機(jī)人機(jī)界面在底下,內(nèi)容語義根本與計(jì)算機(jī)無關(guān),但是在網(wǎng)絡(luò)時(shí)代計(jì)算機(jī)必須要涉及到信息的內(nèi)容。我們看一下,計(jì)算機(jī)能了解信息跟內(nèi)容嗎?我們做一個(gè)非常簡(jiǎn)單的圖象、圖片的檢索,這個(gè)是圖片,我們?cè)贕oogle輸進(jìn)一個(gè)關(guān)鍵字,叫做白馬,我們看到計(jì)算機(jī)輸出很多白馬,但是也輸出很多跟白馬毫無關(guān)系的圖片,比如說這兩個(gè)女人。什么原因呢?我們看到因?yàn)閳D片太多了,因此才沒找到白馬。我們至少說這圖片多是一個(gè)原因,但絕對(duì)不是第一原因。第一原因是什么?因?yàn)橛?jì)算機(jī)不知道什么叫白馬,換句話講,我們沒法告訴計(jì)算機(jī)什么叫白馬,也就是我們沒法告訴計(jì)算機(jī)白馬這個(gè)語義,因?yàn)榇蠹叶贾溃€能夠根據(jù)關(guān)鍵字來找,為什么這張圖片找出來?因?yàn)檫@兩個(gè)女人在海邊,這個(gè)海邊是白馬海濱,因此把它找出來。所以因此說不能準(zhǔn)確地找到我們所需要的圖片第一原因不是因?yàn)閳D片太多,而是由于計(jì)算機(jī)不懂你要找什么。
我們也可以更進(jìn)一步看一下,如果我們?cè)诎俣壬洗蜻@個(gè)碼和數(shù)這兩個(gè)關(guān)鍵詞,我們意思是想找有馬有樹的圖,這個(gè)我們看出來我們找出來這些圖絕大部分跟馬和樹沒關(guān)系。原因在哪里?主要的原因也不是因?yàn)閳D片太多,他沒有找到馬和樹,而是由于它不知道你找什么。為什么找出來這些馬和樹沒有關(guān)系的圖呢?因?yàn)槲也榱艘幌?,這個(gè)我們國(guó)家有一個(gè)鎮(zhèn)叫馬樹鎮(zhèn),因此把馬樹鎮(zhèn)里頭馬蜂窩都找出來。網(wǎng)絡(luò)不是數(shù)據(jù)多,而是由于計(jì)算機(jī)不了解語義。我們看到計(jì)算機(jī)系統(tǒng),計(jì)算機(jī)不僅僅是需要了解用戶意圖,同時(shí)要了解用戶的興趣等等。這是語義。我們了解網(wǎng)絡(luò)計(jì)算機(jī)新的需求,要了解用戶意圖,要了解用戶的興趣和體驗(yàn)。
在這里面我們要做到兩個(gè)重要的內(nèi)容,一個(gè)內(nèi)容就是把怎么樣出的數(shù)據(jù),剛剛講有很多沒用的不好的數(shù)據(jù)把它變成為知識(shí),或者說我們理解這個(gè)數(shù)據(jù)的內(nèi)容,信息的內(nèi)容,變成網(wǎng)絡(luò)時(shí)代信息處理的一個(gè)新需求。比如說計(jì)算機(jī)又從文本中間、圖象中間、語音中間去了解用戶的意圖,我們說理解,這個(gè)理解實(shí)際上三個(gè)層面的問題。比如說數(shù)據(jù)文本叫做這屋很冷,或者用另外一種表達(dá)方式,首先計(jì)算機(jī)得了解這句話什么意思,這叫自然語義,它說的是什么?說這屋很冷。這還不夠,他輸這個(gè)用意何在,他說這個(gè)屋很冷,是不是提醒主人要把這個(gè)溫度調(diào)高一點(diǎn)。還有一層意思他說這句話是什么含義?是贊同還是不贊同他的說法等等。所以我們因此提供一條網(wǎng)絡(luò)信息,網(wǎng)絡(luò)至少需要了解這三層的意思,就是在網(wǎng)絡(luò)里頭往往都是很需要的。所以在過去計(jì)算機(jī)信息處理里頭沒有這個(gè)要求,這就是我們現(xiàn)在傳統(tǒng)信息面臨的最根本性的挑戰(zhàn)。
我們現(xiàn)在要回答傳統(tǒng)的信息能不能解決信息處理它的理論它的方法,能不能解決剛才的問題?我們回答說很難。這就是現(xiàn)在網(wǎng)絡(luò)處理信息遇到根本的困難。為什么很難?我們所有的信息方法是建立在語義無關(guān)假設(shè)上,不管是通信理論、控制理論或者信息處理理論,當(dāng)做這個(gè)理論的時(shí)候它首先說出我這個(gè)理論是跟語義無關(guān)的,這就是我們這里看到新興論的三種,它在信息論里頭,信息理論有一句話說我這里的問題是跟語義沒有關(guān)系。也就是說你在傳統(tǒng)理論里頭必須把信息內(nèi)容抽掉,這就是所有信息理論建立的依據(jù)。因?yàn)椴蛔鲞@樣的抽象你不可能建立一般的內(nèi)容,必須把底層內(nèi)容抽掉。好了,我們現(xiàn)在要和無關(guān)的信息處理方法能不能處理信息的內(nèi)容,就是這么一個(gè)問題。
我們說過去我們用傳統(tǒng)的信息理論來解決圖象、文本處理里頭沒有遇到的問題,為什么在當(dāng)今時(shí)候沒有這個(gè)問題?我們做的詞處理,做的圖象壓縮和語音去噪等等都是跟詞組有關(guān)系,跟內(nèi)容沒有關(guān)系。所以過去沒有什么困難,到了網(wǎng)絡(luò)時(shí)代困難產(chǎn)生了。也就是說我們輸入信息送到X出去,對(duì)方收到了,閱讀者或者接受者,這個(gè)時(shí)候機(jī)器收到了,沒有誤差。現(xiàn)在問題是我們從X機(jī)器能不能了解到X背后說的是什么嗎?傳統(tǒng)的信息處理解決不了這個(gè)問題??墒俏覀儸F(xiàn)在還是用傳統(tǒng)信息方法來做這個(gè)問題,做網(wǎng)絡(luò)上的問題,做網(wǎng)絡(luò)上的信息處理,我們現(xiàn)在是怎么做的?是這么做的,我們下面提出幾個(gè)挑戰(zhàn)性的問題,機(jī)器能否處理語義,機(jī)器能否處理語義,機(jī)器傳統(tǒng)的語義如何處理。這是我剛才說的。
剛才說傳統(tǒng)信息處理直接輸入到語義里面去,它是怎么做?它是把X映射到詞空間,或者圖象的特征里面,然后試圖找到這個(gè)特征中間到語義的映射。我們又做這樣的設(shè)置,問題出來了,特征空間到語義空間是否存在一對(duì)一的映射?如果存在,如何去找?也就是說我們把圖象和文本或者語音也好,我們都叫它數(shù)據(jù),到計(jì)算機(jī)里頭他們都是零和一一和零,我們要從這個(gè)零和一一和零里頭找出來零和一是哪個(gè)概念,它背后是什么東西,要找到這個(gè)映射?也就是說這堆零和一我們叫馬,這堆零和一叫做牛,非常遺憾,這個(gè)一般情況映射不存在。這就是人工,也就是說從底層的數(shù)據(jù)時(shí)代詞的組合,從顏色從紋理從視頻,我們沒法找到它的文本的含義,去識(shí)別這個(gè)圖象代表什么,或者識(shí)別這個(gè)語音。因?yàn)檫@個(gè)距離太遠(yuǎn)。如果是這樣的話,我們現(xiàn)在不是還在做嗎?這是不幸的。但是有幸的是這種映射在特定數(shù)據(jù)處理之下在使用合理的方法這個(gè)映射是存在的。所以這個(gè)方法非常奇妙,如果這個(gè)映射不存在我們就沒有研究工作可做了。恰恰相反,也就是說它只在特定的條件用特定的方法它存在,這就是我們所有現(xiàn)在在搞文本機(jī)器翻譯也好,我們搞圖象識(shí)別也好,搞語音識(shí)別也好,都是在這個(gè)前提下面做的。所以我們每當(dāng)看到人家輸出這個(gè)結(jié)果的時(shí)候,我們首先就是要問你是在什么樣的數(shù)據(jù)庫(kù)下面做出來的。
所以說你說你這個(gè)方法好,我們就要你是在什么樣的條件下做出來的好和壞?所以這個(gè)是必須要知道的,就是我們現(xiàn)在只能做在特定的條件下面我們可以把這個(gè)工作做好。這個(gè)是圖象,語音等等我們現(xiàn)在怎么用,現(xiàn)在大家經(jīng)常聽到機(jī)器學(xué)習(xí),深度學(xué)習(xí)就是用這個(gè)方法訓(xùn)練它,然后再獨(dú)立開,對(duì)沒有見過的數(shù)據(jù)對(duì)它進(jìn)行分類,這是現(xiàn)在的辦法。我們現(xiàn)在看一下,人臉識(shí)別現(xiàn)在可以做得不錯(cuò),我們現(xiàn)在說你這個(gè)人臉識(shí)別做的不錯(cuò)是在什么樣的庫(kù)情況下做的呢?如果說我們?nèi)四槑?kù)是這個(gè)樣子,我們用象素來表述它,我們最后做的結(jié)果是這樣。你看,這張圖有70%是噪聲,我們?nèi)丝雌饋砜床灰娛鞘裁礀|西,但是計(jì)算機(jī)居然可以識(shí)別出來他是張三。而且我們從那邊紅色的圖可以看出來,既使這個(gè)噪聲50%、60%這個(gè)圖這樣,它的識(shí)別率是多少呢?百分之百。
意思就是說在特定條件下面你可以做得效果非常好,什么特定條件下?剛剛為什么圖象識(shí)別做得那么好?大家看到它的抗干擾能力,大家看一看,為什么做這么好?因?yàn)槲覀冇玫膱D象這上頭往上翻有三個(gè)形容詞,這個(gè)圖象庫(kù)經(jīng)過規(guī)格化,大是一樣,對(duì)齊的,人臉沒有歪,正面圖象。正由于這三個(gè)限制詞,它的圖片是規(guī)格化的,是對(duì)齊的,而且是正面人臉,因此它的識(shí)別率會(huì)這么高。如果我們把這個(gè)圖象變成沒有規(guī)格化,大小不一,不僅有正面圖象而且也有側(cè)面圖象,有一定角度的圖象,這樣我們做出來的結(jié)果就會(huì)比這個(gè)差,這就是目前計(jì)算機(jī)做的人臉識(shí)別,就是剛才說的我們必須得在一定的圖片下面進(jìn)行比較,你這個(gè)方法好和不好,大家必須得在同樣的數(shù)據(jù)庫(kù)下面做實(shí)驗(yàn)。
我們傳統(tǒng)的信息處理是這么來處理問題的,我們現(xiàn)在說人工智能怎么做?我們剛才說人工智能就像直接去處理語義,這就是人工智能的一個(gè)重大的試探。這個(gè)試探的結(jié)果是根據(jù)這么一個(gè)假設(shè)來做的。我們說傳統(tǒng)的信息處理也有一個(gè)假設(shè),叫做語義觀察學(xué),人工智能是在什么情況下做呢,它是認(rèn)為物理是充分的必要條件,大腦和計(jì)算機(jī)都是物理符號(hào)系統(tǒng),這就是我們所謂著名的PSS假設(shè)。人腦和計(jì)算機(jī)都是物理符號(hào)系統(tǒng),我們就有可能用計(jì)算機(jī)來模擬人腦,這是人工智能幾個(gè)創(chuàng)始人提出來的主張,這個(gè)主張我們應(yīng)該說人工智能里頭早期的工作就是在這個(gè)主張下面做的。當(dāng)然這個(gè)主張也有人反對(duì),就是說不能把人腦的所有的過程都看成是符號(hào)處理,但是沒有關(guān)系,這個(gè)工作還是在實(shí)踐上面取得了很多進(jìn)展。
我們說這就是在計(jì)算機(jī)應(yīng)用的所謂符號(hào)模型,但是這個(gè)模型有它的局限性。我們說這個(gè)模型它可以模擬深思熟慮的行為,可以用來做問題的處理,可以做問題診斷和決策,我們把決策和診斷過程用符號(hào)系統(tǒng)處理,這有成功也有不成功的,最主要的成功就是用這套方法來搞模式識(shí)別,來搞感知來搞語音識(shí)別行不通。這就是后來提出來的多層神經(jīng)網(wǎng)絡(luò),或者最早叫機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),現(xiàn)在多層神經(jīng)網(wǎng)絡(luò)就是深度學(xué)習(xí)。
也就是說我們固然可以用知識(shí)推動(dòng)的方法來解決人類深思熟慮的行為,像推理、診斷、規(guī)劃這類,但是這類方法很難用到感知處理去做,而感知處理現(xiàn)在大家用一種多層神經(jīng)網(wǎng)絡(luò)方法來做這個(gè)事情,這個(gè)事情基本上是從下面兩個(gè)假設(shè)出發(fā)來做的,這個(gè)做的效果就是這樣。這就是我們現(xiàn)在用的多層神經(jīng)網(wǎng)絡(luò)來做的,這個(gè)用神經(jīng)網(wǎng)絡(luò)做的效果挺好,用到語音也好,用到圖象也好,它的識(shí)別率比傳統(tǒng)的方法提高了兩位數(shù)的百分點(diǎn),提高了百分之十幾到百分之二十,這是非常了不起的。因?yàn)榇蠹抑捞岣?%都需要好多年的努力,但是僅僅因?yàn)檫@個(gè)方法就提高1%個(gè)點(diǎn),這個(gè)很難。目前來講這個(gè)也做的比較多。
但是我要給大家提醒一下這個(gè)方法也不是完美的,也不是大家想象那樣就完全解決了問題的。那時(shí)候吳恩達(dá)教授在我們學(xué)校講的時(shí)候我就跟他開玩笑我說你為什么不說前面的結(jié)果,為什么不說后面的結(jié)果,也就是說兩萬人臉識(shí)別80%幾,為什么對(duì)其他兩萬個(gè)貓啊其他東西你的識(shí)別率只有百分之十幾,幾乎不認(rèn)識(shí)?我們對(duì)這兩萬個(gè)人都能認(rèn)識(shí),你計(jì)算機(jī)訓(xùn)練了半天識(shí)別率只有10%幾,當(dāng)然比傳統(tǒng)的方法提高很多。有人說超過多少,那是在一定條件下。所以我剛才說我們講機(jī)器性能的時(shí)候必須要講它在什么條件下做到的。我們說概率方法也有局限性,就是統(tǒng)計(jì)關(guān)系,也有誤差,這個(gè)誤差很大。大家注意用統(tǒng)計(jì)方法做肯定有錯(cuò)誤。這個(gè)只是在概念意義上正確,大家注意一下這個(gè)公式,這個(gè)公式表示什么意思呢?到樣板區(qū)無窮的時(shí)候它的錯(cuò)誤概率不是零,而且它只是說大錯(cuò)誤的概率會(huì)不斷減小,大家要注意這個(gè)。換句話講這個(gè)方法一定會(huì)算錯(cuò)。
所以今年3月份有發(fā)表的一個(gè)智能的問題方法是跟今天的方法一樣。今天的方法是把傳統(tǒng)信息處理和人工智能加起來,所謂傳統(tǒng)信息處理是概率統(tǒng)計(jì)方法,而人工智能就是知識(shí)驅(qū)動(dòng)方法,前面是數(shù)據(jù)驅(qū)動(dòng)方法,所以經(jīng)過解決大數(shù)據(jù)處理的問題,要解決語義問題必須要把這兩個(gè)方法結(jié)合起來,就是把人工智能和傳統(tǒng)信息處理結(jié)合起來。這個(gè)就是我們現(xiàn)在從計(jì)算方式角度來講,就是傳統(tǒng)的信息處理它處理的力度極小,人工智能處理力度最大,這兩個(gè)都有它的缺陷和優(yōu)勢(shì),我們用的辦法是多圖處理,但人腦子里頭是多部處理。因?yàn)槲以谶@方面也做了一些工作,大家有興趣可以看一下。謝謝大家!