以下為演講實錄:
各位來賓,各位專家,早上好!
我們這個會議已經進行了三天了,大家前面已經接觸了很多和智慧城市有關的一些演講,我這個演講里面主要集中在多媒體大數(shù)據(jù),在智慧城市里有什么瓶頸,需要做什么技術上的儲備和處理。今天我們這個是云計算大會,云計算、大數(shù)據(jù),這是這幾年非常熱的熱點問題,為了呼應這個問題,大家知道計算機領域的圖靈獎相當于計算機領域的諾貝爾獎,今年的圖靈獎是準備授給這位先生,Michael stonebraker,如果是做數(shù)據(jù)庫人都知道,他是數(shù)據(jù)庫領域最辛勤的耕耘者之一,很多數(shù)據(jù)庫的原形基本上都是在他的推動下成功的。如果講到數(shù)據(jù)庫的原老有兩個,一個是他的,一個是IBM的數(shù)據(jù)庫,這兩個是最原始的。所以把這個獎頒給他,是從一個角度認證了現(xiàn)在大數(shù)據(jù)非常重要,大數(shù)據(jù)里面的核心基礎也非常重要。
我今天主要講圍繞城市的多媒體大數(shù)據(jù)講四個方面的問題,一個是核心要義。在這個下面有三個支撐,其中前兩個,一個是城市大數(shù)據(jù)的傳感網(wǎng)絡,一個是數(shù)據(jù)中心,還有一個決策中心,因為它已經脫離了技術范疇,我就不展開,最后是一個結束語。
首先,跟大家分享一下關于智慧城市的核心要義。很多專家經常把智慧城市理解為城市信息化,更多的領導也是把智慧城市理解為怎么樣讓他領導的城市完全信息化,裝上計算機,裝上很多傳感器就可以了。實際上,智慧城市它并不是一個簡單的城市的信息化,它的含義要大于這個。這里面是一個生態(tài)系統(tǒng),一個復雜的信息生態(tài)系統(tǒng)。這個生態(tài)系統(tǒng)包括三個環(huán)節(jié),第一個環(huán)節(jié)就像我們人的視聽、觸覺等等感知,首先它能感知這些大數(shù)據(jù),城市信息的感知,我們叫感知網(wǎng)絡。第二個核心的生態(tài)部分,就是要有一個數(shù)據(jù)中心,有一個計算能力超強的數(shù)據(jù)中心,能把感知到的數(shù)據(jù)對它進行處理。第三個要義是往往被忽略的,就是要有一個決策中心。當然現(xiàn)在的決策往往是在前,為什么我專門講到智慧城市要遠遠大于城市的信息化呢。以前的城市的信息化大多數(shù)是領導先定下來一個決策,先說我要做一個什么,我要有一個什么宏觀規(guī)劃,然后你給我去做,然后所有的系統(tǒng)是按照他前期響應的目標向那里逼近,這個思路是錯的。決策應該在后來,就像我們人一樣,當然我們人可以自上而下的決策,但是人更多的決策是反過來的,他對周圍環(huán)境有一個感知,然后經過大腦的處理,最后決定我這件事情怎么做,這是一個比較正常的環(huán)節(jié)。所以我們現(xiàn)在的智慧城市或者智能城市,應該按照和人比較類似的思路去對它進行管理和控制,這三個部分,特別是第三部分對于今后城市的管理是一個很有挑戰(zhàn)的事情。
這樣一個智慧城市要想把它做好,有很多案例可以說明,時間關系我不能展開太多,我就簡單舉兩個例子。一個是我們北京天通苑的例子,天通苑是1999年建設的大型社區(qū),8平方公里,現(xiàn)在住了90多萬人,這些人在這個集中的區(qū)域里住,很顯然會遇到一個問題就是交通問題,這些人早上上班,晚上要回到住的地方。很容易想象,搞不好就會出現(xiàn)擁堵,事實上確實容易出現(xiàn)擁堵,天通苑的人上班,交通是一個最大的問題,到底是哪里堵。原來的分析可能說天通苑,因為它是在東北角,住在那里的人很多可能是到CBD區(qū)域上班,估計那條線是比較堵的,所以專門有一條線是往CBD通的。但現(xiàn)在的大數(shù)據(jù)告訴我們,天通苑最主要的交通擁堵不是在那里,發(fā)生在哪里呢?大家看圖上給的數(shù)據(jù),現(xiàn)在天通苑最大兩個目的地,第一個是上地,第二個是中關村。最多的是去上地上班,恰恰在天通苑設計的時候是沒有直通車的,所以就要換乘?,F(xiàn)在如果想從天通苑到中關村,有一條5號線,另外有一條是13號線,是那條黃的。你要去上地,盡管從天通苑數(shù)起來沒有幾站,但是中間必須要換車,換車就是非常糟糕的一個體驗。所以很多人寧可選坐公交車不坐地鐵,因為換乘是非常糟糕的體驗。主要的交通壓力就到地面了,所以從天通苑到上地到中關村交通是非常擁堵的,開始設計的時候完全沒有想到。
看到這個數(shù)據(jù)我們也給北京市有關部門建議,說你們難道不可以修一條直通車,從天通苑第一站在上地,第二站在中關村,這可以把20%的壓力一下緩解掉了,因為現(xiàn)在的交通設計沒有安排快車,剛才說的是快車,第一站就是上地,第二站是中關村,沒有辦法開快車。能不能再修軌道呢,還得重新規(guī)劃,規(guī)劃好了就要很久的事情。這就是智慧城市里應對這樣的問題是很大的難題。如果參加過6月3號講座的,大家可能聽到李未教授做了一些研究,他們給出了很多解決方案,既然能修一條解決方案,他們給出了包括公交車怎么調度,具體的短期還可以給出一些基于大數(shù)據(jù)和數(shù)據(jù)挖掘的辦法,可以在各種各樣的優(yōu)化安排上做一些安排,具體使用的工具可以使用數(shù)學的工具,包括靜態(tài)的規(guī)劃、動態(tài)規(guī)劃,把數(shù)據(jù)輸入進去挖掘這樣的工作。
總而言之,根本上沒有辦法解決,但是作為工程技術可以找到解決方案。最根本的起來回到剛才的,有了這個數(shù)據(jù),后面的決策流程和決策程序非常關鍵,如果北京市政府看到這個問題,想法解決還是要從根本上下工夫。
第二個案例就是廣州,各地都在限牌、限購。2012年廣州就想解決擁堵問題,這個問題在哪里,核心最主要的擁堵產生根源是什么。因為很多人說,在廣州很多人開的不是廣州本地牌的車,是因為這個原因造成了廣州交通擁堵,所以有人提出一個建議,咱們來一個限制令,非廣州車牌的車,交通擁堵時間不準進廣州。大家知道外地車進北京要辦一個通行證,沒有的話就不能在這長期呆,可以在這用幾天。廣州有段時間也想實行這個政策,如果實行了結果會怎么樣,他們就做了一點分析。
到底是有多少外地的車在廣州這個地方經常出入,他們就做了一個大數(shù)據(jù)的分析,就把整個數(shù)據(jù)都監(jiān)控起來,調進來以后進行分析,分析以后發(fā)現(xiàn),他把外地車在廣州分成四類,一類叫做本地化使用,比如說深圳的車牌在廣州使用。第二叫候鳥型使用。第三個叫偶發(fā)過境。還有一個就是常法過境,有的車很有規(guī)律,每天都從這里過。分成這四類就比較有意思了,在這四類里,后來突然發(fā)現(xiàn),真正對于它本地早晚交通造成擁堵的,實際上是第一類,真的本地化使用,一統(tǒng)計比例非常低。大家可以看到,本地化使用占的比例大概占所有車的1.31%,實際上你即使把這些外地車限制住了,高峰時間只能解決你1.3%的擁堵,這個政策你采用和不采用是沒有什么大的區(qū)別。98%是沒有變化的,只有1.3%是有變化的,但是這個政策一實行以后就會造罵,我們幫你作貢獻你們還給我們歧視,最后決定不采用這個政策。這就是大數(shù)據(jù)幫助我們很多事。
所以智慧城市的城市,或者智能城市發(fā)展,大數(shù)據(jù)是很有用的東西,關鍵你怎么用它,這是第一個問題。
第二問題,在整個智慧城市大的生態(tài)鏈里,第一個環(huán)節(jié)就是傳感器網(wǎng)絡,或者叫大數(shù)據(jù)傳感器網(wǎng)絡。給出這樣一個系統(tǒng),智慧城市這個系統(tǒng)里最主要的就是把數(shù)據(jù)時時的,全方位的獲取進來,包括各種各樣的數(shù)據(jù),比如說像車輛,你可以通過卡口,可以通過電子警察、視頻監(jiān)控等等,把所有和車輛有關的數(shù)據(jù)都獲得進來,還有和生活,一些定位、地理信息、個人身份驗證,比如說你的交通卡、一卡通等等,對于城市的安保還有一些,像公共事件、自然災害、社會安全事件,就要把這些數(shù)據(jù)都能夠時時感知到,然后把它送給你的中心。
這樣一個監(jiān)控網(wǎng)絡一定要形成網(wǎng)絡,如果形不成網(wǎng)絡,這個系統(tǒng)就是很弱的。要想形成網(wǎng)絡,目前的智慧城市,它的網(wǎng)絡都是一小片一小片的,沒有完成連接起來,這是有問題的。所以一個比較理想的感知網(wǎng)它是包括剛才說的所有的,每一個單獨的信息都能夠時時匯聚到數(shù)據(jù)中心,這個網(wǎng)絡才能真正形成。
我們知道現(xiàn)在單獨的可能都在,但是要匯總起來要下一點決心,需要投入一些。比如說這個感知網(wǎng)絡,容易想到的像一卡通、火車、輕軌等等,目前都是在交通公司里,把它全部放到城市的數(shù)據(jù)中心里。另外,卡口的信息在交管部門都是有,但是怎么樣把它放到城市的信息中心,能夠很好地使用。我們知道新聞里經常出現(xiàn)一些套牌車這樣的信息,或者是有意識的跑一段,他跑一段把車牌換別的車牌再跑,一旦你換掉了車牌,基本上目標就丟掉了。但是,如果我們用剛才說的感知系統(tǒng),我們就有辦法不僅感知你的車牌,而且感知你的車型,后面有一個演示專門說這個問題。
交通狀況的感知現(xiàn)在已經深入到每一個人的生活當中了,如果我們想查查堵車不堵車,哪條路堵車,馬上打開導航,打開GPS,打開手機的百度地圖你就能看到。這個信息是從哪里來的?都是從后臺統(tǒng)計來的,后臺把包括出租車在內的一些GPS信息,或者我們個人的GPS信息,它做一個數(shù)據(jù)統(tǒng)計分析,就看在這個區(qū)段的,這些移動的物品平均速度是多少,就把整個交通狀況統(tǒng)計出來了。有了這個對整個交通狀況就很容易感知,我們當然希望有更高的技術,除了GPS還有攝像頭的監(jiān)控統(tǒng)計,再早一點地下還有傳感器,我們將來希望天我上有一些視頻的感知,把這些數(shù)據(jù)都加在一起就比較準確一點。
另外,一個城市里總是有各種各樣的流行病的產生,流行病發(fā)作到什么程度,我們都是通過新聞里知道,但是現(xiàn)在我們通過醫(yī)保的統(tǒng)計可以分析這些情況。
還有污染,污染是我們面臨的很大的問題,現(xiàn)在我們的污染更多的從空氣指數(shù),從網(wǎng)站上看到的,但是這個信息量太小,我們說不是真正的大數(shù)據(jù),北京市大概只有二三十個點。北京這么大城市,我覺得至少要有幾萬個點才比較有用,有十幾萬個點更好了,但是這個靠政府投入根本不行,就要通過大數(shù)據(jù),把個人發(fā)動起來,把個人家里裝一些檢測設備,讓可信的數(shù)據(jù)入網(wǎng),通過這個大數(shù)據(jù)可以看得出來這個污染源到底是從什么地方。一會兒可能是通州是污染源,一會兒說是豐臺是污染源,現(xiàn)在點太少,如果多了就可以檢測起來。
在所有的感知系統(tǒng)里,有一個最大量的數(shù)據(jù)是視頻數(shù)據(jù)。有很多統(tǒng)計分析都告訴我們,現(xiàn)在在大數(shù)據(jù)里面,最大的部分,或者超過一半的部分是攝像頭的監(jiān)控數(shù)據(jù),但是這些數(shù)據(jù)很可惜沒有很好利用起來。舉個例子,這是我們國內的一個例子,某個城市,不方便說具體的,有可能好也可能不好。
這個省可能了100萬個攝像頭,有10萬個是治安的攝像頭,還有3000個汽車的卡口的,而且有1億人口,有2000萬車輛,10萬個民警,所有這些東西,如果把剛才說的監(jiān)控系統(tǒng)建立起來的話,這個是很大的成本。比如光攝像頭就需要200億,這是很大的成本,而且把這些東西全部用起來就是更大的一筆成本。所以怎么樣把這個傳感器網(wǎng)絡真正建好,是有一個很大的挑戰(zhàn)。
下一個問題講一下關于大數(shù)據(jù)中心。剛才說把感知網(wǎng)絡獲得的數(shù)據(jù)全部送到數(shù)據(jù)中心,這件事講講不是那么難,但是到中心的數(shù)據(jù)怎么樣形成決策,這中間是有一個過程的。這個過程通常是說,你要把海量數(shù)據(jù)變成大數(shù)據(jù),這是有一個過程。這個過程里最核心的要過三關,不是海量數(shù)據(jù)就是大數(shù)據(jù),大數(shù)據(jù)我們平時簡單說一個大數(shù)據(jù)很輕松,大數(shù)據(jù)是經過整理可以使用的大規(guī)模的數(shù)據(jù)才能叫做大數(shù)據(jù),否則只是海量數(shù)據(jù),只是一個簡單的堆積。這個大數(shù)據(jù)要想用到大數(shù)據(jù),大概要有三關,第一關就是把所有搜集來的數(shù)據(jù)存儲起來。存儲我們覺得我用了非常大規(guī)模的存儲系統(tǒng),什么數(shù)據(jù)都存得下,不一定。因為現(xiàn)在大多數(shù)像智慧城市里的系統(tǒng),都不敢存很多監(jiān)控視頻的數(shù)據(jù),最大的系統(tǒng)大概也就存三個月就覆蓋掉,前面就沒有辦法存了,因為存不下,因為視頻數(shù)據(jù)量太大。怎么樣讓它存得下這是一個挑戰(zhàn),當然這個挑戰(zhàn)我們會有一些技術應對它,主要就是希望有一個辦法,要么壓縮的很小,有些人提出把里面沒有用的東西扔掉。怎么樣壓的更小,這是我的老本行,就是做視頻編碼或者視頻壓縮,現(xiàn)在經過30年的公關,我們現(xiàn)在技術上應該說已經做到,每10年翻一番。大家看這個圖,91年到94年,我們叫做第一代,第一代當時是針對的數(shù)字電視做的。到2003年作用到了第二代,這個仍然是針對互聯(lián)網(wǎng)電視和數(shù)字電視來做?,F(xiàn)在剛剛完成了第三代,現(xiàn)在的監(jiān)控視頻,絕大多數(shù)用的是第二代的技術,我們現(xiàn)在剛剛完成了第三代,就是一兩年前完成了第三代,基本上它現(xiàn)在監(jiān)控視頻慢慢地有一部分已經往第三代轉移了,但是數(shù)字電視還是在第二代上。從壓縮效率來看,每一代是前一代的翻一倍,高清視頻第一代壓到150分之一,到第三代已經做到300分之一,我們希望第四代壓到600分之一。這些技術還在進展,這也是我們正在做的,國內有一支隊伍做的也很不錯。比如說我們在AVS這個領域,大家可能都知道,視頻編碼里我們在監(jiān)控視頻已經比國外同樣水平效率更高一倍。從監(jiān)控來看,我們已經進到第四代了。這個編碼現(xiàn)在基本上是已經變成國家標準,有些部分已經在廣電,所有的高清電視都在用這個東西。監(jiān)控視頻還在往前推進,實現(xiàn)產業(yè)化還有一段時間,整個效能我剛才說了,比國外同等的水平效率會高一倍,主要原因就是我們里面用了一個很巧妙的背景建模技術,因為監(jiān)控視頻的背景基本上不變,它的效率就會提高,我們把背景建模我們叫做場景模式,把它打開和關閉會差40%50%的編碼效率。
HEVC就是剛才我說的第三代編碼技術,現(xiàn)在我們分析,效率在極端的情況下,比較苛刻的情況下提升40%,在寬松的情況下基本上就是兩倍了。這里一些案例,現(xiàn)在用高清視頻,非常高質量的用國外的同等的要接近4兆,壓的很死幾百K也可以,我們追求的是把每個細節(jié)看清楚,這個新的可能2兆就足夠了,這是第一關。
第二關是表達,存儲的數(shù)據(jù)你要在上面進行特征的抽取,對它進行比對,進行分析,這個需要表達。關鍵是你怎么樣把特征提取出來,我們很多人搞機器學習,搞數(shù)據(jù)挖掘,其實它的算法最后效率高與低都取決于你的表達能力強與弱,表達也是非常關鍵的。在表達方面,國內很多團隊做的工作也相當不錯,比如現(xiàn)在對于汽車的表達,現(xiàn)在已經有一些很好的技術,比如是一些加強的SIFT特征的技術,可以把車牌和車型組合到一起進行表達,剛才說的跑一跑把車牌換掉,或者套牌車等等,用這個技術表達一下就識別出來了。除非你那個套牌車的車和牌完全是一樣的,那個比較難識別的,但頭長只是套牌,按這個表達的話,這個牌和車不相匹配,要么車是假的,要么是牌是假的,用這個技術就可以解決了。通過這種辦法也可以在更高層面進行一個壓縮,如果我不是在原數(shù)據(jù)的層面壓縮,是在表達的層面壓縮,壓縮的效率可能還要高,可能是幾千比一了。
有了高效的存儲,有了表達,就可以做非常快速的檢索或者搜索。我們現(xiàn)在一千萬輛車,這個頂天了。一千萬輛車能不能在一秒鐘內完成搜索,這是我們設計的目標,這個系統(tǒng)就可以工作了。
第三關就是計算關,有了存儲,有了表達,最上面那一層我們就要進行場景的分析,最后形成決策的輔助,這就是大數(shù)據(jù)的處理,這個處理最核心的就是數(shù)據(jù)的關聯(lián)。因為傳感器的數(shù)據(jù)來自不同的攝像頭,不同的地點,怎么樣把時間空間都關聯(lián)到一個空間上,這個是非常難的問題,如果關聯(lián)準了,后面就簡單,如果不準后面的壓力非常大,就是怎么關聯(lián),里面的難點是什么,我就不講了。
通過這種關聯(lián)你可以進行分析跟蹤的技術,比如我們可以時時跟蹤這些人。另外對多個攝像機怎么樣進行對像的標識,可以通過一些算法。另外在A攝像機照到的人,怎么樣在B攝像機找到他,這已經有一些不錯的工作,所有這些工作都要再一個數(shù)據(jù)中心里完成,這個是我們做的原形系統(tǒng),在北京大學的數(shù)據(jù)中心,已經可以做類似的工作。這是另外一些案例了。
我就把最后的演示給大家看一下,這是一個大規(guī)模城市卡口車輛的精細識別,你這個城市有很多卡口,這個卡口車輛在過,每過一個車輛我們用剛才說的表達把它完全記錄下來,根據(jù)這種表達,任何時候想找任何一輛車,任何一個車牌的車,或者里面駕駛員的情況都可以找出來,當然駕駛員可能不是那么清晰,我們這個數(shù)據(jù)馬上可以告訴你哪個人沒有系安全帶,所以馬上就標出來,哪個車沒有系安全帶,幾點幾分出來了,這個安裝了以后,整個事情就變得相對簡單了。
總結一下。整個智慧城市的生態(tài)鏈有三個比較重要的部分,一個是傳感系統(tǒng),一個是大數(shù)據(jù)中心,還有一個決策的環(huán)節(jié)。我前面把前兩個部分已經講的比較詳細了,當然技術上還要做一些工作。最關鍵環(huán)節(jié)是決策形成的流程,這個已經超出了技術范疇,它是一個管理范疇的事。我前面已經說到了,必須要由政策的制定者,他要基于大數(shù)據(jù)形成決策,所以內環(huán)怎么樣落實是一個很大的挑戰(zhàn),希望我們做大數(shù)據(jù)的人經常把這個理念向管理者灌輸,使他們對第三環(huán)節(jié)更重視,希望大數(shù)據(jù)真正體現(xiàn)它的好處。以