以下為演講實錄:
各位專家,各位來賓,下午好,我今天下午報告的題目是大數據城市的智能轉型。進入二十一世紀的第二個十年,實現工業(yè)信息化、農業(yè)現代化和城鎮(zhèn)新型化已經成為中國特色社會主義建設發(fā)展的一個戰(zhàn)略需求和當前的緊迫任務。那么這三個方面的教會和融合發(fā)展使我們必須以信息化為統領,以建設新型城鎮(zhèn)化為抓手才能夠圓滿完成。在過去十年里頭以信息化城市大數據城市智慧城市等等這些已經成為學術節(jié)各種相關論壇和媒體熱議的話題。實際上任何一個行業(yè)或者一個區(qū)域的信息化過程,都可以分為兩個階段。第一階段是數字化階段,這包括信息的傳感、存儲、計算、傳輸和控制的網絡化和數字化。第二階段就是智能化,就是它是數字化的更高階段。那么這個數字化城市我想現在大家已經意見都比較統一了,什么是數字化城市呢?就是如果這個城市能夠最大限度地使用數字傳感技術、網絡技術和計算技術構成的信息基礎設施,在云計算的軟件環(huán)境下,對城市的人口、資源、環(huán)境、經濟、社會等大數據加以計算和處理,把反應城市社會的各種大數據有效地整合,用于規(guī)劃、預測、運營、以及城市監(jiān)管,來提升政府部門的管理和決策能力,提高城市居民的生活品質,這就是如果做到了這一點,那就是達到了數字城市的要求。比如說歐美發(fā)達國家的一些主要地區(qū),以及包括我國在內的新型國家的發(fā)達地區(qū)和城市應該說基本上現在都實現了數字化的目標。
從數字化到城鎮(zhèn)化的這個智能轉型,應該包括哪些任務呢?我認為就是智能城市,城市的智能化和數字化的標志性的區(qū)別有三個。第一就是智能城市是一個復雜的信息生態(tài)系統,它要提供下屬三種標志性的服務,一個我叫做深度查詢,一個叫做定律發(fā)現,一個叫決策生成,這相當于智能里頭的發(fā)現知識、使用知識、然后改造社會這都包括在智能查詢定律發(fā)現和決策生成里面。下面我要一個一個來談談它們應該是什么東西。
那么從大數據處理角度,智能城市和數字化城市的區(qū)別我覺得在于智能城市要建立一個對于非結構化數據的一個統一的模型。這個等會兒下面我也要想談談這問題,第三從軟件開發(fā)角度看,就是智能化的城市要使用軟件的群體軟件的開發(fā)方法。下面我就想談一談。第一什么叫做深度查詢?比如現在咱們大家向Google也好,百度也好,輸入一條信息,我經常頭疼惡心,有時候嘔吐,看東西不清楚,偶爾出現耳鳴,我應該怎么辦,我想解決我當前的這些問題。百度立刻回答你,我這是Google的回答,說我用了0.54秒查出了42900條跟你這個數有關的網頁請你逐個兒察看,前三條就是我這兒前三條。這就是資料查詢,資料查詢和我們智能查詢區(qū)別在哪里呢?資料查詢你是從42900個網頁這些東西里頭去找,智能,什么叫做深度查詢呢?所謂智能化的深度查詢,就像人一樣,我們到醫(yī)院或者是直接看一個大夫,他首先要進行導醫(yī)服務,跟你先查一下判斷你是什么病,機器如果有這個智能應該怎么樣?第一步機器就回答根據你輸入的東西,你有可能有下屬四種可能,第一種叫做頸椎病,我今天上午沒參加會就是去看頸椎病,也可能是腦部腫瘤,也可能是美尼爾氏證,也可能是感冒。醫(yī)生就是照片子給一些東西給一個初步的診斷,下一步計算機,假設我選擇了腦部腫瘤,接著計算機就應該給你深度查詢所謂知識上的交流就應該給你回答有三種醫(yī)治的方案,三套方案,第一套方言是建立腫瘤醫(yī)院提供給你,第二個是有關腦瘤腫瘤醫(yī)生按照現在按照排行榜把名單列給你你可以隨便挑選,或者是根據你現在的癥狀你可以服用什么樣的藥,提供給你,來供用戶選擇。如果我選擇了醫(yī)院,而且我選擇了中國醫(yī)學科學院腦腫瘤醫(yī)院,它就會回答中國科學院腦腫瘤醫(yī)院,它就能夠回答你具體所有需要的知識,比如說掛號,在線掛號我應該注意哪些事項怎么掛號,第二種醫(yī)藥費你也可以參考我腫瘤需要多少錢,如果是外地來怎么方便查詢。這樣的查詢是深度查詢,跟以前查詢有什么不同,就是它已經不是資料交換,而是知識交換,你得到的,你查到的知識。要實現這樣深度查詢,實際上用到的東西首先說我們輸入了頭疼惡心,這些黃的塊,這就叫做使用的方法就是歸納猜想,歸納推理,我們從一個癥狀就界定你一個性質是腦瘤還是美尼爾氏癥。
然后你選擇了腦瘤之后,你的選擇實際上就是大家討論的關聯。本來大家選擇腫瘤醫(yī)院腫瘤藥物都是不同的個體,村存儲在不同的地方,因為他們有共同的癥狀共同點,所以計算機把它們都挑出來來供給你選擇,但是一旦選擇了腦腫瘤之后,是中山大學還是腫瘤醫(yī)院,我都推給你,所有人都是要死的,李未要死肯定要死,這就是邏輯推理。
另外就是中國醫(yī)學院腫瘤醫(yī)院的掛號手續(xù),路線圖,醫(yī)療費用,這些原始數據等于你每個個體和實體和原始數據之間的勾連,連接。所以什么是深度查詢呢?深度查詢是提供知識而不是網頁的一種和人的用戶的知識交流。這個系統從描述事故的現象或者初步癥狀開始,通過人機交互的方式,系統提供與現象或者癥狀相關的所有可供選擇的概念和實體,在用戶作出選擇以后系統查找出與之相關聯的本題和相關聯的知識圖譜,在與用戶深度知識交互中,系統邏輯推理,歸納,關鍵演算改變現狀的所有網上可能的與之相關的解決方案和知識,這是知識層面的交流。這就是智能,這就叫智能,這就是一種智能,是我們知識方面的交流。比如現在大家最近前一段討論的turing test,是一種特殊的深度查詢,這是第一種應該有深度查詢的功能,這是我說的第一點。要建立這樣深度查詢,我們需要做什么呢?我們需要最好就是在對原始數據來講有一個統一的四面體,有一個統一的數據模型,這個等會兒我下面要講。另外要計算機里面要存有大量的本體、實體、知識圖譜,本體、實體知識圖譜類似的實體原始數據連接,包括推理機制都應該在軟件里頭提供。這就是我說的第一種智能應用,智能轉型的第一種應用。
第二種就是叫做規(guī)律發(fā)現。大家可能以前學過邏輯或者是感興趣的科學發(fā)現的感覺,我們都知道,不論是經典數據邏輯還是卡爾波普爾的科學發(fā)現的邏輯原子語句都是這些語言中不可再分的對象??茖W學問都是有一個形勢化的語言叫做一階語言,一階語言包括原子語句和符合語句,符合語句就是有語言邏輯結構的問題,原子語句就是出發(fā)點,包括概念和數量之間的關系,這就是方程式。實際上概念和他們之間的方程式,這些東西是構成了每一個科學理論的核心,剩下的東西邏輯之間都可以通過計算出來。原子語句這套東西在邏輯學里面是不研究的,過去是靠科學家通過實驗眼耳鼻舌喉決定,現在是通過大數據,大數據里面怎么通過數據怎么提取概念,怎么提取概念之間的方程式,這就成了當今的所有搜索,大量的研究都在這方面。凡是有這樣的功能從傳感器直接得來的數據然后產生關系的東西我們叫規(guī)律發(fā)現,如果都有這就是智能應用的一個方面。比如說舉個例子,其實核心咱們看所有的歷史從亞里士多德開始一直到現在的科學家們,比如牛頓,牛頓最重要的貢獻是力學,力學里最核心的是什么東西?就是牛頓發(fā)現了這些,第一基本概念,力、質量和加速度,特別是力和質量以前古希臘就有,加速度是真正的牛頓的發(fā)現。這是提出了一個概念,概念之間的數量關系是什么呢?就是F力等于質量乘上加速度,這些東西都叫做原子語句再從邏輯學角度,對原子語句發(fā)現過去專家從眼耳鼻舌身的感覺,現在是人們通過分析找到這些概念,同時找到這些概念之間的數量關系,下面所有東西都是這五個方面可以解決。
所以什么是定律發(fā)現,就是系統通過獲得的描述事物相關的大數據統計分析計算,通過人機交互方式提取本質的原子概念,以及以數學方程式的形式給出的與此事物有關的概念與概念之間的精確關系,有這一部分就是知識的發(fā)現。這是第二個部分。
第三就是決策生成,什么是決策生成呢?我這兒舉個例子,比如說北京天通苑地區(qū)8平方公里現在一共是91.5萬人,主要進城的道路有兩條,一條是回龍觀到G6然后繞行進京,第二個路線就是從立湯路到安立路進到城,現在是早高峰運輸人數14萬人,因此天天超載安全舒適性很差,交通堵塞路上交通時間很長,問題根源在哪里呢?假設如果每輛車乘70個人,平均早上9點每分鐘發(fā)10輛公交車的話,要2000次車,這車擺40公里才能把人運輸出去,所以這是每天的問題?,F在如果我們想給百度輸入這么一條信息,天通苑交通擁堵我要尋求解決方案,那么它也是在幾秒鐘之內回答說我這兒一共有124000個網頁供你參考,具體地比如說我今天住在天通苑,我今天希望7點上班8點到班上行不行,這個交通情況怎么樣沒法給你解答,有了智能化以后將會變成什么呢?我先說大數據的情況,現在我們北京這塊也算是數字城市,經過大數據的分析就發(fā)現居民對于一卡通這塊每一個人14萬人都是有的,居民出行主要通往城市有38個地區(qū)現在已經分出來誰在什么地方,但是實際上只有9個地區(qū)是他們的主要目的地集中了83%的人口,9個地區(qū)比如說上地什么等等,這就是現在的大數據的計算情況。我們希望智能于轉型到什么情況?就應該是這樣,也是應該是人機交互式的,比如說我輸入天通苑交通擁堵解決方案,首先計算機回答你高屋建瓴的,你現在尋找今天解決方案還是長遠解決方案?我當然選擇今天的方案,今天我怎么辦。這個計算機就應該接著就告訴我說你挑選有幾種辦法來解決,你是希望優(yōu)化公交調度還是熱點區(qū)域直達的辦法還是優(yōu)化作息安排和繞行其他道路安排的辦法。比如我挑選既要公交調度又要短期方案,我什么時候合適?根據計算機個體意愿我今天最佳出行時間和上班時間,推動我個人,你把你的建議既發(fā)給我而且同時同時又發(fā)給我的老板,告訴我的領導我今天上班晚一個小時,下班晚一個小時,這就可以不扣通勤。這就是人工智能的解決辦法。智能解決辦法包括實際上通過人機交互作用,不斷地把整個問題理清是個什么問題,比如舉個很簡單的例子,假設一個公交車的負荷就是P階,發(fā)車的城市是Y階,然后P接乘以Y階,大于X,等等變成了數字描述的條件,這個條件我們最后求的總的運輸量,P階乘上Y階求極大的值,這就是整個優(yōu)化問題,其他就變成了邊界條件和出使條件,這些都是通過人機交互的作用輸入進去,然后繼續(xù)問你打算用什么方法解決,用動態(tài)方式還是靜態(tài)方式各種算法,現在互聯網上有各種算法完整的數據庫供大家挑選,當然也是專家挑選。
所以總體來說什么是決策生成呢?決策生成就是針對用戶的要求,通過人機交互的方式對本體、實體概念屬性多層次的歸納猜想,邏輯推理關鍵操作來處理,提供與之相關的決策類型,你是求極大的值還是極小值還是什么東西。這個結果出來以后根據問題數學模型并且根據人機交互作用把出使條件給出來,最后根據求解方程根據用戶提供群體的統計規(guī)律和群體動態(tài)演變過程,并且根據群體每一個個體要求給出針對個體的解決方案,不僅僅是我們找到一個統計規(guī)律就完了,最終的目的是給每一個人每一個個體解決方案,做到群體優(yōu)化,這不僅是剛剛發(fā)現知識,使用知識,而且是解決問題更高的智能。所以我認為這是智能轉型如果能夠具備這三種功能,深度查詢,規(guī)律發(fā)現和決策生成,那么我們才可以說我們完成了數字化城市的智能轉型。
軟硬件方面需要做什么呢?首先就是很重要的問題就是當前需要原始數據的語意方面非結構化數據的統一模型。就是城市的大數據是承載知識和信息實體,通過多種數字化和傳感器來自城市各個角落和人群來自于不同的知識領域,他們可以是結構化數據,過去原始數據,也可以是非結構化數據,比如語音、圖片、視頻等等,來自于格式不統一,而且既使是同一個時間版本不統一,極大的增加了數據難度處理的效率,所以需要統一的模型,我覺得這個很重要。我就不詳細講了,這模型應該有統一性關聯性可擴展性,這塊我想這塊就過去了。
另外我想給大伙兒再談一個群體軟件,就是軟件工程的辦法也跟傳統的不一樣了。城市是一個復雜的社會生態(tài)系統,它的組成和演化的基本特征就是宏觀就是市政管理機構對城市的宏觀規(guī)劃和對城市資源配置的比較調控,微觀上就是競爭和市場機制對城市資源配置和城市發(fā)展的決定性作用。這是咱們每一個城市都是這樣的。群體軟件工程,智能城市是一個復雜的信息生態(tài)系統,它在每一個時刻所擁有的大數據都是承受社會生態(tài)系統的數字映象,是關于市政機構對城市宏觀調控和市場機制對城市資源配置和發(fā)展起決定性作用的一個描述。
這種東西怎么來開發(fā)?能不能請微軟來開發(fā)一個智能北京行不行?現在有點問題。為什么?我給大家解釋,傳統的軟件定義方法就是接精英化,是Google還是微軟,都是名牌大學的優(yōu)秀學生,專業(yè)骨干。第二是計劃性,整個開發(fā)工程至下而上的需求至上而下的需求開發(fā),整個開發(fā)過程都是封閉的,保證開發(fā)安全。這樣的優(yōu)點是編程序的質量高,歷史已經證明只要沒有惡意的攻擊,像微軟我們大家天天使,非常好用的一個軟件系統。
為什么它不行呢?它的缺點在什么地方呢?就是我們看看微軟開發(fā)工作量,我舉的是WINDOWS VISTA,6行9千的完成,這是五年時間開發(fā)完成非常好?,F在智能城市,智能北京,按照中國國民經濟行業(yè)分類標準一共有20個門類,20個門類咱們國家有100個大類400個綜類一千個小類,咱們通常說一個行業(yè)大概相當于一個綜類,那么咱們國家現在不是360行了,而是400個行業(yè)。如果我們現在選一個一千萬城市人口,比如杭州、蘇州像這種中大型城市,假設他的數目是320個行業(yè),每個行業(yè)是有一千種不同的服務,各種服務,每個行業(yè)眉一挑服務的代碼假設是8000行,代碼的總量是多少呢?就是25.6億行。剛才說的微軟那個是多少行?微軟是6000萬行,所以25.6億行要用一個微軟來干就需要213年,20個微軟來干還得需要10年的時間,這顯然也不可能有,現在一共才有幾個微軟這樣的公司,所以這個是研究智能城市的實現和普通的系統的根本的區(qū)別在這里。有沒有辦法呢?也是有辦法的。這個辦法就是2008年出現APPSTORE大家都了解了,另外是Google安卓的MARKET,比如APPSTORE從2008年到2013年5年的時間130萬人完成26億行,5年時間就完成。所以要把這兩種辦法要結合起來,結合起來,所以我們現實就提出了群體軟件工程的想法,這個是什么呢?就是軟梯結構是新的結構,這個結構是層次式的模塊化的體系結構,縱向分成層,橫向是由若干模塊組成的。每一層決定下一個模塊的功能以及該層各塊模塊之間和下層接口的關系,每一層軟件實現包括設計文件編寫,模塊代碼開發(fā),程序測試,是通過市場,像APPSTORE一樣,通過市場的競爭,中標來實現。構建的辦法就是每一層是他下一層市場開發(fā)競爭和中標的組織者,競爭軌轍的制定者和市場的監(jiān)督者,然后整個為了保證軟件的安全性,如果一個用戶既參加這層又參加那層,他知道這個事兒就麻煩了,所以要保證軟件安全要實行臨層隔壁,縱向是軟件規(guī)劃,橫向眾包完成實現,完成軟件代碼編寫和開發(fā)測試,這是我們叫做關于智能城市群體軟件開發(fā)方法。只有用這種辦法動員70萬網友,我們才能夠把400個行業(yè)的千萬城市的在5年之內把智能城市建成,我今天就說到這兒,我謝謝大家。