CCF大數(shù)據(jù)專家委員會秘書長、中科院計算所研究員程學(xué)旗

 2012年11月30日至12月1日,Hadoop與大數(shù)據(jù)技術(shù)大會在北京新云南皇冠假日酒店舉行。本次會議由中國計算機協(xié)會(CCF)主辦,CCF大數(shù)據(jù)專家委員會協(xié)辦,CSDN承辦。大會以“大數(shù)據(jù)共享與開放技術(shù)”為主題,著眼于Hadoop生態(tài)系統(tǒng)優(yōu)化管理與數(shù)據(jù)分析與挖掘,深度聚焦大數(shù)據(jù)共享平臺與實踐與應(yīng)用。CCF大數(shù)據(jù)專家委員會秘書長、中科院計算所研究員程學(xué)旗發(fā)表致辭。

程學(xué)旗表示,數(shù)據(jù)的資源化、大數(shù)據(jù)的隱私問題突出、大數(shù)據(jù)與云計算等深度融合,三方面是2013年是非常明顯的趨勢,而技術(shù)的機遇大數(shù)據(jù)的智能會陸陸續(xù)續(xù)地有一些發(fā)展和變化。

同時,程學(xué)旗認(rèn)為,數(shù)據(jù)資源化,大數(shù)據(jù)在國家和企業(yè)和社會層面成為重要的戰(zhàn)略資源,成為新的戰(zhàn)略制高點和搶購的新焦點。

以下為程學(xué)旗演講實錄:

程學(xué)旗:各位早上好!看到千人大會的會場滿滿的還有朋友站在后面我覺得還是很欣慰的。Hadoop大會是2008年的時候幾十個人在金融所的樓里面討論的Hadoop IN China,從去年開始上千人到今年有更多的人參加本身就反映了一種趨勢。也就是說為什么今年把名字改成了Hadoop與大數(shù)據(jù)技術(shù)大會,實際上大數(shù)據(jù)不是今年就一定有。大數(shù)據(jù)的時代已經(jīng)到來了,五年前我們組織Hadoop IN CHINA這個會已經(jīng)和今天的大數(shù)據(jù)的主題比較切合,今年大數(shù)據(jù)的概念比較大,所以我們把題目改成了Hadoop與大數(shù)據(jù)技術(shù)大會大會。

當(dāng)然,大數(shù)據(jù)不僅僅與Hadoop相關(guān),傳統(tǒng)的關(guān)系數(shù)據(jù)庫和結(jié)構(gòu)化存儲相關(guān)的技術(shù),在大數(shù)據(jù)時代的時候是不是有什么新的問題,有什么新的挑戰(zhàn),業(yè)界、學(xué)術(shù)界以及政府部門對相關(guān)的大數(shù)據(jù)是怎么看的。我估計今年至少從10月份以來,國內(nèi)關(guān)于大數(shù)據(jù)的會議已經(jīng)開了7、8次了,往后還會陸陸續(xù)續(xù)要開。這種情況下,中國計算機學(xué)會組織大數(shù)據(jù)專家委員會,不是為了趕熱鬧,而是組織專家委員會以及把Hadoop歸到大數(shù)據(jù)專家委員會來統(tǒng)一組織實際上是有它內(nèi)在的理由和原因的。

為什么第一個報告我來講,去年的Hadoop大會叫數(shù)據(jù)掘?qū)?,主題已經(jīng)是跟大數(shù)據(jù)相關(guān)了。今年的主題叫大數(shù)據(jù)開源與技術(shù)共享,這實際上是大數(shù)據(jù)今年發(fā)展面臨的關(guān)鍵的問題。今天我是代表中國計算機學(xué)會專家委員會來發(fā)布大數(shù)據(jù)的熱點及未來的發(fā)展趨勢做一些調(diào)研跟大家分享。

這個工作的過程簡單地介紹一下,大數(shù)據(jù)執(zhí)行委從今年10月在中國計算機大會上成立以來有70名委員,其中學(xué)術(shù)界有46位,產(chǎn)業(yè)界14位,還有海外學(xué)術(shù)界委員10位。我們在大連開會的時候探討過,既然大數(shù)據(jù)這么熱,而且在CNCC大會上有1600、1700人差不多每個人都說自己是做的大數(shù)據(jù),無論是做物聯(lián)網(wǎng)的還是做高清計算的,所有人都說我做的是大數(shù)據(jù)。當(dāng)時我們在想,既然整個計算機界人做的都是大數(shù)據(jù),那什么是大數(shù)據(jù)。

我們是不是在趕時髦用同樣的一個詞裝各自所說的酒,也是基于這樣的考慮,大數(shù)據(jù)專家為第一次開會的時候希望能不能邀請業(yè)界的人士共同探討大數(shù)據(jù)的科學(xué)問題是什么、邊界是什么,以及為什么大數(shù)據(jù)成為熱點的詞以及大大數(shù)據(jù)技術(shù)上的挑戰(zhàn)到底是什么。當(dāng)時的會議上我們提出了這樣的議案,最后在很短的時間內(nèi)從調(diào)研分析以及具體的提案到侯選問題的征集到最后專家的投票、委員的投票會聚了現(xiàn)在的結(jié)果,這個過程持續(xù)了一個多月。這只是初步的結(jié)果。

針對大數(shù)據(jù)問題我們搜集了14個選項,包括科學(xué)問題相關(guān)的數(shù)據(jù)的科學(xué)問題、大數(shù)據(jù)的基本內(nèi)涵、計算模式,跟技術(shù)相關(guān)的是大數(shù)據(jù)的多樣性和數(shù)據(jù)態(tài)、大數(shù)據(jù)的空間維問題、時間維問題,如何將大數(shù)據(jù)變小及數(shù)據(jù)的價值提煉。數(shù)字都是70位委員的投票數(shù)。也包括了大數(shù)據(jù)的關(guān)鍵應(yīng)用領(lǐng)域,以及大數(shù)據(jù)對IT 技術(shù)和架構(gòu)提出的安全與占、數(shù)據(jù)的安全和隱私。最后一個是大數(shù)據(jù)的生態(tài)問題。侯選項相互之間是有一定的重疊,而且顆粒度也不完全一致,完全是由專家自己提出來的,我們給他做了會聚,沒有做一些很精細(xì)的加工。但基本上大家的投票結(jié)果來看,投票率還是非常高的,比如說數(shù)據(jù)的計算模式問題關(guān)注度非常高。投票的初始結(jié)果我們給出了大數(shù)據(jù)熱點問題的八個方面。第一個方面是數(shù)據(jù)科學(xué)與大數(shù)據(jù)的學(xué)科邊界問題,涉及到侯選項的兩項,講到了數(shù)據(jù)界、物理界與人的關(guān)聯(lián)是什么,數(shù)據(jù)是不是客觀存在的空間和現(xiàn)象。還有數(shù)據(jù)有沒有獨立的問題。大數(shù)據(jù)的基本學(xué)科邊界有一個內(nèi)涵和外延的限定,以及區(qū)別于其他數(shù)據(jù)的關(guān)鍵特征。最近有一本出版的數(shù)講的是大數(shù)據(jù)不見得規(guī)模大,而是比較全。當(dāng)然這是一種新的說法的。也就是說大數(shù)據(jù)的基本問題和邊界是什么。這是我們關(guān)心的第一個大的方面。

第二個方面是數(shù)據(jù)計算的基本模式和范式問題,包括了數(shù)據(jù)密集型計算的基本范式是什么,以及數(shù)據(jù)計算的基本評估和數(shù)據(jù)計算的復(fù)雜性,以數(shù)據(jù)為中心去中心化的自主計算模式是不是數(shù)據(jù)計算的主要的模式。第三個熱點問題是大數(shù)據(jù)的特性和數(shù)據(jù)態(tài)的問題。從數(shù)據(jù)的復(fù)雜性來講,數(shù)據(jù)的關(guān)聯(lián)模式、關(guān)系為復(fù)雜,數(shù)據(jù)的空間為復(fù)雜,包括數(shù)據(jù)在人機物三個空間里以及柔性密度的所產(chǎn)生的空間維度的復(fù)雜性,以及跟時間相關(guān)的特性。我們把它總結(jié)為大數(shù)據(jù)的基本特性和數(shù)據(jù)態(tài)的問題。

第四個熱點問題是大數(shù)據(jù)的作用力與變化反應(yīng)。包括了兩個方面,第一個方面是如何將大數(shù)據(jù)變小,在盡量不損失價值的情況下減少數(shù)據(jù)的規(guī)模,像數(shù)據(jù)的清洗、去除等等,也是如何有效地處理大數(shù)據(jù)類似物理的作用把大數(shù)據(jù)的規(guī)模變小但不損失價值。第二個是化學(xué)作用,從一個平面的大數(shù)據(jù)提煉出高附加值的概念、知識和智慧。大數(shù)據(jù)的探索和可視性在這里面可以得到很大的發(fā)揮。計算方面我們通過群體指揮以及認(rèn)知等方面發(fā)揮和提煉。

第五個問題是大數(shù)據(jù)的安全和隱私問題。投票是59票。

第六個問題是大數(shù)據(jù)對IT技術(shù)的挑戰(zhàn),包括存儲、傳出和分布式計算相關(guān)的整體架構(gòu)的變化。今天的Hadoop實際上是應(yīng)對大數(shù)據(jù)及大數(shù)據(jù)處理的相關(guān)的架構(gòu),雖然它目前的影響力很大了,但離成熟還有很遠(yuǎn)的距離,也就是說大數(shù)據(jù)的發(fā)展和爆發(fā)對IT架構(gòu)提出了大的挑戰(zhàn)。

第七個問題是大數(shù)據(jù)的應(yīng)用和產(chǎn)業(yè)鏈的問題,。大數(shù)據(jù)有大價值,但在產(chǎn)業(yè)上如何形成有效增益的環(huán)境,以及大數(shù)據(jù)到底在什么樣的應(yīng)用領(lǐng)域里能夠發(fā)揮絕對的價值,比如說跟社會科學(xué)、跟金融相關(guān)的,后面還會有一些分析,這個投票方面有大數(shù)據(jù)的應(yīng)用和產(chǎn)業(yè)鏈。

第八個問題是大數(shù)據(jù)的生態(tài)環(huán)境問題,如果大數(shù)據(jù)時代真正地來臨,從數(shù)據(jù)變成資產(chǎn)、數(shù)據(jù)的加工和制造,甚至在前期討論有數(shù)據(jù)的制藥,有新的數(shù)據(jù)工業(yè)和 數(shù)據(jù)衍生品,這種數(shù)據(jù)市場和數(shù)據(jù)衍生品帶來的市場的繁榮,另一方面是政策、環(huán)境包括投資環(huán)境和管理政策方面以及科研、研究所、學(xué)生的培養(yǎng)和國家政策的扶持 方面形成的生態(tài)環(huán)境是大數(shù)據(jù)的第八個關(guān)鍵熱點問題。由于大數(shù)據(jù)廣泛的使用也會帶來政治倫理政治方面的問題,我們統(tǒng)稱為大數(shù)據(jù)的生態(tài)問題。

這是我們提煉出14個侯選項廣泛地參與意見和投票之后提煉出的大數(shù)據(jù)時代的核心問題,這是目前的認(rèn)識,也許未來這個問題包括在座的每一位同仁們可能有自己的想法,我們只是拋磚引玉,對大數(shù)據(jù)的核心問題提煉出八點。

第二方面的議題是發(fā)展趨勢。任何的預(yù)測都是有問題的,我們發(fā)布的時候其實心里面是沒有底氣的,題目是在2013年在最近的距離內(nèi)可預(yù)測的大數(shù)據(jù)的發(fā) 展趨勢是哪些方面,搜集了一些相關(guān)的內(nèi)容,包括了70多位專家以及跟數(shù)學(xué)領(lǐng)域的專家合作,大家提煉出的發(fā)展趨勢有37項,包括大數(shù)據(jù)的整體態(tài)勢和發(fā)展趨 勢,大數(shù)據(jù)與學(xué)術(shù)、大數(shù)據(jù)與人類的活動,大數(shù)據(jù)的安全隱私、關(guān)鍵應(yīng)用、系統(tǒng)處理和整個產(chǎn)業(yè)的影響。這方面總共有37項。大數(shù)據(jù)的整體態(tài)勢上,數(shù)據(jù)的規(guī)模更 大,數(shù)據(jù)資源化、數(shù)據(jù)的價值凸顯、數(shù)據(jù)私有化出現(xiàn)和聯(lián)盟共享。大數(shù)據(jù)有沒有形成新的學(xué)科,當(dāng)然仁者見仁智者見智,有很多人提出很多的想法。跟學(xué)術(shù)相關(guān)的包 括數(shù)據(jù)科學(xué)的興起,數(shù)學(xué)學(xué)科發(fā)生了很多的變革,由于數(shù)據(jù)學(xué)科的產(chǎn)生反過來影響為物理學(xué)和數(shù)學(xué)提出的新的要求,需求促使了技術(shù)學(xué)科的發(fā)展和變革。顆粒度不太 一樣,還有一些自主計算,基于海量知識的智能的革命性的方法。有更奇妙的人機互聯(lián)。大數(shù)據(jù)的隱私安全及跟國家安全相關(guān)的問題,我們也希望提出一個問號,總 令人矚目的大數(shù)據(jù)的應(yīng)用到底是什么。還有基于大數(shù)據(jù)的決策支持、大數(shù)據(jù)的預(yù)測和清洗,大數(shù)據(jù)跟大企業(yè)的信息的推薦。大數(shù)據(jù)的系統(tǒng)處理上處理能力難以滿足需 要,處理模式多樣化以及帶來的網(wǎng)絡(luò)帶寬的壓力。如果大數(shù)據(jù)來了以后把數(shù)據(jù)的價值充分發(fā)揮出來,網(wǎng)絡(luò)的傳輸、網(wǎng)絡(luò)的管理會帶來一些非常突出的壓力。資本會不 會高度關(guān)注大數(shù)據(jù),已經(jīng)有一些資本界的朋友們過來了,產(chǎn)業(yè)結(jié)構(gòu)和政策出現(xiàn)新的變化的時候以及數(shù)據(jù)產(chǎn)品的豐富和新的數(shù)據(jù)外部產(chǎn)業(yè)的分析師和新的職業(yè)的產(chǎn)生, 這是對整個大數(shù)據(jù)領(lǐng)域提出的37個侯選項。

大家關(guān)心的大數(shù)據(jù)既跟學(xué)術(shù)有關(guān),也是跟社會相關(guān)的?;谇懊娴暮钸x項可以看到T6最令人矚目的學(xué)科是什么,T19。比如說2013年最令人注目的學(xué) 科是大數(shù)據(jù)的分析與預(yù)測。第二個是分布式系統(tǒng),寫法上大家更喜歡叫云計算,實際上對大數(shù)據(jù)的支持不見得是新的學(xué)科但是是非常重要的問題。第二方面是最令人 注目的應(yīng)用是什么。我們只是給了一個表讓大家填,并不是說給了幾個內(nèi)容讓大家投票,所以有很多驚人一致的地方。大家認(rèn)為大數(shù)據(jù)在醫(yī)療領(lǐng)域被認(rèn)為是最有可能 產(chǎn)生重要價值的。之后在金融領(lǐng)域有14人投票,電子商務(wù)和城市管理有10人投票,當(dāng)然還有其他的問題,我們把最重要的、大家認(rèn)為最關(guān)鍵的題目拿出來。

之后再來看發(fā)展趨勢的侯選項,這個倒過來排,第11、12的是發(fā)展趨勢2013年,一個是大企業(yè)大數(shù)據(jù),大企業(yè)對數(shù)據(jù)的使用使得大數(shù)據(jù)成為大企業(yè)的 核心競爭力,描述中不只是大企業(yè)大數(shù)據(jù)、而是大政府大數(shù)據(jù)。有一些問題還是比較粗放的,大數(shù)據(jù)大企業(yè)以及資本的高度關(guān)注都得到了22票的支持。大家預(yù)測 2013年的時候資本開始真正投資大數(shù)據(jù)。第10個侯選項的趨勢叫更大的數(shù)據(jù),大家可能會覺得大數(shù)據(jù)的觀念會使得大家更關(guān)注和更清晰。第九位是大數(shù)據(jù)新職 業(yè),會產(chǎn)生數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師,有非常豐富的數(shù)據(jù)經(jīng)驗的人才會成為稀缺人才。第八項是數(shù)據(jù)共享聯(lián)盟,這個應(yīng)該是比較確定的,數(shù)據(jù)共享聯(lián)盟 將逐漸壯大成為產(chǎn)業(yè)的核心一環(huán)。之前在科研界一直在強調(diào)數(shù)據(jù)共享,有共同的benchmark,但一直沒有形成非常有效的環(huán)境,價格的驅(qū)動環(huán)境下,也許在 產(chǎn)業(yè)界的數(shù)據(jù)共享聯(lián)盟比研究界的數(shù)據(jù)共享聯(lián)盟更容易一些,當(dāng)然我們在研究界也會推薦數(shù)據(jù)共享聯(lián)盟的建立。數(shù)據(jù)的興起會有很多人講寫數(shù)據(jù)科學(xué)的書,講我做的 是數(shù)據(jù)科學(xué),我的方向是數(shù)據(jù)科學(xué),所以是不是數(shù)據(jù)科學(xué)很清晰這不知道,但數(shù)據(jù)科學(xué)這個詞會越來越熱。

第六位是大數(shù)據(jù)安全。只要是大數(shù)據(jù)真正地走向應(yīng)用一定是一波新的技術(shù)革命。第五項是大數(shù)據(jù)分析的革命性方法。大家覺得大數(shù)據(jù)分析方面也會出現(xiàn)一些革 命性的新的情況,但這在2013年是不是就會出現(xiàn),很難說。也是方法在量變的同時會呈現(xiàn)質(zhì)變。第四的是基于海量的知識智能。也就是說基于大數(shù)據(jù)的知識智 能。第三項是大數(shù)據(jù)與云計算等資源的深度融合。第二是大數(shù)據(jù)的隱私問題,比如說每天手機產(chǎn)生的通話、位置等等。但這給帶來了便利的同時也給帶來了個人隱私 的問題,這已經(jīng)不是說在紙上談兵了,已經(jīng)成為了一個非常重要的問題了。數(shù)據(jù)資源化,大數(shù)據(jù)在國家和企業(yè)和社會層面成為重要的戰(zhàn)略資源,成為新的戰(zhàn)略制高點 和搶購的新焦點。

我總結(jié)一下,剛才從熱點問題和近期的發(fā)展趨勢給出了這樣的總結(jié)。熱點問題上,通過大家的提煉,我們發(fā)現(xiàn)了八個熱點問題,數(shù)據(jù)科學(xué)與大數(shù)據(jù)的學(xué)科邊 界,數(shù)據(jù)計算的基本模式與范式、大數(shù)據(jù)的作用力和變換反對。大數(shù)據(jù)特性與數(shù)據(jù)態(tài),大數(shù)據(jù)安全和隱私問題,大數(shù)據(jù)對IT技術(shù)架構(gòu)的挑戰(zhàn),大數(shù)據(jù)的生態(tài)環(huán)境問 題,大數(shù)據(jù)的應(yīng)用及產(chǎn)業(yè)鏈。至少我們在搜集這些問題的時候郵件大概發(fā)了上千次,多次地交流和討論。發(fā)展趨勢這塊,我們排名前三位的是數(shù)據(jù)的資源化、大數(shù)據(jù) 的隱私問題突出、大數(shù)據(jù)與云計算等深度融合,至少在2013年是非常明顯的趨勢。技術(shù)的機遇大數(shù)據(jù)的智能會陸陸續(xù)續(xù)地有一些發(fā)展和變化。當(dāng)然了,我們是希 望未來每年將對大數(shù)據(jù)的熱點問題和大數(shù)據(jù)的下個年度的發(fā)展趨勢進(jìn)行充分的調(diào)研,我們也希望每年都在Hadoop與大數(shù)據(jù)技術(shù)大會發(fā)布。今年的時間相對比較 倉促,前后大概在一個多月,郵件有上千封,我們也希望明年再組織熱點問題和發(fā)展趨勢的時候,在座的每位同仁都可以積極地參與,奉獻(xiàn)自己的創(chuàng)意,這不是靠幾 個專家就可以點出方向,希望每參與進(jìn)來以后,可以形成真正的有影響力和震撼力的,不是像某些學(xué)科一個新的概念來了以后都在炒作,而是希望能夠經(jīng)過大家的共 同的智慧、群體的智慧,對方向的概念和問題形成一些共識,變成我們共同努力的目標(biāo),共同奮斗的方向。這是大數(shù)據(jù)專家委之所以發(fā)起這個問題的初衷,也是希望 我們每年做這項活動的時候,未來的一些手段能夠更加地靈活,時間上會提前邀請大家共同來做這樣的事情。

最后,講到了大數(shù)據(jù)的共享聯(lián)盟,今天的Hadoop與大數(shù)據(jù)技術(shù)大會上專家委員會有成立了一個組織,叫“大數(shù)據(jù)共享聯(lián)盟”,我們的宗旨是搜集大數(shù) 據(jù)、展示大數(shù)據(jù)、促進(jìn)大數(shù)據(jù)的研究與開發(fā),同時我們要構(gòu)建聯(lián)盟,這個完全是志愿的,我們也希望更多在座的百度、阿里、騰訊、雅虎、Facebook等企業(yè) 參與,也希望國內(nèi)國際的大企業(yè),你們在業(yè)界上做得非常好,而且有很多公信力和社會公益,我們能不能共同推動大數(shù)據(jù)的共享,建立共享平臺。大家熱心地參與到 聯(lián)盟里來,為我們來源于大家、服務(wù)于大家、構(gòu)建更好的大數(shù)據(jù)的深層發(fā)展和生態(tài)環(huán)境。

分享到

tangrong

相關(guān)推薦