大數(shù)據(jù)新的應(yīng)用和傳統(tǒng)的應(yīng)用有什么不同的?張瑾認(rèn)為這是一個(gè)補(bǔ)充而不是替換。另外,大數(shù)據(jù)最主要的問題之一是多種數(shù)據(jù)的混合體,也就是說它不再是說像傳統(tǒng)的能夠事先預(yù)知數(shù)據(jù)的格式和形態(tài),數(shù)據(jù)交互的手段、協(xié)議。實(shí)際上很多的數(shù)據(jù)甚至于不是由企業(yè)本身所擁有的,而是由外界所提供的,所以說這些數(shù)據(jù)是多種數(shù)據(jù)的混合體,這是一個(gè)很嚴(yán)重的問題。
另外,對(duì)企業(yè)應(yīng)用來說,實(shí)際上企業(yè)到現(xiàn)在為止還不是很習(xí)慣于采用開源的解決方案,也就是說絕大部分的企業(yè)在大數(shù)據(jù)上的研究的瓶頸是,商用的版本不夠豐富,支持還不夠完善,這對(duì)企業(yè)應(yīng)用來說是一個(gè)挑戰(zhàn)和機(jī)遇并存的狀態(tài)。今天的幾個(gè)議題、大數(shù)據(jù)的特征以及能提供到的新的技術(shù)和新的產(chǎn)品以及企業(yè)應(yīng)用的狀況是什么樣的?
首先看一下大數(shù)據(jù)的定義,我們所說的大數(shù)據(jù)是傳統(tǒng)的架構(gòu)、傳統(tǒng)的技術(shù)無法解決的數(shù)據(jù)的問題。但我想在這里特別指出的是,因?yàn)榇髷?shù)據(jù)的名字有“大”,所以很多人把重點(diǎn)集中在了數(shù)據(jù)的容量上,也就是大家都認(rèn)為數(shù)據(jù)量是最大的問題。實(shí)際上大數(shù)據(jù)除了數(shù)據(jù)量還有很多的問題,大數(shù)據(jù)會(huì)把信息管理的各項(xiàng)需求都推向極致。最下面的這一層是大數(shù)據(jù)基本的問題,提到了大的大數(shù)據(jù)量以及多樣性和高速,也就是傳統(tǒng)的3V的概念。另外我加上了有關(guān)復(fù)雜性,復(fù)雜性包括了空間維、時(shí)間維等多種數(shù)據(jù)的復(fù)雜性。所以說這些問題實(shí)際上是大數(shù)據(jù)解決方案首先應(yīng)該考慮的出發(fā)點(diǎn)。
目前人們對(duì)Hadoop的重要的觀察,對(duì)Hadoop的關(guān)鍵字進(jìn)行了搜索,近年來的增長(zhǎng)是非常迅速的。對(duì)Hadoop的興趣一直是來源于金融業(yè)的,但如果我們把Hadoop進(jìn)行行業(yè)分布的統(tǒng)計(jì)的話,會(huì)發(fā)現(xiàn)實(shí)際上雖然金融業(yè)仍然是最大的一塊,但有很多其他行業(yè)都對(duì)Hadoop產(chǎn)生了興趣。也就是說對(duì)Hadoop的市場(chǎng)潛力應(yīng)該說我們不單單地認(rèn)為是金融業(yè),除了金融業(yè)以外應(yīng)該說跨很多的行業(yè)都有可能對(duì)技術(shù)產(chǎn)生新的購(gòu)買力。
廠商在哪里?現(xiàn)在廠商還是處于相對(duì)初級(jí)的階段,有很多新興的公司可以提供Hadoop的發(fā)行版本,包括。很多的存儲(chǔ)廠商對(duì)Hadoop產(chǎn)生了嚴(yán)重的興趣,我提到了NetApp等的解決方案,這些解決方案很大程度上是說把已經(jīng)有的技術(shù)針對(duì)Hadoop或者是針對(duì)大數(shù)據(jù)的應(yīng)用做了一定的定制化。所以說你很難說它是專門針對(duì)Hadoop或者是針對(duì)大數(shù)據(jù)的應(yīng)用來開發(fā)的解決方案,應(yīng)該說更多的是一些定制化。所以說,這些市場(chǎng)、這些產(chǎn)品和技術(shù)仍然處于一個(gè)剛剛開始的狀態(tài)。
大數(shù)據(jù)和云的關(guān)系未來的融合將是重大的趨勢(shì)。云和大數(shù)據(jù)是互為因果的關(guān)系,沒有云很多大數(shù)據(jù)就不存在,沒有大數(shù)據(jù)很多云的價(jià)值是難以體現(xiàn)的。所以這兩個(gè)技術(shù)是相輔相成的關(guān)系。另外現(xiàn)在我們也看到了一些基于云的Hadoop的應(yīng)用,包括了MapReduce的應(yīng)用。
最開始聽到大數(shù)據(jù)的問題是有關(guān)數(shù)據(jù)備份和數(shù)據(jù)保護(hù)方面的問題。大數(shù)據(jù)在顛覆著所有的數(shù)據(jù)保護(hù)的手段,這是一個(gè)非?,F(xiàn)實(shí)的問題。這么大的容量傳統(tǒng)的數(shù)據(jù)保護(hù)的方法根本不能運(yùn)行。但是,如果真正仔細(xì)地看一下大數(shù)據(jù)本身,實(shí)際上有很多的大數(shù)據(jù)是不能備份的,90%的大數(shù)據(jù)都是不需要備份的。因?yàn)榇髷?shù)據(jù)本身的價(jià)值不是在大數(shù)據(jù)里面的,因?yàn)榇髷?shù)據(jù)提煉出價(jià)值之后很有可能的后臺(tái)數(shù)據(jù)就沒有必要再繼續(xù)保留了。有很多大數(shù)據(jù)的解決方案在架構(gòu)設(shè)計(jì)上已經(jīng)充分地考慮了硬件容錯(cuò)的問題,所以很多的大數(shù)據(jù)系統(tǒng)實(shí)際上現(xiàn)在都是再一個(gè)沒有備份的前提下在做運(yùn)行。
另外是包括了數(shù)據(jù)訪問、安全、隱私、法規(guī)、歸檔,對(duì)數(shù)據(jù)管理來說一些非常重要的甚至于可以說是非常致命的一些需求,到現(xiàn)在仍然沒有足夠的解決方案,我們也是希望未來無論是廠商也好、用戶也好能夠重點(diǎn)看一下有關(guān)數(shù)據(jù)管理的問題,因?yàn)檫@將會(huì)是大數(shù)據(jù)解決方案中的一個(gè)可能最薄弱的環(huán)節(jié)了。
因?yàn)樵诖髷?shù)據(jù)的時(shí)代,數(shù)據(jù)的來源本身是多樣性的,數(shù)據(jù)的格式甚至是無法管理的,因?yàn)橛泻芏嗟臄?shù)據(jù)是來自于企業(yè)的外部,來自于互聯(lián)網(wǎng)的提供商。這種情況下數(shù)據(jù)的共享協(xié)議是一個(gè)很嚴(yán)重的問題,到底如何把這些協(xié)議自動(dòng)化地拿到數(shù)據(jù)倉(cāng)庫(kù)里面來。另外是有關(guān)熱點(diǎn)數(shù)據(jù),在大數(shù)據(jù)的時(shí)代也是跟傳統(tǒng)的數(shù)據(jù)管理有了非常明顯的差別。傳統(tǒng)的數(shù)據(jù)管理會(huì)把單獨(dú)的時(shí)間點(diǎn)作為一個(gè)熱點(diǎn)數(shù)據(jù),這是傳統(tǒng)的數(shù)據(jù)管理里面基本的假設(shè),但是在大數(shù)據(jù)的時(shí)代,我們覺得實(shí)際上熱點(diǎn)數(shù)據(jù)首先有可能性并行多個(gè)熱點(diǎn)數(shù)據(jù)在您的系統(tǒng)里面。同時(shí),這些熱點(diǎn)數(shù)據(jù)本身之間實(shí)際上是有可能有聯(lián)系的。因?yàn)楦鞣N事件的相互觸發(fā)所以很有可能這些熱點(diǎn)數(shù)據(jù)同時(shí)出現(xiàn),而且是相互關(guān)聯(lián)的,甚至于有可能是可以預(yù)測(cè)的。所以說在大數(shù)據(jù)時(shí)代,熱點(diǎn)數(shù)據(jù)的管理也是一個(gè)重要的話題。
更長(zhǎng)遠(yuǎn)來講有很多新的商機(jī)可以出現(xiàn),英國(guó)的客戶考慮采用的一種新的基于大數(shù)據(jù)的模型,希望當(dāng)一個(gè)顧客走到用戶的時(shí)候,首先是告訴客戶走進(jìn)商店,比如說他拿起了一瓶洗發(fā)水,在貨架里停留了十秒鐘,通過之前的購(gòu)買習(xí)慣知道這個(gè)用戶是不是從前沒有買過這個(gè)牌子。如果沒有買過這個(gè)牌子,實(shí)際上對(duì)這個(gè)產(chǎn)品有興趣了,可以及時(shí)地發(fā)送短信到手機(jī)上,憑這條短信可以在產(chǎn)品上得到10%的優(yōu)惠。這樣的技術(shù)實(shí)際上可以大大地提高商店的價(jià)值,也可以提升廠商推廣新產(chǎn)品的效率。但你可以預(yù)想到,里面實(shí)際上包含了很多基于大數(shù)據(jù)的技術(shù),比如說移動(dòng)的定位系統(tǒng),包括了CCTV人臉識(shí)別和數(shù)據(jù)庫(kù),還可以非常迅速地能在10秒內(nèi)把數(shù)據(jù)發(fā)送出來,可以對(duì)數(shù)據(jù)的計(jì)算和傳輸速度有非常高的要求的。如果能實(shí)現(xiàn)這些,對(duì)很多的企業(yè)都是有非常重要的意義的。但想實(shí)現(xiàn)這個(gè)功能,我們坐在這里說和想實(shí)際上是很容易的,但有很多的技術(shù)壁壘必須要突破才能實(shí)現(xiàn)。
所以我們認(rèn)為到現(xiàn)在為止有很多新的形態(tài)可以出現(xiàn)?,F(xiàn)在有哪些技術(shù),我提到了大數(shù)據(jù)IT架構(gòu)的基本的特征,首先必須是橫向擴(kuò)展的,因?yàn)槭菃吸c(diǎn)的技術(shù)無法承受大數(shù)據(jù)的要求,既然把性能通過橫向擴(kuò)展的架構(gòu)實(shí)現(xiàn)了,有沒有必要在每個(gè)節(jié)點(diǎn)上花費(fèi)太多的錢。另外它的高可用是通過軟件設(shè)計(jì)和架構(gòu)的設(shè)計(jì)來實(shí)現(xiàn)的,而不是通過傳統(tǒng)的高性能、高可用性的、高短的硬件設(shè)備來實(shí)現(xiàn)的。另外架構(gòu)是不共享的,避免資源的征用和仲裁。所以一定會(huì)是這樣一個(gè)基本的架構(gòu)的特征?,F(xiàn)在的架構(gòu)的技術(shù)應(yīng)該說離大規(guī)模的商用和普及是有很大的距離的。
另外現(xiàn)在的應(yīng)用狀況,首先Web的應(yīng)用把技術(shù)可行性進(jìn)行了充分的論證,但在普遍的傳統(tǒng)行業(yè)還是在非常小規(guī)模的實(shí)驗(yàn)性的應(yīng)用的狀況下,我也和業(yè)界的很多的企業(yè)溝通過,包括銀行業(yè)、電信業(yè)、能源都有一些小規(guī)模的應(yīng)用,實(shí)際上應(yīng)該說不算是應(yīng)用,更多像是一個(gè)演習(xí),他們也在積累著相應(yīng)的技術(shù),業(yè)界關(guān)注的重點(diǎn)還是在技術(shù)實(shí)現(xiàn)上。這對(duì)人員和流程管理的關(guān)注上還不夠,這將會(huì)產(chǎn)生嚴(yán)重的問題是有關(guān)人才短缺,蓋特納今年剛剛發(fā)布了一個(gè)預(yù)測(cè),就是我們認(rèn)為到2015年將會(huì)產(chǎn)生1萬個(gè)數(shù)據(jù)科學(xué)的職位。但實(shí)際商業(yè)街只能滿足1/3。也就是說在大數(shù)據(jù)的應(yīng)用方面,人才短缺將是非?,F(xiàn)實(shí)而急迫的問題。我非常高興今天有這么多人,相信各位是下一代的大數(shù)據(jù)的新貴。這是非常好的職業(yè)發(fā)展的方向。
對(duì)企業(yè)的建議首先是應(yīng)該迅速接受大數(shù)據(jù)的概念,不單單是從解決現(xiàn)有的IT的問題的角度,更多的應(yīng)該從未來的新的利潤(rùn)增長(zhǎng)點(diǎn)和新的競(jìng)爭(zhēng)點(diǎn)的角度,應(yīng)該采用非常積極的態(tài)度。另外是避免進(jìn)入廠商的炒作,要對(duì)此有警惕性。同時(shí),需要在實(shí)施的階段確定每一步的投資規(guī)模和設(shè)立里程碑,最終希望了解這些不成熟性必然會(huì)帶來一部分的失誤和風(fēng)險(xiǎn)的可能性,所以應(yīng)對(duì)此有所被。從IT部門的角度來看,數(shù)據(jù)的價(jià)值應(yīng)該說是由業(yè)務(wù)部門來產(chǎn)生的,所以必須要充分了解業(yè)務(wù)的需求。另外來說,根據(jù)這些需求新的大數(shù)據(jù)的需求重新規(guī)劃加厚并對(duì)預(yù)算做準(zhǔn)備,同時(shí)業(yè)務(wù)部門內(nèi)實(shí)際上也是需要做相應(yīng)的技術(shù)準(zhǔn)備。