▲2013中國數(shù)據(jù)庫大會(huì)專題
自2010年以來,國內(nèi)領(lǐng)先的IT專業(yè)網(wǎng)站IT168聯(lián)合旗下ITPUB、ChinaUnix技術(shù)社區(qū)已經(jīng)連續(xù)舉辦了三屆數(shù)據(jù)庫技術(shù)大會(huì),每屆大會(huì)超過千人規(guī)模,云集了國內(nèi)技術(shù)水平最高的數(shù)據(jù)架構(gòu)師、DBA、數(shù)據(jù)庫開發(fā)工程師、研發(fā)總監(jiān)、IT經(jīng)理等,是目前國內(nèi)最受歡迎的數(shù)據(jù)庫技術(shù)盛會(huì)。
當(dāng)大數(shù)據(jù)還在被我們冠以新技術(shù),討論新的趨勢(shì)的時(shí)候,人人游戲已經(jīng)走在了實(shí)踐的前列,給我們帶來了更多關(guān)于移動(dòng)互聯(lián)網(wǎng)與大數(shù)據(jù)相結(jié)合的實(shí)戰(zhàn)經(jīng)驗(yàn)。人人游戲首席數(shù)據(jù)科學(xué)家 陳繼東現(xiàn)場(chǎng)表示:從企業(yè)的需要對(duì)結(jié)構(gòu)化數(shù)據(jù)的管理需求,目前是非常成功的IT技術(shù)?,F(xiàn)在數(shù)據(jù)不再被刪除而是需要被保存下來,除了查詢還需要挖掘價(jià)值,對(duì)數(shù)據(jù)的處理和分析遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)的查詢。但是也面臨著諸多的問題:數(shù)據(jù)越來越大,PB的數(shù)據(jù)關(guān)系型數(shù)據(jù)庫同樣非常難處理,對(duì)非結(jié)構(gòu)化的處理很難,而且對(duì)數(shù)據(jù)的分析做的并不好,這些都需要進(jìn)行不斷的改進(jìn)。
▲人人游戲首席數(shù)據(jù)科學(xué)家 陳繼東
越來越多的信息能夠得到和生活相關(guān)的數(shù)據(jù),而且都能記錄?;A(chǔ)的架構(gòu)很廉價(jià),能夠很好的存儲(chǔ)數(shù)據(jù)。良好的伸縮性強(qiáng)的基礎(chǔ)管理架構(gòu),云計(jì)算提供了很好的架構(gòu),基礎(chǔ)的管理等等。
▲數(shù)據(jù)管理發(fā)展趨勢(shì)
▲大數(shù)據(jù)整體框架
大數(shù)據(jù)關(guān)鍵技術(shù)和工具
從信息生命周期的角度梳理大數(shù)據(jù)的關(guān)鍵技術(shù)和工具。當(dāng)我們把數(shù)據(jù)收集之后需要存儲(chǔ),也可以存儲(chǔ)在分布式文件系統(tǒng)中,并行數(shù)據(jù)庫中,和NOSQL中,甚至直接在數(shù)據(jù)庫中處理都可以。流式處理和主內(nèi)存是流行的趨勢(shì): 延時(shí)性小。
關(guān)鍵技術(shù)包括:
Mapreduce VS 并行數(shù)據(jù)庫
MapReduce最早是谷歌做大量非結(jié)構(gòu)化網(wǎng)頁的爬取的需求下出現(xiàn)的。數(shù)據(jù)庫和Mapreduce相比的的缺陷是模式不靈活。
•當(dāng)前并行數(shù)據(jù)庫的問題
–擴(kuò)展性:需要擴(kuò)展到上千臺(tái)節(jié)點(diǎn)
–容錯(cuò)性:需要改進(jìn)容錯(cuò),更細(xì)粒度,更高效率
–靈活性:需要Scheme free的處理,更好適應(yīng)非結(jié)構(gòu)化數(shù)據(jù)
–成本:更多開源實(shí)現(xiàn)和外圍開源工具
•MapReduce類方案的問題(Hive)
–性能:當(dāng)前為次優(yōu)的實(shí)現(xiàn),增加索引和查詢優(yōu)化
–實(shí)時(shí)處理能力:實(shí)時(shí)加載,實(shí)時(shí)復(fù)雜查詢能力
–標(biāo)準(zhǔn)的SQL接口:應(yīng)用遷移,與DW透明訪問
–更豐富的外圍工具:OLAP工具,自助分析工具
NoSQL VS SQL
定制化查詢 NoSQL很好的方案比Mysql集群要強(qiáng)很多。數(shù)據(jù)庫的趨勢(shì)是如何做深入的分析,如何將數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)并行化。大數(shù)據(jù)的趨勢(shì):線性模型+簡(jiǎn)單的特征要比復(fù)雜的模型+簡(jiǎn)單的特征要好,現(xiàn)在是一個(gè)特征的工程。
•NoSQL的特點(diǎn)
–高可擴(kuò)展性和彈性, 靈活數(shù)據(jù)模型, 強(qiáng)容錯(cuò), 高可用性(犧牲ACID,單記錄事務(wù)和最終一致性)
–適用于海量數(shù)據(jù)定制化存儲(chǔ),高吞吐查詢(如全屬性選擇應(yīng)用)
•SQL的特點(diǎn)
–強(qiáng)大的語義表達(dá)及關(guān)系表達(dá), 查詢處理和優(yōu)化,ACID, 強(qiáng)一致性
–擴(kuò)展性和靈活性差,用于高性能查詢和復(fù)雜分析
▲NoSQL VS SQL
移動(dòng)大數(shù)據(jù)應(yīng)用
人人游戲首席數(shù)據(jù)科學(xué)家 陳繼東認(rèn)為,移動(dòng)互聯(lián)網(wǎng)將成為大數(shù)據(jù)應(yīng)用的主戰(zhàn)場(chǎng),主要體現(xiàn)在:1、移動(dòng)大數(shù)據(jù)核心載體,智能設(shè)備普及。2、高寬帶引流大數(shù)據(jù),手機(jī)使用3G和Wifi接入互聯(lián)網(wǎng)。3、移動(dòng)大數(shù)據(jù)聚集地,Android和iOS成為主流OS。4、移動(dòng)大數(shù)據(jù)源頭和關(guān)鍵節(jié)點(diǎn),移動(dòng)互聯(lián)網(wǎng)入口:搜索,移動(dòng)瀏覽器,移動(dòng)應(yīng)用/商店,移動(dòng)廣告;海量的獨(dú)立移動(dòng)應(yīng)用,對(duì)深入分析的需求更強(qiáng)。
通過大數(shù)據(jù)分析增強(qiáng)用戶體驗(yàn),用戶希望采用語音或者手勢(shì)進(jìn)行輸入,后臺(tái)對(duì)于非結(jié)構(gòu)化海量數(shù)據(jù)的分析非常重要。因此,數(shù)據(jù)驅(qū)動(dòng)未來差異化發(fā)展,同時(shí)也會(huì)引發(fā)用戶對(duì)個(gè)性化需求?;ヂ?lián)網(wǎng)企業(yè)和移動(dòng)互聯(lián)網(wǎng)企業(yè)都在討論數(shù)據(jù)驅(qū)動(dòng)運(yùn)營,以及移動(dòng)互聯(lián)網(wǎng)的競(jìng)爭(zhēng)營銷,借助對(duì)用戶的分析可以做到。
另外。對(duì)空間和時(shí)間維度的擴(kuò)展,碎片化也是一個(gè)非常重要的特點(diǎn)。數(shù)據(jù)量更大,維度更高,數(shù)據(jù)量遠(yuǎn)超過互聯(lián)網(wǎng)。包括設(shè)備信息,上網(wǎng)方式,種類紛繁復(fù)雜。
移動(dòng)大數(shù)據(jù)數(shù)據(jù)的特點(diǎn)
1、數(shù)據(jù)的核心節(jié)點(diǎn)是人而不再是終端、網(wǎng)頁或ID
2、數(shù)據(jù)量更大,種類更多,覆蓋更廣(時(shí)空擴(kuò)展)
3、更多個(gè)性化屬性,如用戶地理位置,設(shè)備屬性
4、不受限于瀏覽器Cookie,數(shù)據(jù)更穩(wěn)定長久,更干凈準(zhǔn)確
5、用戶行為數(shù)據(jù)更碎片化,更實(shí)時(shí)性
數(shù)據(jù)的節(jié)點(diǎn)是人而不是終端設(shè)備,移動(dòng)互聯(lián)網(wǎng)中沒有cookie,移動(dòng)的核心節(jié)點(diǎn)不再是ID,而是設(shè)備,因此確定到某一個(gè)人。
移動(dòng)大數(shù)據(jù)分析的挑戰(zhàn)主要體現(xiàn)在:
1、采集數(shù)據(jù)補(bǔ)償
2、大數(shù)據(jù)實(shí)時(shí)處理與深入分析
3、用戶時(shí)空行為模式的挖掘和利用
4、跨應(yīng)用跨平臺(tái)跨設(shè)備多維數(shù)據(jù)分析
▲移動(dòng)廣告分析的典型架構(gòu)