▲2013中國數(shù)據(jù)庫大會(huì)專題

自2010年以來,國內(nèi)領(lǐng)先的IT專業(yè)網(wǎng)站IT168聯(lián)合旗下ITPUB、ChinaUnix技術(shù)社區(qū)已經(jīng)連續(xù)舉辦了三屆數(shù)據(jù)庫技術(shù)大會(huì),每屆大會(huì)超過千人規(guī)模,云集了國內(nèi)技術(shù)水平最高的數(shù)據(jù)架構(gòu)師、DBA、數(shù)據(jù)庫開發(fā)工程師、研發(fā)總監(jiān)、IT經(jīng)理等,是目前國內(nèi)最受歡迎的數(shù)據(jù)庫技術(shù)盛會(huì)。

當(dāng)大數(shù)據(jù)還在被我們冠以新技術(shù),討論新的趨勢(shì)的時(shí)候,人人游戲已經(jīng)走在了實(shí)踐的前列,給我們帶來了更多關(guān)于移動(dòng)互聯(lián)網(wǎng)與大數(shù)據(jù)相結(jié)合的實(shí)戰(zhàn)經(jīng)驗(yàn)。人人游戲首席數(shù)據(jù)科學(xué)家 陳繼東現(xiàn)場(chǎng)表示:從企業(yè)的需要對(duì)結(jié)構(gòu)化數(shù)據(jù)的管理需求,目前是非常成功的IT技術(shù)?,F(xiàn)在數(shù)據(jù)不再被刪除而是需要被保存下來,除了查詢還需要挖掘價(jià)值,對(duì)數(shù)據(jù)的處理和分析遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)的查詢。但是也面臨著諸多的問題:數(shù)據(jù)越來越大,PB的數(shù)據(jù)關(guān)系型數(shù)據(jù)庫同樣非常難處理,對(duì)非結(jié)構(gòu)化的處理很難,而且對(duì)數(shù)據(jù)的分析做的并不好,這些都需要進(jìn)行不斷的改進(jìn)。

大數(shù)據(jù)分析在移動(dòng)互聯(lián)網(wǎng)的應(yīng)用

▲人人游戲首席數(shù)據(jù)科學(xué)家 陳繼東

越來越多的信息能夠得到和生活相關(guān)的數(shù)據(jù),而且都能記錄?;A(chǔ)的架構(gòu)很廉價(jià),能夠很好的存儲(chǔ)數(shù)據(jù)。良好的伸縮性強(qiáng)的基礎(chǔ)管理架構(gòu),云計(jì)算提供了很好的架構(gòu),基礎(chǔ)的管理等等。

大數(shù)據(jù)分析在移動(dòng)互聯(lián)網(wǎng)的應(yīng)用

▲數(shù)據(jù)管理發(fā)展趨勢(shì)

大數(shù)據(jù)分析在移動(dòng)互聯(lián)網(wǎng)的應(yīng)用

▲大數(shù)據(jù)整體框架

大數(shù)據(jù)關(guān)鍵技術(shù)和工具

從信息生命周期的角度梳理大數(shù)據(jù)的關(guān)鍵技術(shù)和工具。當(dāng)我們把數(shù)據(jù)收集之后需要存儲(chǔ),也可以存儲(chǔ)在分布式文件系統(tǒng)中,并行數(shù)據(jù)庫中,和NOSQL中,甚至直接在數(shù)據(jù)庫中處理都可以。流式處理和主內(nèi)存是流行的趨勢(shì): 延時(shí)性小。

關(guān)鍵技術(shù)包括:

大數(shù)據(jù)分析在移動(dòng)互聯(lián)網(wǎng)的應(yīng)用
大數(shù)據(jù)分析在移動(dòng)互聯(lián)網(wǎng)的應(yīng)用

Mapreduce VS 并行數(shù)據(jù)庫

MapReduce最早是谷歌做大量非結(jié)構(gòu)化網(wǎng)頁的爬取的需求下出現(xiàn)的。數(shù)據(jù)庫和Mapreduce相比的的缺陷是模式不靈活。

大數(shù)據(jù)分析在移動(dòng)互聯(lián)網(wǎng)的應(yīng)用

•當(dāng)前并行數(shù)據(jù)庫的問題

–擴(kuò)展性:需要擴(kuò)展到上千臺(tái)節(jié)點(diǎn)

–容錯(cuò)性:需要改進(jìn)容錯(cuò),更細(xì)粒度,更高效率

–靈活性:需要Scheme free的處理,更好適應(yīng)非結(jié)構(gòu)化數(shù)據(jù)

–成本:更多開源實(shí)現(xiàn)和外圍開源工具

•MapReduce類方案的問題(Hive)

–性能:當(dāng)前為次優(yōu)的實(shí)現(xiàn),增加索引和查詢優(yōu)化

–實(shí)時(shí)處理能力:實(shí)時(shí)加載,實(shí)時(shí)復(fù)雜查詢能力

–標(biāo)準(zhǔn)的SQL接口:應(yīng)用遷移,與DW透明訪問

–更豐富的外圍工具:OLAP工具,自助分析工具

NoSQL VS SQL

定制化查詢 NoSQL很好的方案比Mysql集群要強(qiáng)很多。數(shù)據(jù)庫的趨勢(shì)是如何做深入的分析,如何將數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)并行化。大數(shù)據(jù)的趨勢(shì):線性模型+簡(jiǎn)單的特征要比復(fù)雜的模型+簡(jiǎn)單的特征要好,現(xiàn)在是一個(gè)特征的工程。

•NoSQL的特點(diǎn)

–高可擴(kuò)展性和彈性, 靈活數(shù)據(jù)模型, 強(qiáng)容錯(cuò), 高可用性(犧牲ACID,單記錄事務(wù)和最終一致性)

–適用于海量數(shù)據(jù)定制化存儲(chǔ),高吞吐查詢(如全屬性選擇應(yīng)用)

•SQL的特點(diǎn)

–強(qiáng)大的語義表達(dá)及關(guān)系表達(dá), 查詢處理和優(yōu)化,ACID, 強(qiáng)一致性

–擴(kuò)展性和靈活性差,用于高性能查詢和復(fù)雜分析

大數(shù)據(jù)分析在移動(dòng)互聯(lián)網(wǎng)的應(yīng)用

▲NoSQL VS SQL

移動(dòng)大數(shù)據(jù)應(yīng)用

人人游戲首席數(shù)據(jù)科學(xué)家 陳繼東認(rèn)為,移動(dòng)互聯(lián)網(wǎng)將成為大數(shù)據(jù)應(yīng)用的主戰(zhàn)場(chǎng),主要體現(xiàn)在:1、移動(dòng)大數(shù)據(jù)核心載體,智能設(shè)備普及。2、高寬帶引流大數(shù)據(jù),手機(jī)使用3G和Wifi接入互聯(lián)網(wǎng)。3、移動(dòng)大數(shù)據(jù)聚集地,Android和iOS成為主流OS。4、移動(dòng)大數(shù)據(jù)源頭和關(guān)鍵節(jié)點(diǎn),移動(dòng)互聯(lián)網(wǎng)入口:搜索,移動(dòng)瀏覽器,移動(dòng)應(yīng)用/商店,移動(dòng)廣告;海量的獨(dú)立移動(dòng)應(yīng)用,對(duì)深入分析的需求更強(qiáng)。

通過大數(shù)據(jù)分析增強(qiáng)用戶體驗(yàn),用戶希望采用語音或者手勢(shì)進(jìn)行輸入,后臺(tái)對(duì)于非結(jié)構(gòu)化海量數(shù)據(jù)的分析非常重要。因此,數(shù)據(jù)驅(qū)動(dòng)未來差異化發(fā)展,同時(shí)也會(huì)引發(fā)用戶對(duì)個(gè)性化需求?;ヂ?lián)網(wǎng)企業(yè)和移動(dòng)互聯(lián)網(wǎng)企業(yè)都在討論數(shù)據(jù)驅(qū)動(dòng)運(yùn)營,以及移動(dòng)互聯(lián)網(wǎng)的競(jìng)爭(zhēng)營銷,借助對(duì)用戶的分析可以做到。

另外。對(duì)空間和時(shí)間維度的擴(kuò)展,碎片化也是一個(gè)非常重要的特點(diǎn)。數(shù)據(jù)量更大,維度更高,數(shù)據(jù)量遠(yuǎn)超過互聯(lián)網(wǎng)。包括設(shè)備信息,上網(wǎng)方式,種類紛繁復(fù)雜。

移動(dòng)大數(shù)據(jù)數(shù)據(jù)的特點(diǎn)

1、數(shù)據(jù)的核心節(jié)點(diǎn)是人而不再是終端、網(wǎng)頁或ID

2、數(shù)據(jù)量更大,種類更多,覆蓋更廣(時(shí)空擴(kuò)展)

3、更多個(gè)性化屬性,如用戶地理位置,設(shè)備屬性

4、不受限于瀏覽器Cookie,數(shù)據(jù)更穩(wěn)定長久,更干凈準(zhǔn)確

5、用戶行為數(shù)據(jù)更碎片化,更實(shí)時(shí)性

數(shù)據(jù)的節(jié)點(diǎn)是人而不是終端設(shè)備,移動(dòng)互聯(lián)網(wǎng)中沒有cookie,移動(dòng)的核心節(jié)點(diǎn)不再是ID,而是設(shè)備,因此確定到某一個(gè)人。

移動(dòng)大數(shù)據(jù)分析的挑戰(zhàn)主要體現(xiàn)在:

1、采集數(shù)據(jù)補(bǔ)償

2、大數(shù)據(jù)實(shí)時(shí)處理與深入分析

3、用戶時(shí)空行為模式的挖掘和利用

4、跨應(yīng)用跨平臺(tái)跨設(shè)備多維數(shù)據(jù)分析

大數(shù)據(jù)在移動(dòng)互聯(lián)網(wǎng)中的應(yīng)用

▲移動(dòng)廣告分析的典型架構(gòu)

分享到

zhangcun

相關(guān)推薦