楊錦 發(fā)表于:13年12月05日 14:47 [原創(chuàng)] DOIT.com.cn
DOIT 原創(chuàng)報(bào)道 大數(shù)據(jù)就像一個(gè)燙手的山芋,聞著香,但“吃”起來(lái)卻很棘手。也許你還沒(méi)注意到,但大數(shù)據(jù)的應(yīng)用已經(jīng)在我們的生活中出現(xiàn)了,尤其是一些互聯(lián)網(wǎng)公司。但是以記者前幾日在京東商城買(mǎi)鍋的經(jīng)驗(yàn)來(lái)看,大數(shù)據(jù)的應(yīng)用還不太樂(lè)觀(guān),不那么智能那么科學(xué),前兩天在京東買(mǎi)了個(gè)電壓力鍋(用于周末燉肉冬日進(jìn)補(bǔ)),之后,再瀏覽任何網(wǎng)頁(yè),廣告位里全是這款鍋的廣告,大小貼圖,一種陰魂不散的趕腳油然而生......
因?yàn)檫@事兒,記者還曾在微博上吐糟一番,大數(shù)據(jù)的應(yīng)用原本是既方便用戶(hù)選擇又利于商家精準(zhǔn)營(yíng)銷(xiāo)的雙贏,然而,簡(jiǎn)單粗暴不夠智能的大數(shù)據(jù)卻適得其反惹人反感......
那么,作為信息管道的運(yùn)營(yíng)商,能否成為一個(gè)例外?又是如何對(duì)大數(shù)據(jù)進(jìn)行運(yùn)用的呢?
在今天2013中國(guó)大數(shù)據(jù)技術(shù)大會(huì)(原Hadoop中國(guó)云計(jì)算大會(huì))上,來(lái)自中國(guó)移動(dòng)通信研究院的孫少陵所長(zhǎng),分享了《大數(shù)據(jù)實(shí)時(shí)處理技術(shù)發(fā)展趨勢(shì)及中國(guó)移動(dòng)實(shí)踐和展望》,報(bào)告很長(zhǎng),但有幾點(diǎn)給記者留下了深刻印象,首先是昨天的一個(gè)大事,就是工信部對(duì)國(guó)內(nèi)三大運(yùn)營(yíng)商頒發(fā)了4G牌照,這將對(duì)移動(dòng)互聯(lián)網(wǎng)的發(fā)展起到非常大的推動(dòng)作用,而移動(dòng)互聯(lián)網(wǎng)的發(fā)展又會(huì)產(chǎn)生巨大的數(shù)據(jù)流量,作為傳統(tǒng)的數(shù)據(jù)傳輸管道,運(yùn)營(yíng)商坐擁海量數(shù)據(jù),這對(duì)大數(shù)據(jù)的挖掘和利用具有天然優(yōu)勢(shì)......此外,中移動(dòng)從多年前便開(kāi)始了大數(shù)據(jù)和云計(jì)算的研究工作,并推出了一款產(chǎn)品,有一個(gè)很親切的名字,叫“大云”,還講到中移動(dòng)如何通過(guò)各方手段進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)的問(wèn)題......
中國(guó)移動(dòng)通信研究院的孫少陵
照例,以下附上演講全文,這里有更多細(xì)節(jié):
主持人:接下來(lái)的報(bào)告原本由中國(guó)通信研究院黃曉慶院長(zhǎng)做報(bào)告,但是他由于有緊急的事情委托孫少陵所長(zhǎng)做這個(gè)報(bào)告,題目是大數(shù)據(jù)實(shí)時(shí)處理技術(shù)發(fā)展趨勢(shì)及中國(guó)移動(dòng)實(shí)踐和展望。有請(qǐng)孫少陵所長(zhǎng)。
孫少陵:各位領(lǐng)導(dǎo)各位來(lái)賓非常高興有這樣一個(gè)機(jī)會(huì)跟業(yè)界的專(zhuān)家,包括國(guó)外和國(guó)內(nèi)的分享一下我們中國(guó)移動(dòng)在大數(shù)據(jù)這方面的一些觀(guān)點(diǎn),以及我們中國(guó)移動(dòng)的一些實(shí)踐。這次本來(lái)黃曉慶非常想親自來(lái)跟大家互動(dòng),但是由于公司有一個(gè)很緊急的決策會(huì),他也是讓我在這里向大家表示一個(gè)歉意。中國(guó)移動(dòng)是全球最大的一個(gè)運(yùn)營(yíng)商,這里我們其實(shí)很關(guān)注整個(gè)互聯(lián)網(wǎng)在移動(dòng)方面的發(fā)展。當(dāng)然從目前來(lái)看全世界范圍里面IT發(fā)展最熱門(mén)三個(gè)詞,第一個(gè)就是移動(dòng)互聯(lián)網(wǎng)、第二云計(jì)算,第三個(gè)大數(shù)據(jù)。我們看一下移動(dòng)互聯(lián)網(wǎng)目前的發(fā)展趨勢(shì)?正好比較巧昨天是工信部正式向中國(guó)移動(dòng)、中國(guó)聯(lián)通、中國(guó)電信三家發(fā)布了4G的牌照,也意味著中國(guó)正式啟動(dòng)了4G無(wú)線(xiàn)寬帶的時(shí)代。全球移動(dòng)互聯(lián)網(wǎng)用戶(hù)數(shù)的增長(zhǎng),應(yīng)該說(shuō)非常快,比固定互聯(lián)網(wǎng)增速高三倍。
第二我們看一下流量增長(zhǎng)的情況,移動(dòng)互聯(lián)網(wǎng)流量增長(zhǎng)的速度也是非?欤2012年底移動(dòng)互聯(lián)網(wǎng)流量占比超過(guò)整個(gè)互聯(lián)網(wǎng)13%。實(shí)際上再看一個(gè)數(shù)字這個(gè)比較有意思對(duì)我們公司影響也比較大,在現(xiàn)代手機(jī)端移動(dòng)通信里面現(xiàn)在出現(xiàn)了一個(gè)二八的分布,原來(lái)傳統(tǒng)概念上手機(jī)首先打電話(huà)發(fā)短信的,但是實(shí)際上現(xiàn)在用戶(hù)使用移動(dòng)互聯(lián)網(wǎng)上網(wǎng)的業(yè)務(wù)和傳統(tǒng)的通信業(yè)務(wù),也就是我們打電話(huà)和發(fā)短信這個(gè)時(shí)間比變成了八比二的關(guān)系,移動(dòng)使用移動(dòng)通信使用我們手機(jī)最主要工作實(shí)際上在使用互聯(lián)網(wǎng)而不是傳統(tǒng)的通信業(yè)務(wù)。這個(gè)對(duì)于運(yùn)營(yíng)商來(lái)講我們直接帶來(lái)的影響就是說(shuō)傳統(tǒng)上的話(huà),我們通信業(yè)務(wù)是帶來(lái)我們價(jià)值的一個(gè)最大的部分,現(xiàn)在我們變成主要提供流量的一個(gè)運(yùn)營(yíng)商。從提供流量和從提供話(huà)音短信的價(jià)值來(lái)看這個(gè)我們做了一個(gè)測(cè)算,也就是說(shuō)移動(dòng)通信網(wǎng)它的話(huà)音投入產(chǎn)出比大概是流量數(shù)據(jù)投入產(chǎn)出比的5到6倍,所以對(duì)移動(dòng)運(yùn)營(yíng)商來(lái)說(shuō)直接的挑戰(zhàn),就是我用什么樣方式,彌補(bǔ)我原來(lái)在電話(huà)和短信上流失的價(jià)值。我覺(jué)得不管是云計(jì)算還是大數(shù)據(jù)還是移動(dòng)互聯(lián)網(wǎng)某種意義上來(lái)說(shuō)給移動(dòng)運(yùn)營(yíng)商都帶來(lái)了一個(gè)機(jī)遇,如何抓住這個(gè)機(jī)遇運(yùn)營(yíng)商還需要有很多事情要做。
4G和我們所說(shuō)的物聯(lián)網(wǎng)其實(shí)這兩個(gè)東西對(duì)整個(gè)我們移動(dòng)通信的數(shù)據(jù),它的這種增長(zhǎng)帶來(lái)了非常大的促進(jìn)作用,首先就是說(shuō)移動(dòng)通信4G的帶寬基本上可以達(dá)到50到100兆,其實(shí)不久將來(lái)我們諸位在任何地方使用手機(jī),使用移動(dòng)網(wǎng)絡(luò)的感覺(jué)就跟你在家里使用wifi是一樣的。所以說(shuō)移動(dòng)通信帶寬迅速放大實(shí)際上給整個(gè)流量的增長(zhǎng)帶來(lái)了很大的推動(dòng)作用。
第二就是說(shuō)M2M,物聯(lián)網(wǎng)這個(gè)東西這個(gè)概念,某種意義來(lái)說(shuō)把社會(huì)信息化觸角可以延伸到任何一個(gè)角落。某種意義來(lái)說(shuō)通信主體更多是人,現(xiàn)在很多東西包括我們平時(shí)在生產(chǎn)過(guò)程當(dāng)中使用的一些裝備,包括我們監(jiān)測(cè)交通、監(jiān)測(cè)天氣等等這樣的話(huà)都是有M2M的設(shè)備不斷的采集各種各樣的信息。這里也有一個(gè)預(yù)測(cè)數(shù)據(jù)就是說(shuō)到2014年的時(shí)候M2M它的這種設(shè)備就是這種物聯(lián)網(wǎng)的終端設(shè)備跟智能終端的設(shè)備基本上數(shù)量持平,某種意義上來(lái)說(shuō)我們談大數(shù)據(jù),其實(shí)這兩個(gè)趨勢(shì)為大數(shù)據(jù)帶來(lái)的一些變化值得大家去關(guān)注。
談到大數(shù)據(jù)實(shí)際上我覺(jué)得大部分公司首先想到互聯(lián)網(wǎng)公司,實(shí)際上互聯(lián)網(wǎng)公司實(shí)質(zhì)上就是數(shù)據(jù)公司。像百度在前兩天我在另外一個(gè)會(huì)上他們給我一個(gè)數(shù)據(jù),就是說(shuō)它的數(shù)據(jù)量現(xiàn)在大概有一千個(gè)PB的規(guī)模,每天處理幾十個(gè)PB,互聯(lián)網(wǎng)公司在數(shù)據(jù)利用上面走得很快,它真正通過(guò)數(shù)據(jù)的利用產(chǎn)生價(jià)值,顛覆了很多傳統(tǒng)產(chǎn)業(yè),某種意義上不是和傳統(tǒng)行業(yè)在既有商業(yè)模式下競(jìng)爭(zhēng),通過(guò)對(duì)數(shù)據(jù)的把握,數(shù)據(jù)的挖掘通過(guò)變通的方式獲取價(jià)值。我們對(duì)互聯(lián)網(wǎng)的數(shù)據(jù)關(guān)注比較多。我們有時(shí)候忽略運(yùn)營(yíng)商和網(wǎng)絡(luò)公司真正在冰山下面藏有巨大的數(shù)據(jù)資源。像程學(xué)旗老師發(fā)布的今年幾大趨勢(shì),其實(shí)大家第一大關(guān)注是網(wǎng)絡(luò)趨勢(shì),整個(gè)業(yè)界正在意識(shí)到這一點(diǎn),我們網(wǎng)絡(luò)里面有什么樣的數(shù)據(jù)?對(duì)于一個(gè)運(yùn)營(yíng)商來(lái)說(shuō)我們有什么網(wǎng)絡(luò)?我們有傳輸網(wǎng)絡(luò),有有線(xiàn)和無(wú)線(xiàn)的接入網(wǎng)絡(luò),我們叫四網(wǎng)協(xié)同,中國(guó)移動(dòng)WIFI的數(shù)量全國(guó)三四百萬(wàn)的水平,wifi每天傳輸非常多的數(shù)據(jù),這些數(shù)據(jù)是不是有價(jià)值,確實(shí)我們值得研究值得挖掘,這些數(shù)據(jù)對(duì)我們網(wǎng)絡(luò)優(yōu)化,業(yè)務(wù)創(chuàng)新,精準(zhǔn)營(yíng)銷(xiāo),還有一些決策支持做出一些工作。
電信運(yùn)營(yíng)商我們傳統(tǒng)提供管道的,正是因?yàn)樗械臄?shù)據(jù)流經(jīng)管道,實(shí)際上我們具有很大數(shù)據(jù)挖掘潛在的能力。對(duì)目前來(lái)說(shuō)運(yùn)營(yíng)商數(shù)據(jù)來(lái)商業(yè)利用主要有三個(gè)大方面。一、改善用戶(hù)體驗(yàn)。二、助力市場(chǎng)決策。三、優(yōu)化網(wǎng)絡(luò)質(zhì)量。用戶(hù)體驗(yàn)運(yùn)營(yíng)商要向互聯(lián)網(wǎng)學(xué)習(xí),運(yùn)營(yíng)商都在提供增值業(yè)務(wù),就是互聯(lián)網(wǎng)業(yè)務(wù),中國(guó)移動(dòng)有飛信有音樂(lè)還有139郵箱等等,我們?cè)趥鹘y(tǒng)的產(chǎn)品設(shè)計(jì)和系統(tǒng)的優(yōu)化UI交互式的優(yōu)化方面,其實(shí)我們還用一些比較傳統(tǒng)的手段,比如說(shuō)找客戶(hù)做市場(chǎng)調(diào)研之類(lèi)的;ヂ(lián)網(wǎng)公司我發(fā)現(xiàn)他們很少做這個(gè)事情,用戶(hù)每天對(duì)你的訪(fǎng)問(wèn),對(duì)你數(shù)據(jù)里的數(shù)據(jù)能發(fā)掘社會(huì)很多的特征,挖掘出他的消費(fèi)取向,這個(gè)為你產(chǎn)品設(shè)計(jì)帶來(lái)最真實(shí)第一手的資料。這一點(diǎn)運(yùn)營(yíng)商也在變化,我們通過(guò)對(duì)于數(shù)據(jù)的分析,統(tǒng)計(jì)、分析、挖掘來(lái)進(jìn)行我們業(yè)務(wù)推薦,客服,建立知識(shí)庫(kù)為整個(gè)我們產(chǎn)品的創(chuàng)新去提供一些支撐。
第二比較大的方面就是市場(chǎng)的這種營(yíng)銷(xiāo)的一個(gè)支撐。我們運(yùn)營(yíng)商有幾類(lèi)數(shù)據(jù),比如說(shuō)用戶(hù)帳號(hào),現(xiàn)在基本上手機(jī)都是實(shí)名制,實(shí)際上用戶(hù)在運(yùn)營(yíng)商登記的帳號(hào)信息有你年齡性別等等是比較真實(shí)最基礎(chǔ)的數(shù)據(jù)。第二協(xié)議類(lèi)型,這里說(shuō)協(xié)議類(lèi)型就是指套餐,你使用什么業(yè)務(wù),你是使用流量高的還是話(huà)音高的,你使用每月消費(fèi)量多少,其實(shí)這里面可以體現(xiàn)出很多東西,比如說(shuō)你消費(fèi)能力,一個(gè)月消費(fèi)10塊錢(qián)和一個(gè)月消費(fèi)一千塊錢(qián)的用戶(hù),消費(fèi)能力肯定不一樣,這種消費(fèi)能力延伸開(kāi)了可以幫助你做其他方面業(yè)務(wù)營(yíng)銷(xiāo)的支撐。還有業(yè)務(wù)類(lèi)型,比如說(shuō)這個(gè)用戶(hù)選擇中國(guó)移動(dòng)的游戲類(lèi)或者說(shuō)閱讀類(lèi),音樂(lè)類(lèi),其實(shí)這里都代表他個(gè)人一些興趣愛(ài)好,他的一些特點(diǎn)和取向。
第四個(gè)訪(fǎng)問(wèn)的URL,用戶(hù)經(jīng)?词裁淳W(wǎng)站?比如說(shuō)經(jīng)?大w育類(lèi)的網(wǎng)站,這里我們就會(huì)發(fā)現(xiàn)這個(gè)用戶(hù)可能對(duì)體育類(lèi)的產(chǎn)品和相關(guān)服務(wù)會(huì)有興趣。還有終端信息,因?yàn)槲覀儗?shí)際上在網(wǎng)絡(luò)上可以通過(guò)各種渠道獲取用戶(hù)在使用什么樣的終端。這個(gè)終端信息一方面來(lái)說(shuō)對(duì)我們自己做業(yè)務(wù)來(lái)說(shuō)非常重要,因?yàn)槊總(gè)終端的能力不一樣,每個(gè)終端的特征不一樣,就是每個(gè)終端適合使用的業(yè)務(wù)不一樣。第二我們中國(guó)移動(dòng)也有自己的終端公司,什么樣終端好賣(mài)?用戶(hù)喜歡終端什么樣的功能?什么樣的特征?對(duì)我們自己使用開(kāi)發(fā)終端也有價(jià)值。還有上行下行的流量,通過(guò)這些數(shù)據(jù)首先我們可以分析流量,就是說(shuō)我所有的業(yè)務(wù)在所有網(wǎng)絡(luò)當(dāng)中流量流向變化情況,這里面也許蘊(yùn)藏一些某種信息。比如說(shuō)什么地方發(fā)生了一個(gè)比較大的事件。舉個(gè)例子前一段時(shí)間四川的地震,我們四川那邊電話(huà)局立馬附和飛速的往上漲,流量流向可以通過(guò)這個(gè)發(fā)現(xiàn)。用戶(hù)行為的分析,他偏好,移動(dòng)通信有位置信息,地理信息,手機(jī)號(hào)碼是你注冊(cè)地,我既知道你到底常駐在什么地方,我又知道你經(jīng)常漫游在什么地方,所以這方面數(shù)據(jù)非常有意思。第三就是流量一些清帳單的查詢(xún),用戶(hù)對(duì)我流量消費(fèi)非常關(guān)注,他希望有詳細(xì)的上網(wǎng)記錄可以查詢(xún)之類(lèi)的,這個(gè)為了提供用戶(hù)透明消費(fèi)支持我們做一些這方面工作。
第三個(gè)比較大的方面是優(yōu)化網(wǎng)絡(luò)質(zhì)量,運(yùn)營(yíng)商我們一直強(qiáng)調(diào)我們服務(wù)是電信級(jí),全年我們故障率我們可靠性在五個(gè)九,五個(gè)九是電信級(jí)的標(biāo)準(zhǔn),意味著一旦這個(gè)系統(tǒng)發(fā)生故障在幾十分鐘的水平就是線(xiàn)網(wǎng)的重大故障,這個(gè)重大故障就要升級(jí)到主管單位進(jìn)行報(bào)告。對(duì)中國(guó)移動(dòng)來(lái)說(shuō)我們李銳總說(shuō)過(guò)一句話(huà)質(zhì)量就是生命線(xiàn),我們實(shí)時(shí)發(fā)現(xiàn)我們網(wǎng)絡(luò)故障解決我們網(wǎng)絡(luò)故障是我們很重要的工作。中國(guó)移動(dòng)很大一部分比重員工在做線(xiàn)網(wǎng)的監(jiān)控,線(xiàn)網(wǎng)監(jiān)控一方面比較耗人,第二目前網(wǎng)絡(luò)結(jié)構(gòu)越來(lái)越復(fù)雜,層次越來(lái)越多,一旦發(fā)生故障到底出在什么地方很難查找。大規(guī)模的數(shù)據(jù)挖掘其實(shí)我們可以幫助我們做網(wǎng)絡(luò)的故障定位和故障排查。我IP網(wǎng)我無(wú)線(xiàn)網(wǎng)送上來(lái)大量的日志數(shù)據(jù),這個(gè)日志數(shù)據(jù)通過(guò)我們模型建立做分析確實(shí)對(duì)網(wǎng)絡(luò)運(yùn)營(yíng)成本有比較大的降低。在運(yùn)營(yíng)商的實(shí)踐過(guò)程當(dāng)中也就是今天我們要講的主題,我們對(duì)數(shù)據(jù)挖掘,數(shù)據(jù)處理,數(shù)據(jù)分析的實(shí)時(shí)性我們感覺(jué)需求越來(lái)越迫切。這里頭實(shí)際上咱們談大數(shù)據(jù)的概念經(jīng)常說(shuō)幾個(gè)V,我們不想老生常談幾個(gè)V的問(wèn)題,根據(jù)數(shù)據(jù)量,數(shù)據(jù)動(dòng)態(tài)我們總結(jié)出來(lái)什么叫實(shí)時(shí)處理,數(shù)據(jù)的實(shí)時(shí)處理實(shí)時(shí)分析到底我們想關(guān)注什么特點(diǎn)?在這我們對(duì)實(shí)時(shí)處理有個(gè)廣義的定義。
第一個(gè)實(shí)時(shí)這種流式數(shù)據(jù)的處理,數(shù)據(jù)有動(dòng)態(tài)產(chǎn)生的特征,這是大數(shù)據(jù)的特點(diǎn)。這種數(shù)據(jù)動(dòng)態(tài)產(chǎn)生我不能等到批量產(chǎn)生批量處理,我很多數(shù)據(jù)稍縱即逝跟位置和時(shí)間關(guān)聯(lián)性非常強(qiáng),我必須及時(shí)處理,來(lái)了數(shù)據(jù)處理,處理完馬上送上去,也許我馬上使用,流式處理在解決這樣的問(wèn)題。
第二對(duì)于海量數(shù)據(jù)的快速處理。要實(shí)現(xiàn)這種交互式。我們現(xiàn)在有些省公司實(shí)際上做整個(gè)公司的生產(chǎn)分析的時(shí)候不再依賴(lài)大家下去花好幾天時(shí)間整一個(gè)報(bào)告把數(shù)據(jù)報(bào)上來(lái),而是說(shuō)它有一套系統(tǒng),這個(gè)系統(tǒng)里面你可以看到當(dāng)月所有生產(chǎn)的數(shù)據(jù),KPI數(shù)據(jù),他的收入,用戶(hù)增量,流失量可以上篡下取挖掘到我每個(gè)小區(qū)帶來(lái)多少收入,每個(gè)地市、縣區(qū)、每個(gè)基站帶來(lái)多少收入,流量是多少。這個(gè)需要一個(gè)快速海量處理。對(duì)于大量的IO操作限制了對(duì)于交互式的快速反應(yīng),F(xiàn)在圖計(jì)算更多是通過(guò)消息而不是通過(guò)IO的文件方式做數(shù)據(jù)處理。像內(nèi)存式的計(jì)算結(jié)合很多新的系統(tǒng),像SLD、CSIO這些東西,可以在這方面做很大提升。
我們內(nèi)部把云計(jì)算和大數(shù)據(jù)放在一塊說(shuō)的,在中國(guó)移動(dòng)我們傳統(tǒng)體系架構(gòu)里面,我們很大程度上依賴(lài)于昂貴商用的硬件和商用的軟件,我們現(xiàn)在交易數(shù)據(jù)庫(kù)還有分析型的數(shù)據(jù)庫(kù)大量使用甲骨文、DB2等商業(yè)數(shù)據(jù)庫(kù)。使用小型機(jī)服務(wù)器,像EMC昂貴盤(pán)陣的系統(tǒng)。這種架構(gòu)實(shí)際上存在幾個(gè)問(wèn)題,第一個(gè)在結(jié)構(gòu)化處理能力方面是不足的,在非結(jié)構(gòu)化處理方面不足,第二系統(tǒng)成本非常高,中國(guó)移動(dòng)小機(jī)的數(shù)量有可能PC數(shù)量還高。第三硬件平臺(tái)的兼容性很差,惠普的硬件跟IBM的系統(tǒng),像甲骨文的Spark的平臺(tái),沒(méi)有辦法做無(wú)縫的跨平臺(tái)。第四個(gè)擴(kuò)展性,傳統(tǒng)的系統(tǒng)都是屬于TB級(jí)系統(tǒng),支持PB級(jí)分析交易能力是有限的。所謂云計(jì)算中國(guó)移動(dòng)認(rèn)為你要把這種商用的硬件盡量用消費(fèi)級(jí)的產(chǎn)品,就是說(shuō)我們像X86、還有RM等等這樣一些PC服務(wù)器用它代替,把整個(gè)系統(tǒng)的架構(gòu)改成橫向擴(kuò)展的方式。整個(gè)系統(tǒng)上來(lái)說(shuō)我覺(jué)得像links開(kāi)源的系統(tǒng)會(huì)使用,會(huì)支持上萬(wàn)級(jí)PB數(shù)據(jù)的交互和分析。
在Hadoop正式發(fā)布06年9月份之后半年時(shí)間我們啟動(dòng)了相關(guān)研發(fā)工作,在國(guó)內(nèi)介入Hadoop比較早,后面我們也在不斷的進(jìn)行跟蹤,也參與每年在美國(guó)的Hadoop會(huì)議,同時(shí)我們?cè)贖adoop社區(qū)這種開(kāi)源社區(qū)目前積極提交提案。的確就是說(shuō)人員有限,所以在這方面實(shí)際上我們提的比較早,但是比很多互聯(lián)網(wǎng)的公司等等我覺(jué)得確實(shí)現(xiàn)在我們應(yīng)該說(shuō)研究上還有一定的差距。為了支持云計(jì)算和大數(shù)據(jù)的研究和開(kāi)發(fā),目前我們實(shí)驗(yàn)室里把這個(gè)系統(tǒng)應(yīng)該擴(kuò)到一千多個(gè)節(jié)點(diǎn),我們從2009年開(kāi)始基本上我們保持一千多個(gè)節(jié)點(diǎn)服務(wù)器來(lái)真正做這種大數(shù)據(jù)的實(shí)際海量和性能這方面的一些考驗(yàn)。
中國(guó)移動(dòng)實(shí)際上大云產(chǎn)品,融合了云計(jì)算和大數(shù)據(jù)兩方面的工作,大數(shù)據(jù)方面我們關(guān)注不僅是說(shuō)分析型的產(chǎn)品同時(shí)關(guān)注交易型的產(chǎn)品。我們分析型產(chǎn)品目前主要基于Hadoop,在Hadoop這塊我們目前結(jié)合自己需求做中國(guó)移動(dòng)的分支BCHadoop,我們現(xiàn)在把BCHadoop也做了一個(gè)開(kāi)源,在今年CCF的創(chuàng)業(yè)大賽上,我們中國(guó)移動(dòng)出的這兩道題基本上在中國(guó)移動(dòng)BCHadoop上去進(jìn)行實(shí)現(xiàn)。這方面其實(shí)我們?cè)贖adoop基礎(chǔ)之上做了CKOO支持這方面加強(qiáng),做了一個(gè)數(shù)據(jù)倉(cāng)庫(kù),同時(shí)我們也做了一個(gè)數(shù)據(jù)挖掘系統(tǒng),我們BCPDM起步比HAMA要走,應(yīng)該說(shuō)它和HAMA特征上各有優(yōu)勢(shì),HAMA在推薦算法比較強(qiáng),我們PDM主要基于中國(guó)移動(dòng)自己經(jīng)營(yíng)需求做了分類(lèi)規(guī)則分類(lèi)等等的方法,在社區(qū)文本挖掘都做了相關(guān)算法和工具,在搜索引擎這些我們做了一些工作。
在交易類(lèi)的產(chǎn)品目前我們?cè)趦?nèi)存的數(shù)據(jù)庫(kù)上,內(nèi)存的KIH還有流式計(jì)算,還有分布式的交易數(shù)據(jù)庫(kù)等這部分我們都在開(kāi)發(fā),也在線(xiàn)網(wǎng)做了試點(diǎn),這方面我們借鑒像淘寶等等互聯(lián)網(wǎng)公司的經(jīng)驗(yàn)。我們昨天在中國(guó)移動(dòng)互聯(lián)網(wǎng)國(guó)際研討會(huì)說(shuō)我們正式發(fā)布了大云2.5版本,當(dāng)時(shí)江西公司做了一個(gè)應(yīng)用案例的分享。他們用了大云我們RDM并行分布式交易數(shù)據(jù)庫(kù)如何解決我們線(xiàn)網(wǎng)綜合查詢(xún)和終端的精準(zhǔn)消息存儲(chǔ)的支持。
運(yùn)營(yíng)上在大數(shù)據(jù)的使用上面我們都會(huì)做一些什么樣的工作?第一個(gè)在網(wǎng)絡(luò)優(yōu)化方面,前面也說(shuō)了一些,在移動(dòng)互聯(lián)網(wǎng),或者說(shuō)寬待移動(dòng)通信的時(shí)代,我們現(xiàn)在很重要的一個(gè)線(xiàn)網(wǎng)的需求,就是說(shuō)你隨時(shí)要把握線(xiàn)網(wǎng)流量和流向的變化。比如說(shuō)我們現(xiàn)在2G網(wǎng)絡(luò)是承載我們目前最主要的這種數(shù)據(jù)流量,但是2G網(wǎng)絡(luò)實(shí)際上肯定是說(shuō)它這種數(shù)據(jù)承載的能力比較差是窄帶通信的系統(tǒng),同時(shí)造價(jià)很昂貴,現(xiàn)在主要承載我們?cè)捯舻臉I(yè)務(wù)。所以說(shuō)我們整個(gè)系統(tǒng)規(guī)劃、系統(tǒng)維護(hù)怎么平衡我四張網(wǎng)絡(luò),LTE、wifi等網(wǎng)絡(luò),怎么把網(wǎng)絡(luò)引到成本最低,價(jià)值最高的網(wǎng)絡(luò)上,實(shí)現(xiàn)我們綜合價(jià)值的最大化。這個(gè)要求我們實(shí)時(shí)對(duì)全網(wǎng)百萬(wàn)個(gè)以上的基站和幾百萬(wàn)的AP進(jìn)行快速的監(jiān)控,我要監(jiān)控每天的變化,有些基站變成熱點(diǎn)基站,流量壓力非常大,采取擴(kuò)容或者采取網(wǎng)絡(luò)參數(shù)調(diào)整的方式,把流量做一些引導(dǎo)。其實(shí)目前我們通常使用的方式把整個(gè)一個(gè)城域去劃成方格,然后定期采集和分析。這里需要工作我首先數(shù)據(jù)采集要快,這需要用到流計(jì)算的技術(shù),這里面有一個(gè)細(xì)節(jié),可能搞移動(dòng)專(zhuān)家比較清楚,為了保護(hù)用戶(hù)安全性和隱私性,實(shí)際上我們?cè)谟脩?hù)不管是通話(huà)還是數(shù)據(jù)建立過(guò)程當(dāng)中,我沒(méi)有一直使用用戶(hù)SIM卡里面的EMC,我們定期分配一個(gè)PMC是一個(gè)臨時(shí)的ID,記錄你通話(huà)某一時(shí)段的動(dòng)作。我這個(gè)跟用戶(hù)或者跟終端不是整個(gè)一一對(duì)應(yīng),過(guò)了一段時(shí)間網(wǎng)絡(luò)重新分配這個(gè)就變了。為什么我要及時(shí)處理,實(shí)時(shí)處理,流式計(jì)算必須保證在整個(gè)沒(méi)有變化的過(guò)程當(dāng)中,你要把EMC記錄下來(lái),這個(gè)EMC對(duì)應(yīng)電話(huà)號(hào)碼,后續(xù)我處理就會(huì)精細(xì)到每個(gè)用戶(hù),像數(shù)據(jù)采集數(shù)據(jù)合成我們需要一些數(shù)據(jù)庫(kù)。剛才專(zhuān)家們提到一些內(nèi)存,還有高性能分布式計(jì)算的技術(shù)要把網(wǎng)絡(luò)的擁塞情況和這種狀況盡快形成報(bào)告,報(bào)給我們運(yùn)行維護(hù)部門(mén)。這個(gè)主要是我們網(wǎng)絡(luò)方面的應(yīng)用。
第二精準(zhǔn)營(yíng)銷(xiāo)方面,實(shí)際上隨著現(xiàn)在在移動(dòng)通信和移動(dòng)互聯(lián)網(wǎng),現(xiàn)在確實(shí)市場(chǎng)競(jìng)爭(zhēng)很激烈的,F(xiàn)在移動(dòng)運(yùn)營(yíng)商,像中國(guó)移動(dòng)提出來(lái)一個(gè)微營(yíng)銷(xiāo),微營(yíng)銷(xiāo)就是要關(guān)注你每一個(gè)用戶(hù)的特點(diǎn)。我營(yíng)銷(xiāo)動(dòng)作要根據(jù)每一個(gè)不同用戶(hù)進(jìn)行差異化。我們基礎(chǔ)必須有一個(gè)大數(shù)據(jù),對(duì)用戶(hù)進(jìn)行精確的畫(huà)像,對(duì)線(xiàn)網(wǎng)發(fā)生動(dòng)作及時(shí)采集快速反映。這里舉幾個(gè)案例,像位置類(lèi)的業(yè)務(wù),我們運(yùn)營(yíng)商經(jīng)常有時(shí)候會(huì)在某一些營(yíng)業(yè)廳有特定終端的優(yōu)惠套餐,這樣回饋用戶(hù)的營(yíng)銷(xiāo)活動(dòng)。比如說(shuō)有一個(gè)用戶(hù)移動(dòng)到離營(yíng)業(yè)廳比較近的小區(qū),從我們市場(chǎng)部門(mén)希望給用戶(hù)推送一個(gè)消息,告訴你說(shuō)我營(yíng)業(yè)廳正在做某一個(gè)業(yè)務(wù)的推薦。當(dāng)然做這個(gè)事情的前提你不能沒(méi)事去給用戶(hù)推送這些消息,因?yàn)楝F(xiàn)在大家對(duì)垃圾短信很反感,所以你怎么知道這個(gè)用戶(hù)對(duì)你終端和套餐感興趣,這需要有后臺(tái)處理和挖掘的工作。比如說(shuō)這個(gè)用戶(hù)目前使用終端類(lèi)型是什么?過(guò)往幾年使用的終端是什么?某種意義上可以透露這個(gè)用戶(hù)是不是特定某一個(gè)品牌的忠實(shí)粉絲。還有最近這個(gè)用戶(hù)是不是在網(wǎng)上游覽跟這個(gè)特定手機(jī)相關(guān)的網(wǎng)站,所有這些東西其實(shí)有可能讓我們了解這個(gè)用戶(hù)會(huì)不會(huì)對(duì)三星和蘋(píng)果的手機(jī)感興趣。同時(shí)它要發(fā)現(xiàn)這個(gè)用戶(hù)經(jīng)過(guò)我的小區(qū)在很好時(shí)機(jī)把這個(gè)消息推送下去,他要走到別的地方這個(gè)消息最佳時(shí)機(jī)就失去了,這是實(shí)時(shí)分析實(shí)時(shí)采取動(dòng)作一個(gè)典型的案例。
還有一個(gè)案例比如說(shuō)像有一些用戶(hù)他經(jīng)常出差去某一個(gè)地方,我們有兩城一家的套餐,你定這個(gè)套餐整個(gè)漫游費(fèi)長(zhǎng)途費(fèi)沒(méi)有了,對(duì)這些用戶(hù)你要有識(shí)別。這個(gè)用戶(hù)經(jīng)常到某一個(gè)城市,他在機(jī)場(chǎng)開(kāi)機(jī)你可以推送一個(gè)消息告訴他說(shuō)這個(gè)套餐可以為你省錢(qián)。我們還有很多目前新的業(yè)務(wù),比如說(shuō)中國(guó)移動(dòng)去年推出的靈犀,實(shí)際上是用戶(hù)人機(jī)對(duì)話(huà)的系統(tǒng),某種意義上有點(diǎn)像自動(dòng)化的客服系統(tǒng),這個(gè)系統(tǒng)用了云識(shí)別,實(shí)際上后臺(tái)有一個(gè)比較大的數(shù)據(jù)庫(kù),這個(gè)需要我們把很多知識(shí)結(jié)構(gòu)化,然后在后臺(tái)能夠快速為用戶(hù)提出的問(wèn)題找到相關(guān)的答案。
還有物聯(lián)網(wǎng),物聯(lián)網(wǎng)剛才我們說(shuō)了它實(shí)際上每天都在送大量的信息,這些信息我怎么快速的處理,快速的形成這個(gè)動(dòng)作。比如說(shuō)我們?cè)跓o(wú)錫那邊做過(guò)太湖藍(lán)藻的監(jiān)測(cè)物聯(lián)網(wǎng)應(yīng)用,它需要對(duì)數(shù)據(jù)實(shí)時(shí)的采集實(shí)時(shí)的處理。中國(guó)移動(dòng)在國(guó)內(nèi)國(guó)外開(kāi)源和標(biāo)準(zhǔn)化方面做了很多工作,就是跟Hadoop相關(guān)主要我們現(xiàn)在建立了一個(gè)開(kāi)源社區(qū)。最主要原因是什么?運(yùn)營(yíng)商在使用Hadoop的時(shí)候往往有它自己的一些特點(diǎn)。這些需求如果要通過(guò)主線(xiàn)滿(mǎn)足的話(huà)周期很長(zhǎng)的,所以我們希望有些東西我們自己根據(jù)我們需求先去實(shí)現(xiàn)。我們開(kāi)源社區(qū)目前主要參與單位是中國(guó)移動(dòng)一些合作伙伴,華為、亞聯(lián)等等這樣一些公司。我們首先把一些線(xiàn)網(wǎng)急需的需求在我們自己分支里面實(shí)現(xiàn),同時(shí)我們推動(dòng)主線(xiàn)逐漸的把它默植進(jìn)去。
最后我們對(duì)大數(shù)據(jù)的展望,其實(shí)大數(shù)據(jù)的未來(lái)是機(jī)器智能,也就是說(shuō)目前我們機(jī)器更多是解放了我們手和腳,未來(lái)怎么樣讓它更多幫我們思想,這件事情是我們認(rèn)為真正大數(shù)據(jù)未來(lái)發(fā)展終極的目標(biāo),F(xiàn)在像谷歌等等他們?cè)赿pling做了很多公司,像人機(jī)交互、語(yǔ)音識(shí)別也是大數(shù)據(jù)廣義的范疇,通過(guò)機(jī)器來(lái)學(xué)習(xí)知識(shí),把數(shù)據(jù)形成知識(shí),知識(shí)變成智能,真正給我們社會(huì)信息化做出推動(dòng)的作用。以上是我們這邊分享的一些觀(guān)點(diǎn),不成熟還是希望跟大家探討批評(píng)指教。
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶(hù)寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.