大數(shù)據(jù)是天時(shí)地利人和,讓它發(fā)揮價(jià)值也是需要天時(shí)地利人和的。不僅在技術(shù)方面、在人員方面、流程放慢都需要注意。編程人員有一些Hadoop大數(shù)據(jù)的方案,他們關(guān)注大數(shù)據(jù)的應(yīng)用的平臺(tái)是想可以得到比較靈活的應(yīng)用;另一方面有一些比較傳統(tǒng)的,有一些傳統(tǒng)的非技術(shù)型的公司,計(jì)算機(jī)科學(xué)人才數(shù)量比較少,維護(hù)和管理的是DBAs,他們關(guān)注的是應(yīng)用。所以在一個(gè)大數(shù)據(jù)的落地方案里,應(yīng)用怎么樣大眾化是需要按不同的企業(yè)、不同的行業(yè)、不同的社會(huì)的需求來(lái)定位什么叫做易于使用。

現(xiàn)在講大數(shù)據(jù)有四個(gè)方面,易用是我們需要關(guān)心的。其實(shí)大數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)里面很早以前就開(kāi)始做海量的數(shù)據(jù),但他們以前是用SQL來(lái)分析的,用SQL是比較高層的,但SQL比較容易重復(fù)使用,有一些比較麻煩的、比較復(fù)雜的Map Reduce程序,SQL就比較容易做出來(lái)。但SQL在一些問(wèn)題的匹配上比較弱,有SQL來(lái)表達(dá)一些問(wèn)題比較復(fù)雜。SQL在查詢(xún)優(yōu)化器做的選擇比較低效。因此SQL用UDF來(lái)做補(bǔ)償。第一,UDF不是一個(gè)并行設(shè)計(jì)的框架。第二,跟數(shù)據(jù)模型的關(guān)聯(lián)很大,很難把一個(gè)數(shù)據(jù)模型搬到另外一個(gè)數(shù)據(jù)模式上。所以現(xiàn)在大規(guī)模的互聯(lián)網(wǎng)公司找另外一些平臺(tái)。Map Reduce就有一些平臺(tái)來(lái)處理大數(shù)據(jù),各位都很熟悉。需要用到Map Reduce,那么在座的各位很會(huì)編程和代碼的人可以用Hive。還有另外一些像database以前有的,還有一些優(yōu)化在這里面就沒(méi)有了。

在考慮輕易地重復(fù)使用的、易用的而且能夠處理大量數(shù)據(jù)的應(yīng)用方面,天睿在4、5年前就在做SQL-Map Reduce的結(jié)合。天睿加進(jìn)一些數(shù)據(jù)庫(kù)方面的技術(shù),出發(fā)點(diǎn)是在數(shù)據(jù)庫(kù)這方面,所以我們已經(jīng)有很多數(shù)據(jù)庫(kù)方面的優(yōu)化像index等等。之后我們覺(jué)得Map Reduce、大數(shù)據(jù)這方面有很多可參與很好的框架,之后我們把Map Reduce的框架建立在一個(gè)數(shù)據(jù)庫(kù)上面,應(yīng)用方面很多傳統(tǒng)公司的分析師可以用SQL來(lái)訪問(wèn)這個(gè)平臺(tái),這是一個(gè)大數(shù)據(jù)平臺(tái)。因?yàn)檫@是一個(gè)SQL的平臺(tái),很多現(xiàn)成的BI的工具也可以馬上地放到平臺(tái)上使用。

另外一個(gè)方面,軟件開(kāi)發(fā)人員也可以很容易用到這個(gè)平臺(tái)來(lái)寫(xiě)平常的Map Reduce,所以它兼容了SQL的好處,也兼容了Map Reduce的好處。

另外在應(yīng)用方面很少有傳統(tǒng)的公司想寫(xiě)一個(gè)Map Reduce的功能包來(lái)用。那更好的應(yīng)用方法是把一些經(jīng)常用的功能提供給企業(yè)、提供給這些人,提供給社會(huì),他們就可以馬上利用到功能包,怎么把結(jié)構(gòu)建起來(lái),怎么分析我的數(shù)據(jù),因?yàn)槲覀兿胱龅降钠鋵?shí)就是,如果我們的分析工具很完善,他們只要想到了怎么分析就可以了。天睿建了50個(gè)功能包,讓不同的企業(yè)和行業(yè)做這樣的分析。從SQL這方面出發(fā)結(jié)合了Map Reduce的分析中間是一個(gè)路徑分析的功能包,如果用Map Reduce來(lái)寫(xiě)這個(gè)程序可能還會(huì)更長(zhǎng)更復(fù)雜。如果讓一個(gè)分析師來(lái)寫(xiě)他是沒(méi)法兒想到的。但他用這樣一個(gè)辦法來(lái)寫(xiě)的話,又很容易寫(xiě)到,如果他要改也很容易改。因?yàn)樽鰯?shù)據(jù)分析不是分析一次就完了,要不斷地分析,分析一次可能得到更加多的信息和問(wèn)題需要問(wèn),所以是重復(fù)性的,如果你需要修改一個(gè)分析的程序要很復(fù)雜的話,分析師的工作就沒(méi)辦法做到了。所以這是一個(gè)比較好的方法讓他們得到他們需要得到的信息。

對(duì)于開(kāi)發(fā)人員,在座的各位如果想寫(xiě)新的功能包怎么寫(xiě)呢?也應(yīng)該考慮另外一層用戶(hù)的應(yīng)用,不能只考慮到分析師也要考慮到開(kāi)發(fā)人員的應(yīng)用。

現(xiàn)在國(guó)內(nèi)和國(guó)外很多的企業(yè)都開(kāi)始知道數(shù)據(jù)庫(kù)不是一個(gè)完整的企業(yè)數(shù)據(jù)框架,都需要在上面做一些增加接受非結(jié)構(gòu)化的數(shù)據(jù),然后在結(jié)構(gòu)化的數(shù)據(jù)上做更加深的另外一個(gè)角度的分析。在現(xiàn)成的數(shù)據(jù)倉(cāng)庫(kù)里面現(xiàn)在看到了比較常見(jiàn)的框架是旁邊有一個(gè)探索的平臺(tái),利用一個(gè)平臺(tái)做快速的結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)的探索,做SQL和SQL以外的分析來(lái)得到更加大的數(shù)據(jù)的價(jià)值。Hadoop也會(huì)在這個(gè)框架里起到一定的作用,它可以進(jìn)行大量的數(shù)據(jù)的搜集,ETL數(shù)據(jù)加工、數(shù)據(jù)儲(chǔ)存的作用,可以建立更加好、更加優(yōu)化的數(shù)據(jù)平臺(tái)。

基于這樣的平臺(tái)我們也出了一個(gè)方案,它可以結(jié)合Aster的數(shù)據(jù)挖掘平臺(tái)和Hadoop的一些機(jī)器一起聯(lián)合然后中間有一個(gè)比較寬的連接器,可以從Aster到Hadoop,以及通過(guò)Hortonworks做訪問(wèn)。而且這種分析不用把整個(gè)數(shù)據(jù)全部地table拿過(guò)來(lái),因?yàn)槲覀兛梢园岩恍┬枰牧?、行拿過(guò)來(lái)分析就可以了。所以就大大地減少了數(shù)據(jù)搬移的需求,只需要把你需要分析的數(shù)據(jù)搬過(guò)來(lái)就可以了。

下面講一下數(shù)據(jù)分析,剛才我們講了數(shù)據(jù)平臺(tái)的問(wèn)題,現(xiàn)在我們講一下應(yīng)用方面大數(shù)據(jù)在傳統(tǒng)的公司是怎么利用起來(lái)和應(yīng)用起來(lái)的,而且他們注重的是什么東西。我們關(guān)心的是產(chǎn)品關(guān)聯(lián)。在數(shù)據(jù)價(jià)值方面方面,他們看到的第一是應(yīng)用,不僅僅是IT人員的角度,也從業(yè)務(wù)人員的角度看看是不是能接受的。第二,易用的范圍是怎么維護(hù)的。第三是速度,怎么樣讓他更快、更簡(jiǎn)易地得到新的從數(shù)據(jù)中提取到精華。

孔宇華鼓勵(lì)在開(kāi)發(fā)新的大數(shù)據(jù)平臺(tái)、開(kāi)發(fā)大數(shù)據(jù)產(chǎn)品的時(shí)候要考慮產(chǎn)品的易用。怎么樣考慮到用戶(hù)和后端的人員是哪些人,他們是用SQL的還是做代碼的。是要用大數(shù)據(jù)來(lái)解決什么樣的問(wèn)題哪方面的問(wèn)題,之后再?gòu)倪@個(gè)應(yīng)用的需求方面再推斷你需要大數(shù)據(jù)的平臺(tái)和技術(shù)上的需求。

分享到

huanghui

相關(guān)推薦