大數(shù)據(jù)是天時地利人和,讓它發(fā)揮價值也是需要天時地利人和的。不僅在技術(shù)方面、在人員方面、流程放慢都需要注意。編程人員有一些Hadoop大數(shù)據(jù)的方案,他們關(guān)注大數(shù)據(jù)的應(yīng)用的平臺是想可以得到比較靈活的應(yīng)用;另一方面有一些比較傳統(tǒng)的,有一些傳統(tǒng)的非技術(shù)型的公司,計算機(jī)科學(xué)人才數(shù)量比較少,維護(hù)和管理的是DBAs,他們關(guān)注的是應(yīng)用。所以在一個大數(shù)據(jù)的落地方案里,應(yīng)用怎么樣大眾化是需要按不同的企業(yè)、不同的行業(yè)、不同的社會的需求來定位什么叫做易于使用。

現(xiàn)在講大數(shù)據(jù)有四個方面,易用是我們需要關(guān)心的。其實大數(shù)據(jù)在數(shù)據(jù)倉庫里面很早以前就開始做海量的數(shù)據(jù),但他們以前是用SQL來分析的,用SQL是比較高層的,但SQL比較容易重復(fù)使用,有一些比較麻煩的、比較復(fù)雜的Map Reduce程序,SQL就比較容易做出來。但SQL在一些問題的匹配上比較弱,有SQL來表達(dá)一些問題比較復(fù)雜。SQL在查詢優(yōu)化器做的選擇比較低效。因此SQL用UDF來做補(bǔ)償。第一,UDF不是一個并行設(shè)計的框架。第二,跟數(shù)據(jù)模型的關(guān)聯(lián)很大,很難把一個數(shù)據(jù)模型搬到另外一個數(shù)據(jù)模式上。所以現(xiàn)在大規(guī)模的互聯(lián)網(wǎng)公司找另外一些平臺。Map Reduce就有一些平臺來處理大數(shù)據(jù),各位都很熟悉。需要用到Map Reduce,那么在座的各位很會編程和代碼的人可以用Hive。還有另外一些像database以前有的,還有一些優(yōu)化在這里面就沒有了。

在考慮輕易地重復(fù)使用的、易用的而且能夠處理大量數(shù)據(jù)的應(yīng)用方面,天睿在4、5年前就在做SQL-Map Reduce的結(jié)合。天睿加進(jìn)一些數(shù)據(jù)庫方面的技術(shù),出發(fā)點是在數(shù)據(jù)庫這方面,所以我們已經(jīng)有很多數(shù)據(jù)庫方面的優(yōu)化像index等等。之后我們覺得Map Reduce、大數(shù)據(jù)這方面有很多可參與很好的框架,之后我們把Map Reduce的框架建立在一個數(shù)據(jù)庫上面,應(yīng)用方面很多傳統(tǒng)公司的分析師可以用SQL來訪問這個平臺,這是一個大數(shù)據(jù)平臺。因為這是一個SQL的平臺,很多現(xiàn)成的BI的工具也可以馬上地放到平臺上使用。

另外一個方面,軟件開發(fā)人員也可以很容易用到這個平臺來寫平常的Map Reduce,所以它兼容了SQL的好處,也兼容了Map Reduce的好處。

另外在應(yīng)用方面很少有傳統(tǒng)的公司想寫一個Map Reduce的功能包來用。那更好的應(yīng)用方法是把一些經(jīng)常用的功能提供給企業(yè)、提供給這些人,提供給社會,他們就可以馬上利用到功能包,怎么把結(jié)構(gòu)建起來,怎么分析我的數(shù)據(jù),因為我們想做到的其實就是,如果我們的分析工具很完善,他們只要想到了怎么分析就可以了。天睿建了50個功能包,讓不同的企業(yè)和行業(yè)做這樣的分析。從SQL這方面出發(fā)結(jié)合了Map Reduce的分析中間是一個路徑分析的功能包,如果用Map Reduce來寫這個程序可能還會更長更復(fù)雜。如果讓一個分析師來寫他是沒法兒想到的。但他用這樣一個辦法來寫的話,又很容易寫到,如果他要改也很容易改。因為做數(shù)據(jù)分析不是分析一次就完了,要不斷地分析,分析一次可能得到更加多的信息和問題需要問,所以是重復(fù)性的,如果你需要修改一個分析的程序要很復(fù)雜的話,分析師的工作就沒辦法做到了。所以這是一個比較好的方法讓他們得到他們需要得到的信息。

對于開發(fā)人員,在座的各位如果想寫新的功能包怎么寫呢?也應(yīng)該考慮另外一層用戶的應(yīng)用,不能只考慮到分析師也要考慮到開發(fā)人員的應(yīng)用。

現(xiàn)在國內(nèi)和國外很多的企業(yè)都開始知道數(shù)據(jù)庫不是一個完整的企業(yè)數(shù)據(jù)框架,都需要在上面做一些增加接受非結(jié)構(gòu)化的數(shù)據(jù),然后在結(jié)構(gòu)化的數(shù)據(jù)上做更加深的另外一個角度的分析。在現(xiàn)成的數(shù)據(jù)倉庫里面現(xiàn)在看到了比較常見的框架是旁邊有一個探索的平臺,利用一個平臺做快速的結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)的探索,做SQL和SQL以外的分析來得到更加大的數(shù)據(jù)的價值。Hadoop也會在這個框架里起到一定的作用,它可以進(jìn)行大量的數(shù)據(jù)的搜集,ETL數(shù)據(jù)加工、數(shù)據(jù)儲存的作用,可以建立更加好、更加優(yōu)化的數(shù)據(jù)平臺。

基于這樣的平臺我們也出了一個方案,它可以結(jié)合Aster的數(shù)據(jù)挖掘平臺和Hadoop的一些機(jī)器一起聯(lián)合然后中間有一個比較寬的連接器,可以從Aster到Hadoop,以及通過Hortonworks做訪問。而且這種分析不用把整個數(shù)據(jù)全部地table拿過來,因為我們可以把一些需要的列、行拿過來分析就可以了。所以就大大地減少了數(shù)據(jù)搬移的需求,只需要把你需要分析的數(shù)據(jù)搬過來就可以了。

下面講一下數(shù)據(jù)分析,剛才我們講了數(shù)據(jù)平臺的問題,現(xiàn)在我們講一下應(yīng)用方面大數(shù)據(jù)在傳統(tǒng)的公司是怎么利用起來和應(yīng)用起來的,而且他們注重的是什么東西。我們關(guān)心的是產(chǎn)品關(guān)聯(lián)。在數(shù)據(jù)價值方面方面,他們看到的第一是應(yīng)用,不僅僅是IT人員的角度,也從業(yè)務(wù)人員的角度看看是不是能接受的。第二,易用的范圍是怎么維護(hù)的。第三是速度,怎么樣讓他更快、更簡易地得到新的從數(shù)據(jù)中提取到精華。

孔宇華鼓勵在開發(fā)新的大數(shù)據(jù)平臺、開發(fā)大數(shù)據(jù)產(chǎn)品的時候要考慮產(chǎn)品的易用。怎么樣考慮到用戶和后端的人員是哪些人,他們是用SQL的還是做代碼的。是要用大數(shù)據(jù)來解決什么樣的問題哪方面的問題,之后再從這個應(yīng)用的需求方面再推斷你需要大數(shù)據(jù)的平臺和技術(shù)上的需求。

分享到

huanghui

相關(guān)推薦