與很多大型企業(yè)一樣,海瀾之家購(gòu)買(mǎi)了很多設(shè)備,如SAN、NAS、對(duì)象存儲(chǔ);用來(lái)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù);采用Oracle數(shù)據(jù)庫(kù)、ERP、SAP HANA等軟件解決方案,支持了很多業(yè)務(wù)應(yīng)用。
無(wú)論這些系統(tǒng),還是存儲(chǔ)平臺(tái),海瀾集團(tuán)沉淀積累了很多數(shù)據(jù)。
大數(shù)據(jù)時(shí)代,基于數(shù)據(jù)創(chuàng)新業(yè)務(wù)應(yīng)用,這是海瀾集團(tuán)近期的目標(biāo)。
知彼,要靠 “爬蟲(chóng)”
很多人知道數(shù)據(jù)業(yè)務(wù)創(chuàng)新,但是從業(yè)務(wù)角度出發(fā),往往找不到方向。
以上是AWS Werner Vogels博士給出的一些應(yīng)用場(chǎng)景。其中,個(gè)性化推薦,以及欺詐偵測(cè)是國(guó)內(nèi)談?wù)撟疃嗟?,其他?yīng)用國(guó)內(nèi)見(jiàn)到的案例不多。
海瀾集團(tuán)要做什么呢?
對(duì)于海瀾之家來(lái)說(shuō),在數(shù)據(jù)使用上,進(jìn)行了很多探索和嘗試,包括ERP和SAP HANA,其數(shù)據(jù)大部分屬于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。
海瀾之家所欠缺的是非結(jié)構(gòu)化數(shù)據(jù)管理及挖掘技術(shù),來(lái)自互聯(lián)網(wǎng)用戶(hù)評(píng)價(jià)數(shù)據(jù)以及競(jìng)品分析數(shù)據(jù)和企業(yè)內(nèi)部數(shù)據(jù)難以及時(shí)融合與分析挖掘,從而也影響了企業(yè)決策及時(shí)性和正確性。
加強(qiáng)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)獲取和分析就成為了時(shí)下的當(dāng)務(wù)之急。
這里涉及兩個(gè)問(wèn)題,一個(gè)是數(shù)據(jù)的獲??;還有一個(gè)是數(shù)據(jù)處理和分析。數(shù)據(jù)獲取主要靠“爬蟲(chóng)”,如今,很多電商平臺(tái)意識(shí)到數(shù)據(jù)是核心資產(chǎn),紛紛制定了各種反爬蟲(chóng)的措施,因此 “爬蟲(chóng)需要一定經(jīng)驗(yàn)和技術(shù)能力。
“爬蟲(chóng)”來(lái)的數(shù)據(jù),還需要分門(mén)別類(lèi)處理、存儲(chǔ)和分析,從中獲取自己所需的結(jié)果和信息。在此,很多企業(yè)主要依靠Hadoop大數(shù)據(jù)平臺(tái),但是鑒于Hadoop平臺(tái)的復(fù)雜性,很多企業(yè)被絆倒在“建?!钡倪^(guò)程中,與此同時(shí),隨著數(shù)據(jù)的積累,Hadoop的效率越來(lái)越低,從“數(shù)據(jù)湖”演變?yōu)榱藬?shù)據(jù)的沼澤。
多增加一個(gè)Pentaho
與傳統(tǒng)企業(yè)方法相比,海瀾之家最大的不同是在“數(shù)據(jù)準(zhǔn)備和加載”以及“數(shù)據(jù)查詢(xún)分發(fā)”階段增加一個(gè)Pentaho的大數(shù)據(jù)平臺(tái)工具。
增加這樣一個(gè)平臺(tái)工具有什么意義嗎?他與數(shù)據(jù)倉(cāng)庫(kù)、Hadoop的關(guān)系是什么呢?
簡(jiǎn)單說(shuō),有個(gè)Pentaho之后,可以實(shí)現(xiàn)更好的數(shù)據(jù)管理。在Pentaho的管理和調(diào)度下,更好發(fā)揮Hadoop就近存儲(chǔ)/就近處理的特點(diǎn),讓數(shù)據(jù)貼近計(jì)算;暫時(shí)用不到的數(shù)據(jù),被保存在HCP等對(duì)象存儲(chǔ)平臺(tái)。
與此同時(shí),Pentaho提供了數(shù)據(jù)分析和展示工具,幫助使用者更好的理解數(shù)據(jù)結(jié)果。
作為平臺(tái),Pentaho建立在開(kāi)源平臺(tái)的基礎(chǔ)上,與tableau、Qlink、Pathon等平臺(tái)進(jìn)行更好的對(duì)接。
Pentaho幫助用戶(hù)實(shí)現(xiàn)了數(shù)據(jù)組織加載的靈活性,以及數(shù)據(jù)分析、展現(xiàn)的直觀性,通過(guò)與Hadoop、數(shù)據(jù)倉(cāng)庫(kù)以及其他分析工具平臺(tái)的對(duì)接,幫助用戶(hù)釋放數(shù)據(jù)的價(jià)值。
用戶(hù)可以繼續(xù)使用Hadoop,Pentaho可與之對(duì)接,當(dāng)然用戶(hù)也可以不使用Hadoop,Pentaho也可以勝任。
Pentaho此前與HDS(日立數(shù)據(jù)系統(tǒng))并購(gòu),成為轉(zhuǎn)型后的Hitachi Vantara公司的重要組成部分進(jìn)入中國(guó)市場(chǎng)。
與日立存儲(chǔ)的密切合作,也是促成Pentaho數(shù)據(jù)分析應(yīng)用的重要原因。
據(jù)了解,數(shù)據(jù)加載、分析、呈現(xiàn)的過(guò)程,Pentaho全部實(shí)現(xiàn)了圖像化,無(wú)需編程,任意拖拽,業(yè)務(wù)人員可以自行組織、查找、分析希望了解的信息。
也是因?yàn)槿绱耍懼夜麛噙x擇了Pentaho。
小結(jié)
從應(yīng)用場(chǎng)景看,海瀾之家大數(shù)據(jù)應(yīng)用還只是幫助企業(yè)決策,從知己不知彼,到知己知彼,帶來(lái)的進(jìn)步和價(jià)值顯而易見(jiàn)。
不僅僅如此,良好數(shù)據(jù)調(diào)度平臺(tái),自動(dòng)化、圖形化分析展現(xiàn),從企業(yè)戰(zhàn)略決策,到基于數(shù)據(jù)的業(yè)務(wù)創(chuàng)新,也僅僅是一窗之隔,窗戶(hù)紙很容易捅破。既然春天已經(jīng)來(lái)了,花開(kāi)滿(mǎn)園的景象還會(huì)遠(yuǎn)嗎?
海瀾之家的未來(lái)值得期待!
歡迎關(guān)注:“尋找中國(guó)最具智慧行業(yè)案例”系列報(bào)道(參見(jiàn)http://njyihanglw.cn/p/325189.html:)