Hadoop會(huì)成存儲(chǔ)第3級(jí)嗎?

Hadoop,數(shù)據(jù)存儲(chǔ)和導(dǎo)入

無(wú)論是單獨(dú)構(gòu)建集群系統(tǒng),規(guī)模視情況而定?還是選用市場(chǎng)現(xiàn)有的大數(shù)據(jù)一體機(jī),用戶都需要一個(gè)單獨(dú)平臺(tái)進(jìn)行大數(shù)據(jù)分析處理,系統(tǒng)構(gòu)建完成之后,首先要把數(shù)據(jù)導(dǎo)入。

企業(yè)數(shù)據(jù)如何導(dǎo)入Hadoop系統(tǒng)?系統(tǒng)又如何組織數(shù)據(jù)的呢?為此,我請(qǐng)教百分點(diǎn)大數(shù)據(jù)的專家獲知,可以借助不同的工具,對(duì)于數(shù)據(jù)進(jìn)行導(dǎo)入。

不同數(shù)據(jù)類型,需要采用的不用工具。以數(shù)據(jù)庫(kù)數(shù)據(jù)為例,要采用的工具是Sqoop,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如 : MySQL、Oracle、PostgreSQL等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop(Hive)的HDFS中,也可以反過(guò)來(lái)將HDFS數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。針對(duì)非結(jié)構(gòu)化數(shù)據(jù),例如文本數(shù)據(jù)、IoT(物聯(lián)網(wǎng))機(jī)器數(shù)據(jù)等,需要使用Flume,它是Cloudera提供的一個(gè)海量日志采集、聚合和傳輸?shù)南到y(tǒng),同時(shí)Flume也提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方(可定制)。需要稍加說(shuō)明的是,圖片大小不同,接入介質(zhì)(這里指MongoDB、Hbase或HDFS)不同,其中,有些介質(zhì)適合小文件數(shù)據(jù)處理,有些適合處理大文件,因此,要根據(jù)非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),分別加以存儲(chǔ)。

“標(biāo)簽”體系是基礎(chǔ)

當(dāng)數(shù)據(jù)就緒之后,接下來(lái)就要由具有行業(yè)經(jīng)驗(yàn)、業(yè)務(wù)經(jīng)驗(yàn)的專家,結(jié)合業(yè)務(wù)系統(tǒng)和業(yè)務(wù)形態(tài)構(gòu)建數(shù)據(jù)的標(biāo)簽體系。根據(jù)介紹,系統(tǒng)為一個(gè)用戶打的各種標(biāo)簽高達(dá)近萬(wàn)種,其顆粒度之細(xì)致超乎想象??梢院敛豢鋸埖恼f(shuō),機(jī)器甚至比你更加了解你自己。對(duì)于人來(lái)說(shuō),做過(guò)事情經(jīng)過(guò)一段時(shí)間會(huì)被遺忘,但機(jī)器不會(huì),主要數(shù)據(jù)不刪除,機(jī)器永遠(yuǎn)不會(huì)忘記。

標(biāo)簽體系是用戶業(yè)務(wù)畫像的基礎(chǔ),通過(guò)各種靈活業(yè)務(wù)查詢,就可以演變出千變?nèi)f化的業(yè)務(wù)創(chuàng)新應(yīng)用,可以是解決現(xiàn)有業(yè)務(wù)系統(tǒng)的問(wèn)題,如性能問(wèn)題、系統(tǒng)預(yù)警問(wèn)題;也可以針對(duì)業(yè)務(wù)提供創(chuàng)新的業(yè)務(wù)服務(wù),例如零售行業(yè)的個(gè)性化推薦、金融防欺詐和反洗錢等,這些業(yè)務(wù)應(yīng)用有些屬于離線業(yè)務(wù)分析,有些則涉及在線的數(shù)據(jù)處理能力。不同系統(tǒng),需要采用不同的技術(shù)手段,可以列式數(shù)據(jù)庫(kù),也可以是Spark等。

以某省交管部門為例,隨著數(shù)據(jù)量的不斷增加,他們所采用的關(guān)系數(shù)據(jù)庫(kù)就出現(xiàn)了性能不足的問(wèn)題。對(duì)此,他們引入了大數(shù)據(jù)的技術(shù),通過(guò)分布式數(shù)據(jù)處理,成功解決系統(tǒng)存在的問(wèn)題。

從本質(zhì)上說(shuō),大數(shù)據(jù)技術(shù)和關(guān)系型數(shù)據(jù)庫(kù)所提供服務(wù),從方向上是一致的。關(guān)系型數(shù)據(jù)庫(kù)也提供了數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)查詢,數(shù)據(jù)倉(cāng)庫(kù)ETL等一系列技術(shù),提供在線數(shù)據(jù)分析等服務(wù)。與之相比,大數(shù)據(jù)應(yīng)用所提供數(shù)據(jù)顆粒度更細(xì),分布式系統(tǒng)能夠處理的數(shù)據(jù)量更大,數(shù)據(jù)分析技術(shù)和手段更加多樣性。

如今,隨著人工智能,機(jī)器學(xué)習(xí)等技術(shù)的成熟,經(jīng)過(guò)大量數(shù)據(jù)的訓(xùn)練和矯正,數(shù)據(jù)建模分析的效果愈發(fā)顯現(xiàn)了出來(lái)。以零售行業(yè)個(gè)性化推薦應(yīng)用為例,已經(jīng)成為了行業(yè)應(yīng)用的標(biāo)配,效果顯著。

小結(jié)

大數(shù)據(jù)應(yīng)用為人類工作生活展示了美麗畫卷,所謂理想豐滿,現(xiàn)實(shí)骨干,如今大數(shù)據(jù)應(yīng)用現(xiàn)狀并不令人滿意,問(wèn)題并不在Hadoop等技術(shù)方向上,方向沒(méi)有錯(cuò),但與此同時(shí),Hadoop技術(shù)復(fù)雜性成為了應(yīng)用的限制門檻。

必須簡(jiǎn)化技術(shù)的復(fù)雜度,為此百分點(diǎn)等廠商推出了像BD-OS這樣的大數(shù)據(jù)平臺(tái),幫助用戶簡(jiǎn)化和使用各種分析手段和工具。目前,行業(yè)的龍頭企業(yè)正在積極引入這些技術(shù),因此,大數(shù)據(jù)技術(shù)和行業(yè)應(yīng)用還在結(jié)合之中,行業(yè)應(yīng)用的爆發(fā)還需要一段時(shí)間的積累,所謂不鳴則已,一鳴驚人!

大數(shù)據(jù)普遍爆發(fā)也許真的用不了太長(zhǎng)的時(shí)間!

“大數(shù)據(jù),Hadoop,存儲(chǔ)應(yīng)用第三極”將作為沙龍主題,在今年12月“中國(guó)存儲(chǔ)峰會(huì)”推出,敬請(qǐng)關(guān)注!

分享到

songjy

相關(guān)推薦