首先,未來(lái)我們的商業(yè)智能系統(tǒng)會(huì)逐漸地走向移動(dòng)化,從現(xiàn)在的兩級(jí)架構(gòu)變成了全網(wǎng)一級(jí)。同時(shí),實(shí)現(xiàn)數(shù)據(jù)模型的標(biāo)準(zhǔn)化,把各系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一的處理,把很多的詳單數(shù)據(jù)進(jìn)行統(tǒng)一處理。這樣的好處是首先通過(guò)集約化實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化。

第二,通過(guò)數(shù)據(jù)集中化來(lái)實(shí)現(xiàn)各系統(tǒng)的綜合分析,同時(shí)也有利于快速地進(jìn)行數(shù)據(jù)分析和決策支持。因?yàn)楝F(xiàn)在很多的數(shù)據(jù)應(yīng)該說(shuō)是在二級(jí)、省內(nèi)或者是地市系統(tǒng)里?,F(xiàn)在如果從公司整體來(lái)說(shuō)做數(shù)據(jù)分析和決策支持,往往是需要省公司定期地提供一些匯總數(shù)據(jù)。所以這實(shí)際上對(duì)分析的實(shí)時(shí)響應(yīng)還是存在一定的問(wèn)題。集中化的商業(yè)智能系統(tǒng)首先面臨著海量數(shù)據(jù)存儲(chǔ)的壓力。集中化的商業(yè)智能系統(tǒng)一方面面臨著數(shù)據(jù)規(guī)模大,數(shù)據(jù)處理復(fù)雜,同時(shí)不同類的用戶存在著混合負(fù)載的問(wèn)題。

首先從數(shù)據(jù)規(guī)模上來(lái)說(shuō),我們預(yù)測(cè)到2015年的時(shí)候,結(jié)構(gòu)化的數(shù)據(jù)是需要3.7P,非結(jié)構(gòu)化數(shù)據(jù)是4.4P。這是保守的需求,我們數(shù)據(jù)存放的時(shí)間是非常短的。但正像前面所說(shuō)的,有很多的數(shù)據(jù)是企業(yè)的戰(zhàn)略資產(chǎn),有很多的互聯(lián)網(wǎng)公司對(duì)這類數(shù)據(jù)是永遠(yuǎn)不刪除的。實(shí)際上運(yùn)營(yíng)商未來(lái)數(shù)據(jù)存儲(chǔ)的容量需求應(yīng)該還是不斷地?cái)U(kuò)大的。目前我們采用的傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)成本還是很高的,目前公司擴(kuò)容的壓力還比較大。

第二是數(shù)據(jù)處理的復(fù)雜性。目前我們面臨著很多新型數(shù)據(jù)的處理,包括非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),所以這方面是需要引入新的技術(shù)來(lái)進(jìn)行處理的。同時(shí),還需要對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行混合深度的數(shù)據(jù)挖掘。最后是混合負(fù)載的多樣性,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)和我們的商業(yè)智能的應(yīng)用大部分是屬于固定應(yīng)用,屬于報(bào)表類的應(yīng)用。目前以數(shù)據(jù)倉(cāng)庫(kù)為核心的架構(gòu)現(xiàn)在還不能滿足業(yè)務(wù)要求。
這就決定了,應(yīng)用開(kāi)發(fā)實(shí)際上跟下面的平臺(tái)是沒(méi)有辦法非常完美地優(yōu)化和設(shè)計(jì)的。
對(duì)潛在的幾種技術(shù)做了分析,包括傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),指通過(guò)小型機(jī)加盤(pán)陣的高性能的硬件,也包括了軟硬件一體化的新型的數(shù)據(jù)倉(cāng)庫(kù)。我們都?xì)w為基于高性能硬件的數(shù)據(jù)倉(cāng)庫(kù)。

第二種是新型的基于X86的數(shù)據(jù)庫(kù)。第三類是Hadoop分布式系統(tǒng)。從復(fù)雜多表關(guān)聯(lián)分析這方面來(lái)看,目前關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)這方面會(huì)有更的優(yōu)勢(shì),因?yàn)橥ㄟ^(guò)這種索引和分區(qū)建的技術(shù)保證多表關(guān)聯(lián)的效率會(huì)比較高,而Hadoop目前缺少高效索引,因?yàn)楝F(xiàn)在我們無(wú)法支持次級(jí)索引。

關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)是為結(jié)構(gòu)化數(shù)據(jù)處理,當(dāng)然很多的數(shù)據(jù)倉(cāng)庫(kù)目前跟Hadoop相集成提供一些非結(jié)構(gòu)化數(shù)據(jù)庫(kù)的處理能力。但關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)是不支持非結(jié)構(gòu)化數(shù)據(jù)的處理的,而Hadoop的能力非常強(qiáng)。

實(shí)時(shí)相應(yīng)有關(guān)關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)和X86的通用平臺(tái)都有比較好的整體優(yōu)化,Hadoop目前的優(yōu)化比較少,所以實(shí)時(shí)性這塊差一些。而且做單相查詢的性能是比較好的。

第三,在數(shù)據(jù)的ETL采集預(yù)處理的環(huán)節(jié),我們會(huì)盡量多地采用Hadoop和分布式ETL的方式,提高數(shù)據(jù)轉(zhuǎn)換的效率,同時(shí)降低成本。

最后,考慮到運(yùn)營(yíng)商實(shí)際上是比較龐大和分散的組織架構(gòu),我們公司對(duì)商業(yè)智能的需求也是比較多。所以,前面幾位專家提到的,我們把云計(jì)算的概念引入到大數(shù)據(jù)里面,未來(lái)形成一個(gè)商業(yè)智能的pass平,這個(gè)平臺(tái)會(huì)實(shí)現(xiàn)平臺(tái)建設(shè)和數(shù)據(jù)存儲(chǔ)的集中。但應(yīng)用開(kāi)發(fā)可以讓各個(gè)省公司和地市公司自行進(jìn)行應(yīng)用開(kāi)發(fā)。上載到平臺(tái)上分析出結(jié)果。這可以很好地解決平臺(tái)集中化和應(yīng)用需求分散化的矛盾。

分享到

renxinbo

相關(guān)推薦