OLTP和OLAP平臺的融合

OLTP(聯機事務處理)的發(fā)展得益于傳統的關系型數據庫,基于能夠查詢一個記錄的所有列的行式數據庫,處理如插入、修改或查詢一條銷售訂單這樣的作業(yè)得心應手,但OLAP(聯機分析處理)就非行式數據庫所長,數據倉庫領域的數據分析、海量存儲和商業(yè)智能更適合采用列式數據庫,這就需要用ETL工具把數據放到另一套系統來做。

數據量小、時效性要求不高的時候,這種模式也能夠應對用戶的需求,但在大數據時代,這個流程就無法滿足實時分析的需求了。但SAP HANA加上了內存計算和列式存儲的技術,既可以為 OLAP 應用提供列存儲,又能為 OLTP 應用提供行存儲,同時提供基于自然語言的文本分析、內置的預測性算法等,就能夠避開這種尷尬。

目前,SAP已經著手把它的商業(yè)套件都遷移到HANA平臺上,同時支持云和本地部署的模式,為客戶的OLTP和OLAP平臺的融合提供了基礎。

SAP的老對手、關系型數據庫的老大Oracle也已經支持這種融合,其最新推出的Oracle Database In-Memory,通過在同一張表在內存中同時支持行和列兩種格式,同時激活并保持事務一致性,對分析和報表采用列格式,OLTP則采用久經考驗的行格式運行,這就允許客戶突破Oracle自己的傳統數據庫圍墻,可以在OLTP數據庫中直接做實時分析。

存儲與計算的融合

我們知道,存儲系統的功能主要集中在提供對數據存放空間的管理,它與計算并不是割裂的,只是在計算機發(fā)展的當前階段,存儲與計算采用了相互獨立的方式發(fā)展,但它們的融合順理成章。

當TB級數據出現之后,傳統的架構,即RISC小型機加上集中式存儲,外接光纖存儲,局限性非常大,可擴展的存儲方案呼之欲出。在英特爾(中國)有限公司數據中心及云計算業(yè)務產品市場總監(jiān)賀曉東看來,支持數據處理的數據中心需要重構,需要更快、支持更大的數據量和更高的性價比的解決方案。

Hadoop、Spark等架構能夠滿足這樣的需求。它們提供節(jié)點通信,實現計算任務的分配,以及容錯擴展等等問題,最終實現對分布式系統中各個節(jié)點計算能力的聚合。尤其是Hadoop,在節(jié)點間傳遞計算過程,而不是傳遞數據,能夠用更少的帶寬更快地推進大數據的處理。這其實是保存算法的存儲,是計算與存儲的一種融合。

賀曉東表示,英特爾通過至強E5的平臺、開源社區(qū)Hadoop與合作伙伴一起更好地支持Hadoop。而采用x86硬件,也會使得大數據處理的成本變得更加低廉。在此之前,英特爾已經和Cloudera達成戰(zhàn)略合作關系,為用戶提供更易于部署和使用、比開源版本更完善的Hadoop技術。

硬件與軟件的融合

從英特爾與SAP的合作,很容易理解軟件與硬件的融合。賀曉東指出,在業(yè)界有這樣的趨勢,就是做一體機,把硬件、軟件(包括分析軟件)全集成在一起來作為一攬子的方案交付給用戶。當然,英特爾也會提供相應的計算、存儲的解決方案,例如,英特爾已經和OEM廠商合作推出了面向醫(yī)療行業(yè)的英特爾大數據一體機。當然國內的浪潮、曙光等也推出了大數據一體機,而華為、惠普、戴爾、IBM等也和SAP合作打造HANA一體機以支持海量數據的處理。

軟件應用和硬件畢竟是術業(yè)有專攻,這就需要軟硬件廠商的合作才能實現這樣的融合。對于內存分析的理念,英特爾在最新發(fā)布的E7 v2中也做出了回應,允許單臺四路服務器最多支持6TB內存,能夠直接把很多數據加載到內存中進行實時分析。

“英特爾和SAP在總部已經合作了20多年,HANA作為一個內存計算環(huán)境每次推出的時候,它的版本研發(fā)一定是跟英特爾的工程師在做一些底層的優(yōu)化。芯片上的態(tài)勢、具體的指令等,都作了很多拓展。”SAP公司數據庫及技術平臺部售前總監(jiān)、數據管理技術首席架構師宋一平說。他認為,共同搭建一個大數據處理平臺很重要。

開源平臺與商業(yè)套件的融合

因為數據的復雜性、分析的復雜性和業(yè)務的復雜性,我們還無法打造一個萬能的系統,譬如Hadoop能夠輕易實現PB級數據存儲,卻短于實時分析,SAP HANA擅長于做實時分析,但內存還達不到PB級,而且這個對硬件要求相對苛刻的系統用于對實時性要求不高的歷史數據的挖掘來說,有大炮打蚊子的感覺,太過浪費。

然而,開源平臺與商業(yè)軟件的融合能夠為我們帶來更簡單、更高效、更智能、更敏捷的解決方案。事實上,SAP正在研究內存數據管理與Hadoop的結合。宋一平表示,HANA+Hadoop,也是一種平臺和存儲的模式,再借助具體的芯片和具體的服務器,就能夠打造一個更強的大數據處理平臺。

怎么從Hadoop中提煉一些屬性數據,以同時實現海量存儲和秒級甚至毫秒級分析性能,是SAP的目標。宋一平介紹,Hadoop和HANA的結合,和SAP的數據管理、數據庫結合有很多種方式,有在線、離線方式、聯邦方式,就是透過前端應用直接訪問Hadoop和HANA里面的數據,或者先透過HANA后面再去訪問Hadoop的方式,都可以去實現這樣一個目標。

其實,除了SAP,IBM、微軟、Teradata、Oracle等公司無不在研究如何打通Hadoop與自家解決方案,以形成大數據處理技術的閉環(huán)。

而從英特爾的角度來看,通過相同的x86架構,以全面的產品線滿足傳統的核心業(yè)務系統、實時分析系統、可擴展存儲系統、甚至可視化展現系統的不同需求,提供了整個數據生命周期的支撐。這其實能夠為這種融合掃清了硬件架構差異的障礙。

小結

總體來看,在大數據時代,我們需要一個融合架構的解決方案。融合是老生常談,但這里更注重分工與協作的統一。具體而言,融合的核心是數據,融合的本質是讓不同特征不同價值的數據得到最經濟、最高效的方式存儲、處理和分析,我們要盡可能地用一個系統完成這些數據任務,當采用同一平臺的ROI不能接受的時候,需要靈活地考慮綜合的解決方案,但應當兼具實時子系統和存儲子系統,而且要保證數據或者計算力能夠便捷地在不同的子系統中自由流動,以便靈活地滿足業(yè)務需求的不斷變化。只有這樣,我們才能做到快+極致。英特爾和SAP的合作,為我們展示了一個新融合的很好的樣板。

分享到

zhoujianding

相關推薦