信息化蓬勃發(fā)展,帶來數(shù)據(jù)的爆發(fā)式增長。在云計算和大數(shù)據(jù)時代,基于數(shù)據(jù)開展生產(chǎn)、運營、決策成為常態(tài),數(shù)據(jù)的存儲及應用體系成為企業(yè)生態(tài)運轉(zhuǎn)的中樞神經(jīng)。但面對海量的數(shù)據(jù)規(guī)模,傳統(tǒng)數(shù)據(jù)架構(gòu)尚能飯否?

品高云大數(shù)據(jù)解決方案總監(jiān)李偉文在2018數(shù)博會中向前來品高云展臺的觀眾介紹說,數(shù)據(jù)架構(gòu)技術演進經(jīng)歷了三個階段,品高云則給出了第三階段的最佳實踐。

大數(shù)據(jù)架構(gòu)技術的三個階段

1.0階段

主要是基于關系型數(shù)據(jù)庫的傳統(tǒng)數(shù)據(jù)倉庫。該架構(gòu)技術上主要采用Oracle、DB2、SQLServer等RDB構(gòu)建,主要滿足結(jié)構(gòu)化數(shù)據(jù)的報表分析、離線分析、統(tǒng)計需求和場景,主要實現(xiàn)“為什么發(fā)生”。

2.0階段

主要以Hadoop為基礎,集成NoSQL數(shù)據(jù)庫、MPP、流計算技術、全文檢索技術、機器學習、圖計算,構(gòu)建滿足結(jié)構(gòu)化、非結(jié)構(gòu)化的多種場景需求,技術生態(tài)龐雜,主要實現(xiàn)“為什么發(fā)生、正在發(fā)生什么、以后會發(fā)生什么?”,2.0時代無法有效解決異構(gòu)技術融合、跨部門、跨層級的數(shù)據(jù)共享和數(shù)據(jù)主權(quán)問題。

3.0階段

主要以數(shù)據(jù)湖架構(gòu)理念為基礎,依托存儲計算分離架構(gòu),融合云計算SDN、對象存儲、彈性計算等技術,無縫融合大數(shù)據(jù)復雜的技術生態(tài)。實現(xiàn)“一份數(shù)據(jù),多種計算”,靈活滿足跨部門異構(gòu)計算技術,有效解決跨部門、跨層級、跨組織邊界的數(shù)據(jù)共享和開放問題, 使得數(shù)據(jù)擁有權(quán)、數(shù)據(jù)使用權(quán)、數(shù)據(jù)管理權(quán)等“數(shù)據(jù)三權(quán)分立”,幫助大型企業(yè)、集團性企業(yè)、政府部門構(gòu)建可持續(xù)發(fā)展的的數(shù)據(jù)生態(tài)。

數(shù)據(jù)湖架構(gòu)的基礎技術理念是存儲計算分離

李偉文表示,數(shù)據(jù)湖架構(gòu)的基礎技術理念是存儲計算分離,分離后,可以帶來諸多優(yōu)勢:

? 存儲引擎和計算引擎可以獨立擴展;

??存儲引擎存儲一份數(shù)據(jù),上層通過標準協(xié)議可對接Hadoop、RDB、Spark、MPP等主流大數(shù)據(jù)技術,各組織可采用根據(jù)應用需要個性化的計算引擎;

??大數(shù)據(jù)技術發(fā)展日新月異,在引入新技術或者替換舊計算技術時,數(shù)據(jù)無需遷移,只需替換上層計算引擎即可;

??存儲引擎剝離后,相對Hadoop薄弱的數(shù)據(jù)安全問題,數(shù)據(jù)安全得到質(zhì)的增強,各部門在存儲引擎上的數(shù)據(jù)完全隔離,對數(shù)據(jù)具有數(shù)據(jù)擁有權(quán)和管理權(quán),并通過授權(quán)審批獲得數(shù)據(jù)使用權(quán)。

??存儲引擎支持外表直連技術,各計算引擎可通過外部表直接使用數(shù)據(jù),而不需拷貝。

??可有效支持彈性計算,在計算完成后,可回收資源,提升資源的利用率;

三代數(shù)據(jù)構(gòu)架技術橫向?qū)Ρ?/strong>

為了進一步展示三代數(shù)據(jù)構(gòu)架技術的差異,從擴展性、數(shù)據(jù)多樣性、技術融合等多個角度對比三種架構(gòu)得出下圖:

品高云數(shù)據(jù)湖亮相2018數(shù)博會

在貴州貴陽舉行的2018數(shù)博會中,品高云與Google、微軟、阿里云等國內(nèi)外云計算、大數(shù)據(jù)巨頭同時亮相,品高云旗下的BingoInsight基于數(shù)據(jù)湖架構(gòu)的大數(shù)據(jù)平臺作為國內(nèi)首個私有云數(shù)據(jù)湖,受到了蒞臨會場的眾多大數(shù)據(jù)專家和用戶追捧。

作為3.0階段的數(shù)據(jù)架構(gòu)技術,品高云數(shù)據(jù)湖的推出,就是為了解決傳統(tǒng)數(shù)據(jù)架構(gòu)技術不能解決的問題,諸如:

1. 難實現(xiàn)異構(gòu)技術融合

技術層面看,大數(shù)據(jù)技術生態(tài)繁榮,發(fā)展日新月異,Hadoop、Spark,MPP、NoSQL、kafka、機器學習、深度學習不斷發(fā)展,不同技術解決不同問題,企業(yè)的大數(shù)據(jù)平臺必定是混合式的架構(gòu),如何有效融合異構(gòu)的技術成為企業(yè)構(gòu)建大數(shù)據(jù)平臺必須面臨的問題。

2. 數(shù)據(jù)孤島有待打破,實現(xiàn)統(tǒng)一數(shù)據(jù)匯聚和共享

數(shù)據(jù)層面看,跨部門、跨企業(yè)、跨行業(yè)的數(shù)據(jù)融合需求日趨明顯,數(shù)據(jù)關聯(lián)碰撞也是激發(fā)數(shù)據(jù)創(chuàng)新的基礎,如何有效打破數(shù)據(jù)孤島,解決數(shù)據(jù)主權(quán),實現(xiàn)統(tǒng)一的數(shù)據(jù)匯聚和共享是企業(yè)面臨的另外一個關鍵性問題。

Gartner看好的國內(nèi)首個私有云數(shù)據(jù)湖

品高一直致力于耕耘企業(yè)級市場,在大數(shù)據(jù)概念興起階段逐步洞察到大數(shù)據(jù)技術在企業(yè)落地的挑戰(zhàn),憑借敏銳的市場嗅覺,順應市場趨勢,經(jīng)過兩年研發(fā)在2017年初推出了基于私有云的數(shù)據(jù)湖整體解決方案,以幫助企業(yè)和組織構(gòu)建私有的大數(shù)據(jù)平臺,使組織級的大數(shù)據(jù)應用及價值創(chuàng)新成為可能——這是國內(nèi)首個基于私有云的數(shù)據(jù)湖解決方案。

品高云數(shù)據(jù)湖架構(gòu)示意圖

品高數(shù)據(jù)湖解決方案包括5部分,分別為:數(shù)據(jù)湖存儲、數(shù)據(jù)集成、數(shù)據(jù)處理、數(shù)據(jù)管理和數(shù)據(jù)消費。有意思的是,在Gartner2017年推出的一份數(shù)據(jù)湖最佳設計實踐報告中指出,保障數(shù)據(jù)湖成功落地需要重點考慮數(shù)據(jù)集成、數(shù)據(jù)探索和開發(fā)、數(shù)據(jù)治理、數(shù)據(jù)消費等四個方面,可以說,品高數(shù)據(jù)湖解決方案與Gartner觀點不謀而合。

為此,2017年底,Gartner聯(lián)袂品高云推出了一份名為《基于數(shù)據(jù)湖架構(gòu)的大數(shù)據(jù)平臺》(Big data platform based on Data Lake Architecture)的報告,雙方就數(shù)據(jù)湖(Data Lake)的現(xiàn)實挑戰(zhàn)、技術實踐與發(fā)展趨勢展開了探討。點擊左下閱讀原文了解詳情。

為了更好便于讀者了解,如下列出了品高云數(shù)據(jù)湖的最佳應用場景,包括:1、應用于跨企業(yè)、跨行業(yè)的數(shù)據(jù)聯(lián)盟;2、作為大數(shù)據(jù)平臺的數(shù)據(jù)存儲;3、實現(xiàn)組織跨部門間的數(shù)據(jù)共享;4、利用數(shù)據(jù)湖,促進產(chǎn)學研的合作;5、推動政府數(shù)據(jù)共享開放模式的創(chuàng)形性升級;6、全量數(shù)據(jù)匯聚,交叉碰撞分析支撐決策等。

品高云數(shù)據(jù)湖部分應用場景

此刻,2018數(shù)博會已經(jīng)接近尾聲,但是國家層面對大數(shù)據(jù)建設的重視,對數(shù)據(jù)驅(qū)動創(chuàng)新的期待正在穩(wěn)定增長中。而推進政府和公共部門數(shù)據(jù)資源統(tǒng)一匯聚和集中向社會開放,已經(jīng)重要的國家戰(zhàn)略。目前,應運而生的BingoInsight云數(shù)據(jù)湖已經(jīng)在政府、公安、集團性企業(yè)等行業(yè)開啟了大規(guī)模部署工作。隨著眾多數(shù)據(jù)湖項目相繼進入實施尾聲,我們將在未來為大家?guī)砀鄶?shù)據(jù)湖建設的典范案例和應用經(jīng)驗,敬請期待。

分享到

songjy

相關推薦