傳統(tǒng)數(shù)倉(cāng)存儲(chǔ)的數(shù)據(jù)類(lèi)型,主要是以關(guān)系型數(shù)據(jù)庫(kù)組織起來(lái)的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)通過(guò)轉(zhuǎn)換、整合以及清理,導(dǎo)入到目標(biāo)表中。在數(shù)倉(cāng)中,數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)與其定義的schema是強(qiáng)匹配的。針對(duì)實(shí)時(shí)數(shù)據(jù)處理,非結(jié)構(gòu)化數(shù)據(jù)處理能力較弱,以及在數(shù)據(jù)量支持方面相對(duì)有限。
第二階段:數(shù)據(jù)湖
數(shù)據(jù)湖是一種不斷演進(jìn)中、可擴(kuò)展的大數(shù)據(jù)存儲(chǔ)、處理、分析的基礎(chǔ)設(shè)施,它就像一個(gè)大型倉(cāng)庫(kù)存儲(chǔ)企業(yè)多樣化原始數(shù)據(jù)以數(shù)據(jù)為導(dǎo)向,實(shí)現(xiàn)任意來(lái)源、任意速度、任意規(guī)模、任意類(lèi)型數(shù)據(jù)的全量獲取、全量存儲(chǔ)、多模式處理與全生命周期管理。擁有強(qiáng)大的信息處理能力和處理幾乎無(wú)限的并發(fā)任務(wù)或工作的能力。
數(shù)據(jù)湖從企業(yè)的多個(gè)數(shù)據(jù)源獲取原始數(shù)據(jù),數(shù)據(jù)可能是任意類(lèi)型的信息,從結(jié)構(gòu)化數(shù)據(jù)到完全非結(jié)構(gòu)化數(shù)據(jù),并通過(guò)與各類(lèi)外部異構(gòu)數(shù)據(jù)源的交互集成,支持各類(lèi)企業(yè)級(jí)應(yīng)用。結(jié)合先進(jìn)的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運(yùn)營(yíng)模型,也能為企業(yè)提供其他能力,如預(yù)測(cè)分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長(zhǎng)。
數(shù)據(jù)湖與數(shù)倉(cāng)的區(qū)別:
在儲(chǔ)存方面上:數(shù)據(jù)湖中的數(shù)據(jù)為非結(jié)構(gòu)化的,所有數(shù)據(jù)都保持原始形式僅在分析時(shí)再進(jìn)行轉(zhuǎn)換。數(shù)據(jù)倉(cāng)庫(kù)就是數(shù)據(jù)通常從事務(wù)系統(tǒng)中提取。在將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)之前,會(huì)對(duì)數(shù)據(jù)進(jìn)行清理與轉(zhuǎn)換。
在數(shù)據(jù)抓取中:數(shù)據(jù)湖捕獲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)倉(cāng)庫(kù)則只捕獲結(jié)構(gòu)化數(shù)據(jù)并將其按模式組織。數(shù)據(jù)湖的目的是非常適合深入分析的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會(huì)用具有預(yù)測(cè)建模和統(tǒng)計(jì)分析等功能的高級(jí)分析工具。而數(shù)據(jù)倉(cāng)庫(kù)就非常適用于BI分析等操作用途,因?yàn)樗哂懈叨冉Y(jié)構(gòu)化。
第三階段:KeenDataLakeHouse(湖倉(cāng)一體)
KeenData LakeHouse架構(gòu)成為當(dāng)下架構(gòu)演進(jìn)最熱的趨勢(shì),將數(shù)據(jù)倉(cāng)庫(kù)的高性能與管理能力與數(shù)據(jù)湖的靈活性相互融合。
企業(yè)創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)來(lái)支持商業(yè)智能,主要場(chǎng)景包括編制報(bào)表、發(fā)布下游數(shù)據(jù)集市(Data Marts),以及支持自助式商業(yè)智能等。數(shù)據(jù)湖來(lái)自于數(shù)據(jù)科學(xué)對(duì)數(shù)據(jù)的探索,主要場(chǎng)景包括通過(guò)快速實(shí)驗(yàn)創(chuàng)建和檢驗(yàn)假設(shè),以及利用半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等。
KeenData LakeHouse的最佳實(shí)踐是基于存算分離架構(gòu)來(lái)構(gòu)建。存算分離最大的問(wèn)題在于網(wǎng)絡(luò),特別是對(duì)于高頻訪問(wèn)的數(shù)倉(cāng)數(shù)據(jù),網(wǎng)絡(luò)性能至關(guān)重要。實(shí)現(xiàn)Lakehouse 的可選方案很多,比如Delta,Hudi,Iceberg。雖然三者側(cè)重點(diǎn)有所不同,但是都具備數(shù)據(jù)湖通用的一些功能,比如:統(tǒng)一元數(shù)據(jù)管理、支持多元分析引擎、支持高階分析和計(jì)算存儲(chǔ)分離。
如上圖所示:藍(lán)色數(shù)據(jù)流是離線數(shù)據(jù)流。實(shí)現(xiàn)離線數(shù)據(jù)湖能力,數(shù)據(jù)通過(guò)批量集成,存儲(chǔ)到Hudi,再通過(guò)Spark進(jìn)行加工。紅色數(shù)據(jù)流是實(shí)時(shí)流。數(shù)據(jù)通過(guò)CDC實(shí)時(shí)捕獲,通過(guò)Flink實(shí)時(shí)寫(xiě)入Hudi;通過(guò)Redis做變量緩存,以實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)加工處理,之后送到諸如Clickhouse 、Redis、Hbase等專(zhuān)題集市里對(duì)外提供服務(wù)。
KeenData LakeHouse有了自己的角色和定位,但是一項(xiàng)技術(shù)的發(fā)展壯大還不能就此停止,它還必須在完善自身功能的基礎(chǔ)上去解決因?yàn)樗某霈F(xiàn)而導(dǎo)致的善后問(wèn)題以及它出現(xiàn)之前的歷史遺留問(wèn)題,只有這樣,它才能被真正廣泛接受。比如對(duì)于已有的系統(tǒng),特別是企業(yè)已經(jīng)存在的龐大規(guī)模的基于HDFS存儲(chǔ)的數(shù)據(jù)倉(cāng)庫(kù)和基于MPP架構(gòu)的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),如何按照KeenData LakeHouse架構(gòu)來(lái)實(shí)行?
二、KeenDataLakeHouse湖倉(cāng)一體敏捷數(shù)據(jù)平臺(tái)
基于企業(yè)內(nèi)的這些場(chǎng)景,科杰大數(shù)據(jù)總結(jié)十余年企業(yè)級(jí)大數(shù)據(jù)工作開(kāi)展經(jīng)驗(yàn),融合數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì),不斷優(yōu)化數(shù)據(jù)架構(gòu),升級(jí)為統(tǒng)一數(shù)據(jù)采集層(離線、實(shí)時(shí))、計(jì)算中心(離線、實(shí)時(shí)、機(jī)器學(xué)習(xí))、服務(wù)發(fā)布中心的KeenData LakeHouse湖倉(cāng)一體敏捷數(shù)據(jù)平臺(tái)。
新架構(gòu)設(shè)計(jì)在具備數(shù)據(jù)湖開(kāi)放文件存儲(chǔ)靈活性的同時(shí)兼具數(shù)據(jù)倉(cāng)庫(kù)的使用效率,非常適合大規(guī)模下的數(shù)據(jù)集成、標(biāo)準(zhǔn)化、資產(chǎn)化以及數(shù)據(jù)安全管理的需求。
KeenDataLakeHouse湖倉(cāng)一體敏捷數(shù)據(jù)平臺(tái)具備5大能力:
1、統(tǒng)一數(shù)據(jù)集成,全界面化的數(shù)據(jù)集成能力
提供多種數(shù)據(jù)抽取方式,將生產(chǎn)中大量結(jié)構(gòu)化和非結(jié)構(gòu)化的離線、實(shí)時(shí)數(shù)據(jù)抽取到數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)數(shù)據(jù)匯聚為數(shù)據(jù)的資產(chǎn)化和標(biāo)準(zhǔn)化提供數(shù)據(jù)基礎(chǔ)。
2、打通元數(shù)據(jù),提供集團(tuán)統(tǒng)一的元數(shù)據(jù)管理能力
提供數(shù)據(jù)庫(kù)元數(shù)據(jù)管理功能,實(shí)現(xiàn)各種數(shù)據(jù)庫(kù)和數(shù)倉(cāng)的元數(shù)據(jù)無(wú)縫打通和統(tǒng)一管理;科杰湖倉(cāng)一體敏捷數(shù)據(jù)平臺(tái)將HiveMetaStore 中 database 映射為平臺(tái)內(nèi)的的Rowdata,對(duì) Hive Database 的改動(dòng)會(huì)實(shí)時(shí)反應(yīng)在這個(gè)Rowdata中,實(shí)現(xiàn)lake+house一體化存儲(chǔ)訪問(wèn)功能。
3、對(duì)不同存儲(chǔ)的數(shù)據(jù)提供統(tǒng)一的開(kāi)發(fā)管理能力
提供多引擎計(jì)算能力,支持將多個(gè)數(shù)據(jù)存儲(chǔ)內(nèi)的數(shù)據(jù)通過(guò)HQL、Spark、MR、shell等開(kāi)發(fā)任務(wù),進(jìn)行統(tǒng)一開(kāi)發(fā)、智能調(diào)度、數(shù)據(jù)治理和任務(wù)管理能力;同時(shí)提供跨團(tuán)隊(duì)大規(guī)模項(xiàng)目的協(xié)同開(kāi)發(fā)能力,極大的提升開(kāi)發(fā)效率。
4、一站式、全托管、云原生智能化的敏捷數(shù)據(jù)平臺(tái)能力
提供全可視化任務(wù)開(kāi)發(fā)配置功能,智能解析任務(wù)依賴(lài),并在數(shù)據(jù)處理的全流程提供數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn)管理,在數(shù)據(jù)從產(chǎn)生到消費(fèi)的全生命周期自動(dòng)沉淀數(shù)據(jù)資產(chǎn)。
5、企業(yè)級(jí)高性能、穩(wěn)定性、可靠性
平臺(tái)云原生架構(gòu),系統(tǒng)基于模塊化、組件化、服務(wù)化構(gòu)建,支持存儲(chǔ)、服務(wù)、計(jì)算彈性伸縮。當(dāng)部分設(shè)備發(fā)生故障時(shí),仍可正常運(yùn)行,滿足企業(yè)對(duì)系統(tǒng)可用性的要求,可達(dá)99.99%以上。
三、KeenDataLakeHouse敏捷數(shù)據(jù)平臺(tái)的落地應(yīng)用
科杰大數(shù)據(jù)服務(wù)某能源企業(yè),構(gòu)建湖倉(cāng)一體架構(gòu)的敏捷數(shù)據(jù)平臺(tái)。根據(jù)該能源企業(yè)的業(yè)務(wù)發(fā)展目標(biāo),結(jié)合數(shù)據(jù)平臺(tái)建設(shè)的實(shí)際業(yè)務(wù)要求,面向能源開(kāi)發(fā)全域數(shù)據(jù)內(nèi)容,覆蓋數(shù)據(jù)處理全過(guò)程,搭建大數(shù)據(jù)基礎(chǔ)設(shè)施,建設(shè)統(tǒng)一數(shù)據(jù)管理與服務(wù)體系能力。通過(guò)數(shù)據(jù)匯聚、標(biāo)準(zhǔn)化、治理、ETL處理等過(guò)程,形成高可用的數(shù)據(jù)資產(chǎn),實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的服務(wù)化。同時(shí),運(yùn)用有效數(shù)據(jù)管理機(jī)制,有效管理和提升數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的自動(dòng)沉降更新。
湖倉(cāng)一體的敏捷數(shù)據(jù)平臺(tái)使該客戶在人效方面、數(shù)據(jù)建設(shè)及使用效率方面以及大規(guī)模業(yè)務(wù)智能落地方面均有明顯的改善和提升。
1、企業(yè)人效方面的提升
相較于傳統(tǒng)的大數(shù)據(jù)基礎(chǔ)平臺(tái),單點(diǎn)重復(fù)式的煙囪開(kāi)發(fā)建設(shè)到基于敏捷數(shù)據(jù)平臺(tái)數(shù)據(jù)資產(chǎn)之上進(jìn)行高度復(fù)用的協(xié)同開(kāi)發(fā),整體開(kāi)發(fā)模式和研發(fā)效率是質(zhì)的改變,大大提升人效。
其次,從數(shù)據(jù)開(kāi)發(fā)人員方向上,傳統(tǒng)的大數(shù)據(jù)研發(fā)對(duì)開(kāi)發(fā)人員會(huì)有一定的技術(shù)壁壘,門(mén)檻較高,科杰提供的湖倉(cāng)一體敏捷數(shù)據(jù)平臺(tái),讓更多的人員在綜合安全管理管控的情況下使用平臺(tái)進(jìn)行自助分析和開(kāi)發(fā),提高數(shù)據(jù)在企業(yè)內(nèi)流轉(zhuǎn)和使用效率。
2、企業(yè)數(shù)據(jù)建設(shè)及使用效率的提升
相較于傳統(tǒng)大數(shù)據(jù)基礎(chǔ)平臺(tái),湖倉(cāng)一體的敏捷數(shù)據(jù)平臺(tái)實(shí)現(xiàn)存算一體的升級(jí)和迭代,進(jìn)行數(shù)據(jù)全鏈路血緣關(guān)系數(shù)據(jù)資產(chǎn)沉淀,形成統(tǒng)一公司內(nèi)數(shù)據(jù)門(mén)戶,大大提升企業(yè)數(shù)據(jù)資產(chǎn)的使用效率。
3、全面支撐企業(yè)未來(lái)大規(guī)模業(yè)務(wù)智能落地
湖倉(cāng)一體的敏捷數(shù)據(jù)平臺(tái)是一套企業(yè)級(jí)的大數(shù)據(jù)&AI基礎(chǔ)設(shè)施,幫助企業(yè)建立數(shù)據(jù)資產(chǎn)、實(shí)現(xiàn)數(shù)據(jù)業(yè)務(wù)化、進(jìn)而推進(jìn)全線業(yè)務(wù)智能化,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)下的企業(yè)數(shù)據(jù)智能創(chuàng)新,全面支撐企業(yè)未來(lái)大規(guī)模業(yè)務(wù)智能落地。
結(jié)語(yǔ):
20年的大數(shù)據(jù)發(fā)展,讓我們看到了數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的不斷創(chuàng)新與發(fā)展,也看到了湖倉(cāng)一體化的技術(shù)架構(gòu)為企業(yè)數(shù)據(jù)能力帶來(lái)的提升。特別是云原生+大數(shù)據(jù)的時(shí)代,湖倉(cāng)一體更能發(fā)揮出數(shù)據(jù)湖的靈活性與生態(tài)豐富性,以及數(shù)據(jù)倉(cāng)庫(kù)的成長(zhǎng)性與企業(yè)級(jí)能力。
未來(lái),基于湖倉(cāng)一體的數(shù)據(jù)架構(gòu)應(yīng)用將迎來(lái)爆發(fā),以創(chuàng)造數(shù)據(jù)價(jià)值為核心目標(biāo),以技術(shù)驅(qū)動(dòng)產(chǎn)品創(chuàng)新升級(jí),推動(dòng)大規(guī)模數(shù)據(jù)智能化落地,將成為數(shù)字化轉(zhuǎn)型的一片“新藍(lán)?!薄?/p>