宋懷明:曙光大數(shù)據(jù)存儲和處理技術

范喆發(fā)表于：14年12月02日 19:16 [原創(chuàng)] DOIT.com.cn

分享：

[導讀]2014(第十屆)中國存儲峰會今天在北京召開，大會以“掌控數(shù)據(jù)經(jīng)濟，重塑商業(yè)價值”為主題，詮釋在IT走向DT時代下，如何通過數(shù)據(jù)重塑商業(yè)價值。在當天下午的大數(shù)據(jù)分論壇上，來自曙光大數(shù)據(jù)研發(fā)經(jīng)理宋懷明帶來他的《曙光大數(shù)據(jù)存儲和處理技術》。

2014年12月2日DOIT編輯北京報道：2014(第十屆)中國存儲峰會今天在北京召開，大會以“掌控數(shù)據(jù)經(jīng)濟，重塑商業(yè)價值”為主題，詮釋在IT走向DT時代下，如何通過數(shù)據(jù)重塑商業(yè)價值。大會共邀請了 16位頂尖第三方嘉賓，數(shù)十位專家，帶來了35場前瞻性演講+2場圓桌討論，并首次推出硅谷創(chuàng)始人訪談和存儲夜宴活動!

在當天下午的大數(shù)據(jù)分論壇上，來自曙光大數(shù)據(jù)研發(fā)經(jīng)理宋懷明帶來他的《曙光大數(shù)據(jù)存儲和處理技術》。

以下是演講實錄：

宋懷明：各位存儲界的朋友，大家下午好!下面我給大家匯報一下曙光大數(shù)據(jù)存儲的處理技術。我們知道隨著云計算和大數(shù)據(jù)技術的興起，系統(tǒng)架構發(fā)生巨大的變化。傳統(tǒng)的系統(tǒng)架構通常前端是PC，后端是服務器，再后端是數(shù)據(jù)庫，或者文件系統(tǒng)，隨著云計算和大數(shù)據(jù)的興起，系統(tǒng)架構變成前端是一堆智能終端，包括手機、Pad，或者智能手持設備，中間服務器被云所取代，通過虛擬化技術，把服務器虛擬成公共的存儲的計算資源，文件系統(tǒng)換成大數(shù)據(jù)系統(tǒng)，包括海量的結構化數(shù)據(jù)和非結構化數(shù)據(jù)融合的存儲。

我們知道大數(shù)據(jù)發(fā)展其實經(jīng)歷了三個階段，第一個階段我們把它叫做數(shù)據(jù)落地的階段，它實際上解決的是數(shù)據(jù)的采集和存儲的問題。在這個階段，主要是存儲廠商發(fā)力的時候，占主導。第二個階段，隨著數(shù)據(jù)越積越多，采集的數(shù)據(jù)越積越多，我們要解決怎么對這些數(shù)據(jù)進行處理，就出現(xiàn)了很多計算的框架，包括Hadoop的框架，包括云計算的框架，它都是解決怎么對這些數(shù)據(jù)進行計算的問題。實際上是提供一些計算的方法和計算的平臺。這個階段主要是數(shù)據(jù)處理的平臺廠商在主導。第三個階段，通過第一階段采集的這些數(shù)據(jù)，第二的階段提供這些計算的方法，把這些數(shù)據(jù)轉(zhuǎn)化為真正應用的價值，實現(xiàn)數(shù)據(jù)的分析價值的實現(xiàn)，實際上我們把它叫做應用落地。它實際上經(jīng)歷了數(shù)據(jù)落地、計算落地和應用落地這三個階段。

曙光在這里面的戰(zhàn)略主要依托曙光自己的存儲和計算的技術來支撐大數(shù)據(jù)這一塊的應用，與廣大的ISV廠商進行合作，實現(xiàn)數(shù)據(jù)價值，推動應用的落地。曙光大數(shù)據(jù)的技術分成幾塊。右邊這個小的框是曙光為Hadhoop的發(fā)行版，紅色部分是曙光自己研發(fā)的，灰色是我們兼容開源社區(qū)的一些組件，黃色部分是我們對一些開源的組件進行優(yōu)化。我們可以看到，曙光的Hadhoop發(fā)行版最主要是提供了一個建議的Hadhoop的管理軟件，另外地下存儲，就是曙光應用自研的P200替代了Hadhoop開源的問題。這里面有幾個關鍵的組件我們進行了優(yōu)化。還有一塊就是數(shù)據(jù)轉(zhuǎn)換器，主要用于簡化現(xiàn)有的一些信息系統(tǒng)，這些數(shù)據(jù)怎樣向曙光的Hadhoop發(fā)行版里面，做數(shù)據(jù)遷移用的。這里面除了包括數(shù)據(jù)的移動，還包括數(shù)據(jù)的轉(zhuǎn)換，模式這一塊的變化。這是曙光Hadhoop發(fā)行版所具有的一些特點。

左邊還有一塊曙光自己的MPP的數(shù)據(jù)庫的中間件，它實際上是基于無共享架構的Hadhoop集群技術，底下可以支持多個相互獨立的Oracle數(shù)據(jù)庫，把十臺或者八臺獨立的數(shù)據(jù)庫，通過中間件的技術虛擬承擔一的主體，這塊做的主要還是面向數(shù)據(jù)分析的應用。我們把MPV數(shù)據(jù)庫和Hadhoop發(fā)行版整合在一起，加上曙光大數(shù)據(jù)專用存儲服務器，稱之為一體機。目前支持JAVA和C++，提供一些支撐工具，像ETL，數(shù)據(jù)的導入、到處，備份這樣的工具。另外，由于我們底下采用自己的文件系統(tǒng)，它跟開源社區(qū)的HDFS是不一樣的。我們可以通過普通的文件系統(tǒng)接口訪問底下的數(shù)據(jù)，另外也支持第三方的一些開源的編程的接口和分析挖掘的工具。這是ParaStor的系統(tǒng)架構，這種并行的架構可以滿足高并發(fā)的IO的需求。另外，對它的源數(shù)據(jù)節(jié)點是集群方式，可以提升海量的小文件處理能力。另外，條帶化的數(shù)據(jù)方式可以提高很高的單流，基于帶寬也可以線性的擴展。

采用ParaStor 200代替HDFS帶來主要的性能的提升。主要先在這樣幾個方面。ParaStor 200采用源數(shù)據(jù)集群的方式，也由于源數(shù)據(jù)集群每個都對外提供服務，任何一個源數(shù)據(jù)節(jié)點故障都不會影響系統(tǒng)的性能。第二、數(shù)據(jù)冗余，提供N+F的技術，可以提高整個系統(tǒng)的存儲利用率，相比原生的HDFS系統(tǒng)，它的副本的利用率可以達到80%以上。第三、可以提供多套網(wǎng)絡負載均衡，多套網(wǎng)絡高可用性，提升數(shù)據(jù)訪問的帶寬。在數(shù)據(jù)處理這一塊，我們也做了大量的工作。首先，在數(shù)據(jù)寫入的時候，可以按照數(shù)據(jù)應用的屬性進行劃分，可以把輿論某一種特性的數(shù)據(jù)放到特定的地方，這樣可以有效處理數(shù)據(jù)的性能。因為我們底下支持結構化數(shù)據(jù)和非結構化數(shù)據(jù)統(tǒng)一的存儲和處理。對于結構化數(shù)據(jù)這一塊，因為我們底下采用分布式，不共享的數(shù)據(jù)庫，比如我是多臺Oracle數(shù)據(jù)庫，它是相互獨立我們把數(shù)據(jù)獬入的時候，可以按照一定的屬性、特性分到不同的機器上。比如可以按照時間范圍進行劃分，或者按照區(qū)域的特性，或者按照一些其他的號碼段等等，根據(jù)不同的應用，不同數(shù)據(jù)的類型目前可以支持Hash、Range、List、Round-Robin等劃分方式。有多個分區(qū)的數(shù)據(jù)可以放在相同的節(jié)點上，，這個分區(qū)叫虛分區(qū)，支持規(guī)模動態(tài)擴展，無須重新計算分區(qū)�？梢灾С钟脩糇远x數(shù)據(jù)節(jié)點的分析。

對于非結構化數(shù)據(jù)，由于我們底下采用集成文件系統(tǒng)的方式，實際上我們沒法在應用這一層控制數(shù)據(jù)具體寫到哪一個節(jié)點，我們采用目錄的方式做應用級的分區(qū)，也是支持Hash、Range、List、Round-Robin方式。只不過我們底下采取目錄的劃分。

我們采用這種虛分區(qū)的方式，其實這個技術也是比較成熟的，我們只是使用了業(yè)界這種技術來支持這個節(jié)點數(shù)據(jù)的動態(tài)擴展。因為在節(jié)點數(shù)據(jù)擴展的時候，我們不需要對所有數(shù)據(jù)技術重新的分區(qū)計算，只需要把一部分虛分區(qū)遷移到新增的節(jié)點上，把節(jié)點和分區(qū)對應的源數(shù)據(jù)進行區(qū)分就可以。

第二部分，對于類似SQL的請求，用戶的請求可以是SQL語句，或者MR/UDF作業(yè)。我們把計算分成這么幾個級別。首先，最小的是算子，可以在單個節(jié)點上執(zhí)行計算的操作。計算的任務是有一個四元組所組成的，包括計算的算子，執(zhí)行節(jié)點的列表，目標節(jié)點的列表和數(shù)據(jù)分析的方法。它是什么意思?這一個計算的算子在執(zhí)行節(jié)點列表上去執(zhí)行，它的結果以數(shù)據(jù)分派方法的方式發(fā)布到所有節(jié)點上，這里數(shù)據(jù)分派方法包括Hash和Range，Range只是在特殊操作的時候才需要使用。比如后續(xù)要進行排序，這種情況下我們把默認的Hash改成Range，然后在每個節(jié)點上進行排序，最后結果是需要一個簡單的拼接，而不需要整體的排序，每個節(jié)點分到的是一個具體的范圍。

在查詢?nèi)蝿崭拍钪�，有一個整體的查詢的任務流，它實際上有一組查詢的任務，按照一定的順序進行組合的一個執(zhí)行計劃的數(shù)，我們目前只支持豎行的方式，不支持這種圖。它描述的就是多個任務之間的分析以及它之間同步的關系。右邊這個圖描述的是一個簡單的查詢作業(yè)任務流的示意圖，包含五個任務，每個任務又包含在一組節(jié)點上執(zhí)行的算子。我們看到這個圖里面，任務一和任務二執(zhí)行完是需要進行同步，然后進行任務三，然后再進行同步，任務四，最后做一個結果的匯聚，最后得到最終的結果。

在執(zhí)行控制這一塊，實際上是把前面所做的任務流作為它的一個Flex，然后得到最終的結果。對于請求解析，我們采用類SQL的請求，通過包括對語法和詞法的分析，分解成一個作業(yè)任務流，然后通過執(zhí)行引擎進行同步控制和數(shù)據(jù)傳輸?shù)目刂�，得到最終的結果，底下的處理是可以根據(jù)我們每一個任務它的類型，比如它SQL就是在底下，它是MR的作業(yè)，就是在Hadhoop上執(zhí)行，最終得到計算的結果。這里面也有一些數(shù)據(jù)處理的優(yōu)化技術，因為所有的處理結果，目前的這種方式是采用文件進行固化存儲，在任務流的每一個分支上，如果出現(xiàn)計算故障，我們可以在這個故障里按照它保存的結果繼續(xù)執(zhí)行。中間需要維護一個多個集群上執(zhí)行的全局的狀態(tài)。這就避免了如果出現(xiàn)故障，就從頭完全執(zhí)行，整個重來這樣的一個操作，可以在斷點處進行計算，提高整個計算的效率。特別是在有一些作業(yè)計算時間比較長的時間，這個是非常適用的。

對于Hadhoop發(fā)行版這一塊，我們提供了一個圖形化的管理軟件，它的提供的是包括三個層面的功能。首先最基本是運維層面，包括監(jiān)控告警等。還有運行層面，主要包括作業(yè)的察看，比如對存儲對象的察看，再上面是運用這一層，我們現(xiàn)在做的相對來說比較好，主要是提供應用開發(fā)使用，比如一些可視化的東西，一些報表等等，這樣的一些知識。

我們對曙光XDATA系統(tǒng)做一個簡單的總結，它包括的創(chuàng)新技術主要是這么幾個方面。第一、提供類似于SQL的訪問終端，可以減小學習的成本。以往的信息系統(tǒng)很多是基于SQL做應用開發(fā)，用戶或者ISV對數(shù)據(jù)庫非常熟悉，提供SQL的方式，對數(shù)據(jù)處理的學習成本非常低，基本上可以比較容易的進行新業(yè)務的開發(fā)。第二、對接口這一塊，我們提供JAVA、C++等專用語言的接口，其中C++是直接與后端的服務進行通訊，但是對JAVA我們提供JAVA保準的編程接口。對于以往采用JDBC編程的數(shù)據(jù)庫類的應用是比較容易平滑的遷移過去，只需要進行重新的編譯，或者一些兼容性測試就可以上線。第三、數(shù)據(jù)的統(tǒng)一，底下可以支持分布式的數(shù)據(jù)庫集群的架構，也可以支持HDFS的存儲，能夠滿足結構化數(shù)據(jù)和非結構化數(shù)據(jù)的存儲和處理這塊的需求。第四、我們實現(xiàn)了數(shù)據(jù)獬入的時候，可以對數(shù)據(jù)進行系列的劃分，這種系列的劃分可以在處理的時候快速的定義這些數(shù)據(jù)，減少單次數(shù)據(jù)處理里面的IO或者CPU的計算，能夠提高數(shù)據(jù)處理的效率。最后，我們提供軟硬一體的優(yōu)化的技術，底下是采用曙光專用的存儲服務器，對于網(wǎng)絡還有通訊也做了很多優(yōu)化，能夠充分發(fā)揮系統(tǒng)的性能。

剛才說了曙光大數(shù)據(jù)的相關技術，在這些技術上，我們就把大數(shù)據(jù)存儲和處理產(chǎn)品大概是這么幾種。首先，底下這個存儲可以單獨拿出來作為并行的文件系統(tǒng)，我們產(chǎn)品叫ParaStor 200，是覆蓋節(jié)點、網(wǎng)絡、磁盤等全系統(tǒng)容錯技術，提供軟硬一體的存儲系統(tǒng)。2010年在深圳部署了超過16PB單個的文件系統(tǒng)，目前PB級的文件系統(tǒng)基本上在國內(nèi)已經(jīng)是非常多了。

第二、曙光提供的XData的大數(shù)據(jù)一體機，就是剛才整個大框里包含結構化數(shù)據(jù)和非結構化數(shù)據(jù)的存儲和處理，提供軟硬一體的大數(shù)據(jù)存儲和處理整體的系統(tǒng)。

第三、曙光的Hadhoop發(fā)行版，是純軟件的Hadhoop的版本，主要是提供數(shù)據(jù)Hadhoop系統(tǒng)的管理、運營。Hadhoop的核可以直接采用社區(qū)的最新的版本，也可以支持Clud的版本。

最后，曙光大數(shù)據(jù)的應用，目前曙光是瞄準行業(yè)應用，與廣大的ISV廠商進行合作，我們也自己做一些大數(shù)據(jù)應用的開發(fā)。因為目前大數(shù)據(jù)實際上它的應用的需求還沒有發(fā)展特別明確，所以我們也在通過這個技術的方式幫用戶設計它的一些想法。因為用戶它實際上有很多時候并不知道技術能夠幫它實現(xiàn)成什么樣。

這是我們在國內(nèi)最大的一個媒體單位做的新聞檢索和推薦系統(tǒng)。它實際上包含兩大塊的功能。第一塊就是它的新聞的特征，特征分析和它的聚類。第二、它的用戶行為的分析。對于第一個底下采用曙光Hadhoop的專業(yè)版，底下主要是做的新聞特征的聚類。第二、對用戶行為分析，它這里面的用戶跟廣大電商的用戶有一些差別，但是也比較接近。因為它的用戶主要是全國的廣大媒體，它是要從我們客戶那兒購買這些新聞，購買新聞的素材。我們對它的一些瀏覽技術，還有次數(shù)，還有停留時間，還有購買等等做了新聞分析，最后給他們推薦相關的新聞素材，這個系統(tǒng)去年開始建設，今年4月份就已經(jīng)上線運行了。

這是我們給某個直轄市公安局做的整體的大數(shù)據(jù)的應用支撐平臺。我們承擔了里面所有的平臺這一塊的工作。我們把這個數(shù)據(jù)的存儲分稱結構化區(qū)域和非結構化區(qū)域。結構化區(qū)域，采用數(shù)據(jù)庫的架構，非結構化區(qū)域，采用后端的Hadhoop發(fā)行版，上面通過各加一層數(shù)據(jù)的匯聚和轉(zhuǎn)化層，把現(xiàn)在大概有20多個系統(tǒng)的數(shù)據(jù)導入進來，向上面支撐各種各樣的應用，曙光在里面就做整個后端數(shù)據(jù)的存儲和匯聚，然后上面是ISV廠商做應用的開發(fā)。

這個是我們某安全企業(yè)給他做的一個綜合的運維的大數(shù)據(jù)系統(tǒng)，它這個系統(tǒng)的特點就在于，原先的單位內(nèi)部建了很多運維系統(tǒng)，有大概100多套這樣的系統(tǒng)，每個系統(tǒng)有的規(guī)�？赡軒着_機器，大的幾十臺，上百臺。原先每一套系統(tǒng)都有一個單獨的運維的系統(tǒng)。實際上對于運維的壓力也是非常大，因為每個系統(tǒng)需要做的操作，或者運維的這些方式是不太一樣的。我們把所有的系統(tǒng)日志，包括操縱系統(tǒng)，還有網(wǎng)絡，等等一些設備產(chǎn)生的日志收集過來。第二類日志是中間件的也收集過來，第三個是把應用日志，把這三類日志通過ETL的方式匯聚到系統(tǒng)里面，這里面我們做了一個數(shù)據(jù)網(wǎng)關，做了內(nèi)外網(wǎng)的格力，通過數(shù)據(jù)網(wǎng)關，前端所有應用系統(tǒng)的日志，是不能直接訪問到后端的大數(shù)據(jù)系統(tǒng)，是通過數(shù)據(jù)網(wǎng)關，這些服務節(jié)點才能訪問。把所有三類日志收集過來，大概支撐了這么幾個應用。一個就是對整個系統(tǒng)的故障進行診斷，因為原先還有一些難點就在于它有些是部署在物理機上，有些部署在虛擬機上，有些物理機可能重疊使用虛擬機，我們把全機升級可以進行故障診斷，第二可以在整個基礎上做系統(tǒng)的優(yōu)化。后面還可以支撐一些用戶的行為分析，還有精準推薦，因為它也是向幾個口子提供相應的服務。這個也是采用曙光的結構化和非結構化統(tǒng)一存儲的大數(shù)據(jù)一體機的系統(tǒng)。

我的分享就到這里，謝謝大家!

[責任編輯：范喆]

希智數(shù)據(jù)陳文賢：夢想通過軟件定義改變世界

2014(第十屆)中國存儲峰會今天在北京召開，大會以“掌控數(shù)據(jù)經(jīng)濟，重塑商業(yè)價值”為主題，詮釋在IT走向DT時代下，如何通過數(shù)據(jù)重塑商業(yè)價值。近兩年對于年輕人來說創(chuàng)業(yè)是他們實現(xiàn)人生價值最好的方式，在美國硅谷這樣的事情天天都在發(fā)生，今天我們有幸請到美國硅谷初創(chuàng)明星企業(yè)、希智數(shù)據(jù)創(chuàng)始人陳文賢！由DOIT傳媒集團創(chuàng)始人兼CEO鄭信武先生為大家?guī)砭实膭?chuàng)業(yè)人訪談。

官方微信

国产精品一区二区av交换,中文字幕人成无码免费视频,永久免费av无码网站性色av,欧美一道本一区二区三区,樱桃熟了a级毛片

宋懷明:曙光大數(shù)據(jù)存儲和處理技術