国产精品一区二区av交换,中文字幕人成无码免费视频,永久免费av无码网站性色av,欧美一道本一区二区三区,樱桃熟了a级毛片

宋懷明:曙光大數(shù)據(jù)存儲和處理技術

范喆 發(fā)表于:14年12月02日 19:16 [原創(chuàng)] DOIT.com.cn

  • 分享:
[導讀]2014(第十屆)中國存儲峰會今天在北京召開,大會以“掌控數(shù)據(jù)經(jīng)濟,重塑商業(yè)價值”為主題,詮釋在IT走向DT時代下,如何通過數(shù)據(jù)重塑商業(yè)價值。在當天下午的大數(shù)據(jù)分論壇上,來自曙光大數(shù)據(jù)研發(fā)經(jīng)理宋懷明帶來他的《曙光大數(shù)據(jù)存儲和處理技術》。

2014年12月2日DOIT編輯北京報道:2014(第十屆)中國存儲峰會今天在北京召開,大會以“掌控數(shù)據(jù)經(jīng)濟,重塑商業(yè)價值”為主題,詮釋在IT走向DT時代下,如何通過數(shù)據(jù)重塑商業(yè)價值。大會共邀請了 16位頂尖第三方嘉賓,數(shù)十位專家,帶來了35場前瞻性演講+2場圓桌討論,并首次推出硅谷創(chuàng)始人訪談和存儲夜宴活動!

在當天下午的大數(shù)據(jù)分論壇上,來自曙光大數(shù)據(jù)研發(fā)經(jīng)理宋懷明帶來他的《曙光大數(shù)據(jù)存儲和處理技術》。

以下是演講實錄:

宋懷明:各位存儲界的朋友,大家下午好!下面我給大家匯報一下曙光大數(shù)據(jù)存儲的處理技術。我們知道隨著云計算和大數(shù)據(jù)技術的興起,系統(tǒng)架構發(fā)生巨大的變化。傳統(tǒng)的系統(tǒng)架構通常前端是PC,后端是服務器,再后端是數(shù)據(jù)庫,或者文件系統(tǒng),隨著云計算和大數(shù)據(jù)的興起,系統(tǒng)架構變成前端是一堆智能終端,包括手機、Pad,或者智能手持設備,中間服務器被云所取代,通過虛擬化技術,把服務器虛擬成公共的存儲的計算資源,文件系統(tǒng)換成大數(shù)據(jù)系統(tǒng),包括海量的結構化數(shù)據(jù)和非結構化數(shù)據(jù)融合的存儲。

我們知道大數(shù)據(jù)發(fā)展其實經(jīng)歷了三個階段,第一個階段我們把它叫做數(shù)據(jù)落地的階段,它實際上解決的是數(shù)據(jù)的采集和存儲的問題。在這個階段,主要是存儲廠商發(fā)力的時候,占主導。第二個階段,隨著數(shù)據(jù)越積越多,采集的數(shù)據(jù)越積越多,我們要解決怎么對這些數(shù)據(jù)進行處理,就出現(xiàn)了很多計算的框架,包括Hadoop的框架,包括云計算的框架,它都是解決怎么對這些數(shù)據(jù)進行計算的問題。實際上是提供一些計算的方法和計算的平臺。這個階段主要是數(shù)據(jù)處理的平臺廠商在主導。第三個階段,通過第一階段采集的這些數(shù)據(jù),第二的階段提供這些計算的方法,把這些數(shù)據(jù)轉(zhuǎn)化為真正應用的價值,實現(xiàn)數(shù)據(jù)的分析價值的實現(xiàn),實際上我們把它叫做應用落地。它實際上經(jīng)歷了數(shù)據(jù)落地、計算落地和應用落地這三個階段。

曙光在這里面的戰(zhàn)略主要依托曙光自己的存儲和計算的技術來支撐大數(shù)據(jù)這一塊的應用,與廣大的ISV廠商進行合作,實現(xiàn)數(shù)據(jù)價值,推動應用的落地。曙光大數(shù)據(jù)的技術分成幾塊。右邊這個小的框是曙光為Hadhoop的發(fā)行版,紅色部分是曙光自己研發(fā)的,灰色是我們兼容開源社區(qū)的一些組件,黃色部分是我們對一些開源的組件進行優(yōu)化。我們可以看到,曙光的Hadhoop發(fā)行版最主要是提供了一個建議的Hadhoop的管理軟件,另外地下存儲,就是曙光應用自研的P200替代了Hadhoop開源的問題。這里面有幾個關鍵的組件我們進行了優(yōu)化。還有一塊就是數(shù)據(jù)轉(zhuǎn)換器,主要用于簡化現(xiàn)有的一些信息系統(tǒng),這些數(shù)據(jù)怎樣向曙光的Hadhoop發(fā)行版里面,做數(shù)據(jù)遷移用的。這里面除了包括數(shù)據(jù)的移動,還包括數(shù)據(jù)的轉(zhuǎn)換,模式這一塊的變化。這是曙光Hadhoop發(fā)行版所具有的一些特點。

左邊還有一塊曙光自己的MPP的數(shù)據(jù)庫的中間件,它實際上是基于無共享架構的Hadhoop集群技術,底下可以支持多個相互獨立的Oracle數(shù)據(jù)庫,把十臺或者八臺獨立的數(shù)據(jù)庫,通過中間件的技術虛擬承擔一的主體,這塊做的主要還是面向數(shù)據(jù)分析的應用。我們把MPV數(shù)據(jù)庫和Hadhoop發(fā)行版整合在一起,加上曙光大數(shù)據(jù)專用存儲服務器,稱之為一體機。目前支持JAVA和C++,提供一些支撐工具,像ETL,數(shù)據(jù)的導入、到處,備份這樣的工具。另外,由于我們底下采用自己的文件系統(tǒng),它跟開源社區(qū)的HDFS是不一樣的。我們可以通過普通的文件系統(tǒng)接口訪問底下的數(shù)據(jù),另外也支持第三方的一些開源的編程的接口和分析挖掘的工具。這是ParaStor的系統(tǒng)架構,這種并行的架構可以滿足高并發(fā)的IO的需求。另外,對它的源數(shù)據(jù)節(jié)點是集群方式,可以提升海量的小文件處理能力。另外,條帶化的數(shù)據(jù)方式可以提高很高的單流,基于帶寬也可以線性的擴展。

采用ParaStor 200代替HDFS帶來主要的性能的提升。主要先在這樣幾個方面。ParaStor 200采用源數(shù)據(jù)集群的方式,也由于源數(shù)據(jù)集群每個都對外提供服務,任何一個源數(shù)據(jù)節(jié)點故障都不會影響系統(tǒng)的性能。第二、數(shù)據(jù)冗余,提供N+F的技術,可以提高整個系統(tǒng)的存儲利用率,相比原生的HDFS系統(tǒng),它的副本的利用率可以達到80%以上。第三、可以提供多套網(wǎng)絡負載均衡,多套網(wǎng)絡高可用性,提升數(shù)據(jù)訪問的帶寬。在數(shù)據(jù)處理這一塊,我們也做了大量的工作。首先,在數(shù)據(jù)寫入的時候,可以按照數(shù)據(jù)應用的屬性進行劃分,可以把輿論某一種特性的數(shù)據(jù)放到特定的地方,這樣可以有效處理數(shù)據(jù)的性能。因為我們底下支持結構化數(shù)據(jù)和非結構化數(shù)據(jù)統(tǒng)一的存儲和處理。對于結構化數(shù)據(jù)這一塊,因為我們底下采用分布式,不共享的數(shù)據(jù)庫,比如我是多臺Oracle數(shù)據(jù)庫,它是相互獨立我們把數(shù)據(jù)獬入的時候,可以按照一定的屬性、特性分到不同的機器上。比如可以按照時間范圍進行劃分,或者按照區(qū)域的特性,或者按照一些其他的號碼段等等,根據(jù)不同的應用,不同數(shù)據(jù)的類型目前可以支持Hash、Range、List、Round-Robin等劃分方式。有多個分區(qū)的數(shù)據(jù)可以放在相同的節(jié)點上,,這個分區(qū)叫虛分區(qū),支持規(guī)模動態(tài)擴展,無須重新計算分區(qū)?梢灾С钟脩糇远x數(shù)據(jù)節(jié)點的分析。

對于非結構化數(shù)據(jù),由于我們底下采用集成文件系統(tǒng)的方式,實際上我們沒法在應用這一層控制數(shù)據(jù)具體寫到哪一個節(jié)點,我們采用目錄的方式做應用級的分區(qū),也是支持Hash、Range、List、Round-Robin方式。只不過我們底下采取目錄的劃分。

我們采用這種虛分區(qū)的方式,其實這個技術也是比較成熟的,我們只是使用了業(yè)界這種技術來支持這個節(jié)點數(shù)據(jù)的動態(tài)擴展。因為在節(jié)點數(shù)據(jù)擴展的時候,我們不需要對所有數(shù)據(jù)技術重新的分區(qū)計算,只需要把一部分虛分區(qū)遷移到新增的節(jié)點上,把節(jié)點和分區(qū)對應的源數(shù)據(jù)進行區(qū)分就可以。

第二部分,對于類似SQL的請求,用戶的請求可以是SQL語句,或者MR/UDF作業(yè)。我們把計算分成這么幾個級別。首先,最小的是算子,可以在單個節(jié)點上執(zhí)行計算的操作。計算的任務是有一個四元組所組成的,包括計算的算子,執(zhí)行節(jié)點的列表,目標節(jié)點的列表和數(shù)據(jù)分析的方法。它是什么意思?這一個計算的算子在執(zhí)行節(jié)點列表上去執(zhí)行,它的結果以數(shù)據(jù)分派方法的方式發(fā)布到所有節(jié)點上,這里數(shù)據(jù)分派方法包括Hash和Range,Range只是在特殊操作的時候才需要使用。比如后續(xù)要進行排序,這種情況下我們把默認的Hash改成Range,然后在每個節(jié)點上進行排序,最后結果是需要一個簡單的拼接,而不需要整體的排序,每個節(jié)點分到的是一個具體的范圍。

在查詢?nèi)蝿崭拍钪,有一個整體的查詢的任務流,它實際上有一組查詢的任務,按照一定的順序進行組合的一個執(zhí)行計劃的數(shù),我們目前只支持豎行的方式,不支持這種圖。它描述的就是多個任務之間的分析以及它之間同步的關系。右邊這個圖描述的是一個簡單的查詢作業(yè)任務流的示意圖,包含五個任務,每個任務又包含在一組節(jié)點上執(zhí)行的算子。我們看到這個圖里面,任務一和任務二執(zhí)行完是需要進行同步,然后進行任務三,然后再進行同步,任務四,最后做一個結果的匯聚,最后得到最終的結果。

在執(zhí)行控制這一塊,實際上是把前面所做的任務流作為它的一個Flex,然后得到最終的結果。對于請求解析,我們采用類SQL的請求,通過包括對語法和詞法的分析,分解成一個作業(yè)任務流,然后通過執(zhí)行引擎進行同步控制和數(shù)據(jù)傳輸?shù)目刂,得到最終的結果,底下的處理是可以根據(jù)我們每一個任務它的類型,比如它SQL就是在底下,它是MR的作業(yè),就是在Hadhoop上執(zhí)行,最終得到計算的結果。這里面也有一些數(shù)據(jù)處理的優(yōu)化技術,因為所有的處理結果,目前的這種方式是采用文件進行固化存儲,在任務流的每一個分支上,如果出現(xiàn)計算故障,我們可以在這個故障里按照它保存的結果繼續(xù)執(zhí)行。中間需要維護一個多個集群上執(zhí)行的全局的狀態(tài)。這就避免了如果出現(xiàn)故障,就從頭完全執(zhí)行,整個重來這樣的一個操作,可以在斷點處進行計算,提高整個計算的效率。特別是在有一些作業(yè)計算時間比較長的時間,這個是非常適用的。

對于Hadhoop發(fā)行版這一塊,我們提供了一個圖形化的管理軟件,它的提供的是包括三個層面的功能。首先最基本是運維層面,包括監(jiān)控告警等。還有運行層面,主要包括作業(yè)的察看,比如對存儲對象的察看,再上面是運用這一層,我們現(xiàn)在做的相對來說比較好,主要是提供應用開發(fā)使用,比如一些可視化的東西,一些報表等等,這樣的一些知識。

我們對曙光XDATA系統(tǒng)做一個簡單的總結,它包括的創(chuàng)新技術主要是這么幾個方面。第一、提供類似于SQL的訪問終端,可以減小學習的成本。以往的信息系統(tǒng)很多是基于SQL做應用開發(fā),用戶或者ISV對數(shù)據(jù)庫非常熟悉,提供SQL的方式,對數(shù)據(jù)處理的學習成本非常低,基本上可以比較容易的進行新業(yè)務的開發(fā)。第二、對接口這一塊,我們提供JAVA、C++等專用語言的接口,其中C++是直接與后端的服務進行通訊,但是對JAVA我們提供JAVA保準的編程接口。對于以往采用JDBC編程的數(shù)據(jù)庫類的應用是比較容易平滑的遷移過去,只需要進行重新的編譯,或者一些兼容性測試就可以上線。第三、數(shù)據(jù)的統(tǒng)一,底下可以支持分布式的數(shù)據(jù)庫集群的架構,也可以支持HDFS的存儲,能夠滿足結構化數(shù)據(jù)和非結構化數(shù)據(jù)的存儲和處理這塊的需求。第四、我們實現(xiàn)了數(shù)據(jù)獬入的時候,可以對數(shù)據(jù)進行系列的劃分,這種系列的劃分可以在處理的時候快速的定義這些數(shù)據(jù),減少單次數(shù)據(jù)處理里面的IO或者CPU的計算,能夠提高數(shù)據(jù)處理的效率。最后,我們提供軟硬一體的優(yōu)化的技術,底下是采用曙光專用的存儲服務器,對于網(wǎng)絡還有通訊也做了很多優(yōu)化,能夠充分發(fā)揮系統(tǒng)的性能。

剛才說了曙光大數(shù)據(jù)的相關技術,在這些技術上,我們就把大數(shù)據(jù)存儲和處理產(chǎn)品大概是這么幾種。首先,底下這個存儲可以單獨拿出來作為并行的文件系統(tǒng),我們產(chǎn)品叫ParaStor 200,是覆蓋節(jié)點、網(wǎng)絡、磁盤等全系統(tǒng)容錯技術,提供軟硬一體的存儲系統(tǒng)。2010年在深圳部署了超過16PB單個的文件系統(tǒng),目前PB級的文件系統(tǒng)基本上在國內(nèi)已經(jīng)是非常多了。

第二、曙光提供的XData的大數(shù)據(jù)一體機,就是剛才整個大框里包含結構化數(shù)據(jù)和非結構化數(shù)據(jù)的存儲和處理,提供軟硬一體的大數(shù)據(jù)存儲和處理整體的系統(tǒng)。

第三、曙光的Hadhoop發(fā)行版,是純軟件的Hadhoop的版本,主要是提供數(shù)據(jù)Hadhoop系統(tǒng)的管理、運營。Hadhoop的核可以直接采用社區(qū)的最新的版本,也可以支持Clud的版本。

最后,曙光大數(shù)據(jù)的應用,目前曙光是瞄準行業(yè)應用,與廣大的ISV廠商進行合作,我們也自己做一些大數(shù)據(jù)應用的開發(fā)。因為目前大數(shù)據(jù)實際上它的應用的需求還沒有發(fā)展特別明確,所以我們也在通過這個技術的方式幫用戶設計它的一些想法。因為用戶它實際上有很多時候并不知道技術能夠幫它實現(xiàn)成什么樣。

這是我們在國內(nèi)最大的一個媒體單位做的新聞檢索和推薦系統(tǒng)。它實際上包含兩大塊的功能。第一塊就是它的新聞的特征,特征分析和它的聚類。第二、它的用戶行為的分析。對于第一個底下采用曙光Hadhoop的專業(yè)版,底下主要是做的新聞特征的聚類。第二、對用戶行為分析,它這里面的用戶跟廣大電商的用戶有一些差別,但是也比較接近。因為它的用戶主要是全國的廣大媒體,它是要從我們客戶那兒購買這些新聞,購買新聞的素材。我們對它的一些瀏覽技術,還有次數(shù),還有停留時間,還有購買等等做了新聞分析,最后給他們推薦相關的新聞素材,這個系統(tǒng)去年開始建設,今年4月份就已經(jīng)上線運行了。

這是我們給某個直轄市公安局做的整體的大數(shù)據(jù)的應用支撐平臺。我們承擔了里面所有的平臺這一塊的工作。我們把這個數(shù)據(jù)的存儲分稱結構化區(qū)域和非結構化區(qū)域。結構化區(qū)域,采用數(shù)據(jù)庫的架構,非結構化區(qū)域,采用后端的Hadhoop發(fā)行版,上面通過各加一層數(shù)據(jù)的匯聚和轉(zhuǎn)化層,把現(xiàn)在大概有20多個系統(tǒng)的數(shù)據(jù)導入進來,向上面支撐各種各樣的應用,曙光在里面就做整個后端數(shù)據(jù)的存儲和匯聚,然后上面是ISV廠商做應用的開發(fā)。

這個是我們某安全企業(yè)給他做的一個綜合的運維的大數(shù)據(jù)系統(tǒng),它這個系統(tǒng)的特點就在于,原先的單位內(nèi)部建了很多運維系統(tǒng),有大概100多套這樣的系統(tǒng),每個系統(tǒng)有的規(guī)?赡軒着_機器,大的幾十臺,上百臺。原先每一套系統(tǒng)都有一個單獨的運維的系統(tǒng)。實際上對于運維的壓力也是非常大,因為每個系統(tǒng)需要做的操作,或者運維的這些方式是不太一樣的。我們把所有的系統(tǒng)日志,包括操縱系統(tǒng),還有網(wǎng)絡,等等一些設備產(chǎn)生的日志收集過來。第二類日志是中間件的也收集過來,第三個是把應用日志,把這三類日志通過ETL的方式匯聚到系統(tǒng)里面,這里面我們做了一個數(shù)據(jù)網(wǎng)關,做了內(nèi)外網(wǎng)的格力,通過數(shù)據(jù)網(wǎng)關,前端所有應用系統(tǒng)的日志,是不能直接訪問到后端的大數(shù)據(jù)系統(tǒng),是通過數(shù)據(jù)網(wǎng)關,這些服務節(jié)點才能訪問。把所有三類日志收集過來,大概支撐了這么幾個應用。一個就是對整個系統(tǒng)的故障進行診斷,因為原先還有一些難點就在于它有些是部署在物理機上,有些部署在虛擬機上,有些物理機可能重疊使用虛擬機,我們把全機升級可以進行故障診斷,第二可以在整個基礎上做系統(tǒng)的優(yōu)化。后面還可以支撐一些用戶的行為分析,還有精準推薦,因為它也是向幾個口子提供相應的服務。這個也是采用曙光的結構化和非結構化統(tǒng)一存儲的大數(shù)據(jù)一體機的系統(tǒng)。

我的分享就到這里,謝謝大家!

[責任編輯:范喆]
2014(第十屆)中國存儲峰會今天在北京召開,大會以“掌控數(shù)據(jù)經(jīng)濟,重塑商業(yè)價值”為主題,詮釋在IT走向DT時代下,如何通過數(shù)據(jù)重塑商業(yè)價值。近兩年對于年輕人來說創(chuàng)業(yè)是他們實現(xiàn)人生價值最好的方式,在美國硅谷這樣的事情天天都在發(fā)生,今天我們有幸請到美國硅谷初創(chuàng)明星企業(yè)、希智數(shù)據(jù)創(chuàng)始人陳文賢!由DOIT傳媒集團創(chuàng)始人兼CEO鄭信武先生為大家?guī)砭实膭?chuàng)業(yè)人訪談。
官方微信
weixin
精彩專題更多
存儲風云榜”是由DOIT傳媒主辦的年度大型活動。回顧2014年,存儲作為IT系統(tǒng)架構中最基礎的元素,已經(jīng)成為了推動信息產(chǎn)業(yè)發(fā)展的核心動力,存儲產(chǎn)業(yè)的發(fā)展邁向成熟,數(shù)據(jù)經(jīng)濟的概念順勢而為的提出。
華為OceanStor V3系列存儲系統(tǒng)是面向企業(yè)級應用的新一代統(tǒng)一存儲產(chǎn)品。在功能、性能、效率、可靠性和易用性上都達到業(yè)界領先水平,很好的滿足了大型數(shù)據(jù)庫OLTP/OLAP、文件共享、云計算等各種應用下的數(shù)據(jù)存儲需求。
聯(lián)想攜ThinkServer+System+七大行業(yè)解決方案驚艷第十六屆高交會
 

公司簡介 | 媒體優(yōu)勢 | 廣告服務 | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術有限公司 版權所有.