曙光衛(wèi)星遙感大數(shù)據(jù)解決方案
任新勃 發(fā)表于:13年05月23日 15:45 [來稿] DOIT.com.cn
行業(yè)背景
遙感技術是從地面到空間對地球、天體觀測的各種綜合性技術系統(tǒng)的總稱。由遙感平臺、遙感儀器以及信息接受、存儲、處理與分析應用等分系統(tǒng)組成。遙感技術是正在飛速發(fā)展的高新技術,它已經(jīng)形成的信息網(wǎng)絡,正時時刻刻、源源不斷地向人們提供大量的科學數(shù)據(jù)和動態(tài)信息。
遙感平臺是遙感過程中乘載遙感器的運載工具,主要的遙感平臺有高空氣球、飛機、火箭、人造衛(wèi)星、載人宇宙飛船等。遙感器是遠距離感測地物環(huán)境輻射或反射電磁波的儀器,除可見光攝影機、紅外攝影機、紫外攝影機外,還有紅外掃描儀、多光譜掃描儀、微波輻射和散射計、側視雷達、專題成像儀、成像光譜儀等。
遙感器搜集到的原始數(shù)據(jù)經(jīng)過接收裝置接收后,進行集中式存儲,通常是以非結構化文件的形式保存。原始數(shù)據(jù)的可讀性很差,通常需要進行加工處理后,才便于分析。根據(jù)分析內(nèi)容和側重點不同,原始數(shù)據(jù)的加工處理方法也不同,同一套原始數(shù)據(jù)經(jīng)常需要反復讀取和處理。最后,處理后的數(shù)據(jù)也會保存在存儲系統(tǒng)中,可能以非結構化文件形式保存,也可能導入結構化的數(shù)據(jù)庫中,方便以后查閱,或與前端應用系統(tǒng)集成。
需求分析
存儲類型
衛(wèi)星遙感的數(shù)據(jù)處理系統(tǒng)對存儲類型需求多樣。衛(wèi)星遙感的原始數(shù)據(jù)主要為巨大的非結構化的文件數(shù)據(jù),這些原始數(shù)據(jù)的存儲、處理需要基于文件系統(tǒng)的非結構化存儲系統(tǒng)作為支撐;經(jīng)處理后的結果數(shù)據(jù),通常需要導入數(shù)據(jù)庫用于后期查詢和應用,需要結構化存儲系統(tǒng)來支持;此外,整套系統(tǒng)也有數(shù)據(jù)歸檔備份相關的需求,需要相應的數(shù)據(jù)歸檔備份存儲系統(tǒng)。
存儲容量
衛(wèi)星遙感的原始數(shù)據(jù)量非常巨大,取得這些數(shù)據(jù)的成本和代價高昂,數(shù)據(jù)的重要性非常高,需要海量的存儲系統(tǒng)對數(shù)據(jù)進行保存。從目前的應用情況看,有的系統(tǒng)對存儲容量的需求會高達上百PB級。
存儲性能
衛(wèi)星遙感的數(shù)據(jù)存儲及處理對存儲系統(tǒng)的性能要求很高,特別是并發(fā)IO帶寬。主要針對原始數(shù)據(jù)的非結構存儲系統(tǒng),在原始數(shù)據(jù)采集導入的時候需要較高的寫入帶寬,需要通過條帶化等處理方式加快原始數(shù)據(jù)寫入,避免成為性能瓶頸;原始數(shù)據(jù)的處理需要頻繁的讀入原始數(shù)據(jù),通常都是通過MPIO等數(shù)據(jù)并行方式來加快并行處理速度,這需要非結構存儲系統(tǒng)提供充足的并發(fā)讀帶寬;對于結構化存儲系統(tǒng),同樣有很高的性能要求,衛(wèi)星遙感的數(shù)據(jù)庫非常龐大,前端應用系統(tǒng)對數(shù)據(jù)的查詢調(diào)用開銷很大,需要通過有效的方式提高數(shù)據(jù)庫的查詢性能,減小前端系統(tǒng)的等待時間。
可擴展性
衛(wèi)星遙感數(shù)據(jù)是海量的,且存儲容量和存儲性能隨著業(yè)務量的增長而增長。通常一套系統(tǒng)的建設初期數(shù)據(jù)存儲和處理量不大,但未來會出現(xiàn)爆發(fā)式的增長。如果采用一次性投入的方式,前期會造成較大的資源浪費,后期存儲系統(tǒng)容量及性能不足的時候又較難擴展。因此,較合理及高性價比的方案是采用分批建設,這就要求整套存儲系統(tǒng)具有及高的可擴展性,最好能支持在線擴展,避免擴展時對業(yè)務系統(tǒng)造成中斷。同時,系統(tǒng)擴展時需要做到存儲容量和性能的線性增長。
分級存儲
衛(wèi)星遙感的數(shù)據(jù)量非常巨大,合理的分級存儲機制同樣是降低系統(tǒng)整體成本,提高效率的有效手段。存儲系統(tǒng)可分為在線、近線、離線等部分。在線存儲系統(tǒng)的性能最好、容量相對較小,主要用于存儲和處理“熱點數(shù)據(jù)”;近線存儲系統(tǒng)的性能相對較低,容量較大,主要用于存放較少訪問的數(shù)據(jù);離線存儲一般為數(shù)據(jù)歸檔備份系統(tǒng),用于對歷史數(shù)據(jù)進行歸檔,或者對關鍵數(shù)據(jù)進行備份。
解決方案
根據(jù)對衛(wèi)星遙感領域的大數(shù)據(jù)需求分析,曙光衛(wèi)星遙感數(shù)據(jù)存儲處理系統(tǒng)的整體解決方案框架如下:
在數(shù)據(jù)存儲層,Parastor分布式并行存儲系統(tǒng)負責非結構化衛(wèi)星遙感原始數(shù)據(jù)的存儲,Parastor具有大容量、高帶寬、線性擴展、易管理、高性價比等特性,自動支持分級存儲,支持Windows/Linux等多種客戶端,可通過千兆/萬兆以太網(wǎng)或InfiniBand高速網(wǎng)提供全局共享的統(tǒng)一文件系統(tǒng)存儲;結構化存儲系統(tǒng)通過DCstor存儲虛擬化控制系統(tǒng)將磁盤陣列存儲設備整合成存儲資源池,同樣具有線性擴展的特性,支持存儲分級和自動精簡配置,提供FC SAN訪問接口,用于結構化數(shù)據(jù)庫存儲,再結合XData結構化數(shù)據(jù)查詢分析系統(tǒng),實現(xiàn)結構化數(shù)據(jù)的高速查詢及分析;DBstor歸檔備份系統(tǒng)提供非結構化文件及結構化數(shù)據(jù)庫的歸檔或備份,支持磁帶庫、虛擬帶庫等存儲設備。
在應用層,數(shù)據(jù)采集接收系統(tǒng)負責接收衛(wèi)星數(shù)據(jù)資料,并將這些原始數(shù)據(jù)并發(fā)寫入Parastor分布式并行存儲系統(tǒng);數(shù)據(jù)處理高性能計算集群負責原始數(shù)據(jù)的加工處理,由統(tǒng)一的作業(yè)調(diào)度系統(tǒng)進行資源管理和任務分配,Parastor的高帶寬為數(shù)據(jù)處理的數(shù)據(jù)并行提供了充分保障,數(shù)據(jù)計算處理完成后,通過數(shù)據(jù)庫服務器寫入到DCstor結構化存儲資源池中。前端應用服務器可通過XData數(shù)據(jù)查詢分析系統(tǒng)進行結構數(shù)據(jù)的快速查詢及分析,前端應用服務器也可對Parastor上的原始數(shù)據(jù)進行查詢及分析。
整套系統(tǒng)通過曙光Gridview監(jiān)控管理平臺對存儲系統(tǒng)、網(wǎng)絡系統(tǒng)、計算集群、應用系統(tǒng)等進行統(tǒng)一監(jiān)控和管理。
曙光衛(wèi)星遙感領域大數(shù)據(jù)整體解決方案,針對衛(wèi)星遙感的行業(yè)應用特點,提供了多種類型的存儲資源,支持Windows/Unix/Linux等異構平臺,存儲系統(tǒng)具有大容量、高并發(fā)、高帶寬、高性能、高可擴展性等典型特征,滿足衛(wèi)星遙感的數(shù)據(jù)存儲和處理分析需求,還通過分級存儲、自動精簡配置等方式提高存儲資源的利用效率、降低投入和運行成本。大數(shù)據(jù)存儲系統(tǒng)與數(shù)據(jù)處理系統(tǒng)、前端應用系統(tǒng)等無縫結合,并提供了統(tǒng)一的監(jiān)控和管理平臺,易于管理和使用。