指數(shù)級的數(shù)據增長和數(shù)據可用性需求的增加給企業(yè)的 IT 部門提出了很多挑戰(zhàn),其中包括快速備份和恢復不斷增長的數(shù)據、滿足嚴格的規(guī)章要求、在預算緊張的情況下實現(xiàn)越來越苛刻的恢復時間點目標。SEPATON 的基于內容已知技術的 DeltaStor™ 是用于 SEPATON S2100 虛擬磁帶庫的新一代重復數(shù)據刪除軟件,可以讓企業(yè)用戶以與物理磁帶相當?shù)某杀驹诰€存儲更多的數(shù)據。通過改變數(shù)據存儲的經濟狀況,DeltaStor 軟件使得企業(yè)得以應付指數(shù)增長的數(shù)據,削減備份時間并顯著延長了數(shù)據的在線保存周期,使恢復更加迅速。DeltaStor 軟件采用了 SEPATON 獨有的“內容已知”架構,具有分析關于文件內容和備份數(shù)據關系的智能,可以實現(xiàn)無與倫比的高速、簡捷、可擴展性以及數(shù)據完整性。本白皮書將討論該技術的基本原理以及如何使用 DeltaStor 產品來節(jié)省預算、時間、并提高備份和恢復的效率。


圖 1 數(shù)據生命周期中的存儲容量要求



    新一代技術


    DeltaStor 的設計遠遠超越現(xiàn)有的提供冗余數(shù)據刪除的數(shù)據壓縮軟件,效率要高許多倍。


    通常的壓縮技術,例如 Lempel-Ziv ,使用基于流的方式減少數(shù)據存儲空間,這種技術創(chuàng)建一個重復數(shù)據模式字典,并在一個較小的數(shù)據窗口內(通常為 8KB)進行查找.該算法刪除數(shù)據窗口內的所有的重復數(shù)據模式并以字典中的指針替代,在 8KB 數(shù)據窗處理結束時,字典將被清空,然后可是下一個處理過程.因為這些技術只使用 8KB 的窗口作為數(shù)據參考,所以會忽略較大的重復數(shù)據,因此,根據數(shù)據類型的不同,這些壓縮技術只能提供1.6:1 到 3:1 的壓縮比。


    相反, SEPATON DeltaStor 技術使用 delta 冗余刪除技術, 使用這種技術, DeltaStor 軟件可以搜索任意數(shù)量的數(shù)據對象版本,以找出重復的數(shù)據序列,然后用一個副本的指針替代重復數(shù)據.重復數(shù)據序列中只有一個實例真正存儲在磁盤上,所以,采用這種技術, DeltaStor 可以以 25:1 的比例消除典型混合業(yè)務數(shù)據中的重復數(shù)據,對于某些電子郵件應用則可以達到 60:1。


    為了實現(xiàn)更大的刪除比例,可以把 DeltaStor 軟件和基于流的軟件,比如 Lempel-Ziv 結合使用,比如,DeltaStor 按照 10:1 的比率刪除后的數(shù)據可以用 Lempel-Ziv 壓縮實現(xiàn) 1:6 -3:1 的額外壓縮,從而使整體冗余刪除比達到 16:1 到 30:1 。
   
    新一代重復數(shù)據刪除技術的優(yōu)勢


    DeltaStor 軟件使企業(yè)存儲管理人員使用和物理磁帶相當?shù)某杀荆碛写疟P存儲的高速、靈活、效率。另外,使用比磁帶容量更少的物理磁盤空間存儲更多的數(shù)據,DeltaStor 軟件顯著減少了設備用電、制冷、安全以及其他操作和基礎架構的成本。


    即時數(shù)據恢復:數(shù)據在線存儲,可以實現(xiàn)即時的隨機訪問。


    更快速的備份:DeltaStor 軟件在主要數(shù)據傳輸路徑之外執(zhí)行重復數(shù)據刪除,使得 S2100-ES2 能以 2400MB/S 的速度執(zhí)行備份,高于磁帶 30 多倍。


    高可擴展性:足以應對指數(shù)級的數(shù)據增長。S2100-ES2 具有強大的網格架構,支持構建任意規(guī)模的備份設備。另外,S2100-ES2 允許對容量和性能進行簡便的、無縫的升級,用戶可以按需定購。單臺設備容量可以 10TB 的增量為單位,從 10TB 擴展到超過 25PB。


    減少耗時的磁帶管理工作:在磁盤上保留更多的數(shù)據減少了處理磁帶、查找磁帶故障和管理容量供應的勞動量。


    消除數(shù)據的物理安全威脅:和物理磁帶可能會被丟失、盜竊或者損壞不同,磁盤上的數(shù)據保存在一個安全、高可用的環(huán)境中。


    簡化數(shù)據管理:添加 DeltaStor 軟件只需要簡單的在 S2100-ES2 管理控制臺中選中復選框。當重復數(shù)據刪除減少數(shù)據卷時,通過內建功能自動回收容量并實現(xiàn)管理。


    將更多數(shù)據保留在磁盤上以滿足兼容性和恢復時間要求:例如,在 25TB 的系統(tǒng)上,每天備份 2.5TB 的數(shù)據最多只能保存 10 天。而使用 DeltaStor 軟件的 S2100-ES2可以在相同的空間內保存相同的數(shù)據 250 天,同時提供基于磁盤數(shù)據保護的高性能以及其他優(yōu)點。


    基本技術原理


    SEPATON 內容已知架構是經過全新設計的綜合數(shù)據保護平臺。SEPATON S2100-ES2 虛擬磁帶庫核心應用包含了強大的軟件,比如動態(tài)磁盤文件系統(tǒng)(DFS)和 SEPATON I/O 子系統(tǒng)(SIS),可以和 DeltaStor 軟件協(xié)同工作,建立基于網格的智能數(shù)據保護平臺。


    DeltaStor 軟件的核心是 SEPATON 內容已知的數(shù)據庫。在備份會話中,當數(shù)據保存到磁盤陣列上的虛擬磁帶時,軟件模塊調用“數(shù)據讀取器”讀取數(shù)據并同時分析出元數(shù)據存入該數(shù)據庫中。“數(shù)據讀取器”捕獲和每個獨立的備份數(shù)據組相關的元數(shù)據,同時也捕獲每個數(shù)據組中每個對象的元數(shù)據。DeltaStor 軟件使用這些元數(shù)據標志數(shù)據對象之間的關系,并智能的做出處理決定。例如,當對象描述元數(shù)據指示出備份會話之間存在聯(lián)系時,DeltaStor 軟件會顯著地縮小數(shù)據分析范圍,因此提高了重復數(shù)據刪除的速度。


    該數(shù)據庫保存在 SEPATON 動態(tài)文件系統(tǒng)的存儲陣列中,具有全冗余的配置。因此,當數(shù)據增長時,該數(shù)據庫可以自動調整以適應元數(shù)據的增長。為了和 SEPATON 的高可用設計模型保持一致,該軟件可以通過簡單地掃描 S2100-ES2 的虛擬磁帶實現(xiàn)完全的元數(shù)據庫重建。


    簡要過程描述


    每次當備份任務完成時(例如:當卸載新產生的虛擬磁帶時),S2100-ES2 中的軟件都發(fā)送一條消息,觸發(fā)SEPATON 內建的網格計算引擎啟動 DeltaStor 副本刪除過程,該過程分為 5 個階段。網格引擎軟件以負載均衡的方式調用系統(tǒng)內所有的計算資源進行任務調度和執(zhí)行。這種能力實際上使該方案具有無限的可擴展性,因為任務可以被分配到所有可用的計算資源上。另外,用戶可以有選擇的添加 DeltaStor 節(jié)點,以提供額外的計算能力加速重復數(shù)據刪除過程。


    重復副本刪除的5 個階段如下:數(shù)據收集、數(shù)據識別和/或數(shù)據比較、數(shù)據重組、完整性檢查、空間回收。


    1、數(shù)據收集


    在數(shù)據收集階段,軟件通過比較進入的備份數(shù)據和先前的備份縮小需要進行分析數(shù)據的范圍,使用“內容已知”數(shù)據庫辨別它們之間可能的重復和相似數(shù)據。例如,如果名為同一個客戶端中的 “
ootdocumentsabc.txt” 文件在備份中存在兩次,DeltaStor 軟件自動決定采取何種動作。如果進入的數(shù)據是已存在數(shù)據的修改版本,該數(shù)據就進入下一階段(數(shù)據識別、數(shù)據比較)的處理流程以確定數(shù)據發(fā)生的具體變化;如果進入的數(shù)據和已存在數(shù)據完全相同,那么進入下一階段對數(shù)據副本進行校驗。另外的數(shù)據收集操作包括: 標志保存在不同位置(例如,不同的客戶端,目錄等等)的相同對象副本。軟件為數(shù)據收集階段發(fā)現(xiàn)的冗余數(shù)據對創(chuàng)建一工作列表,該表格用于數(shù)據識別和比較階段進行進一步分析。


    2、數(shù)據識別,數(shù)據比較


    在數(shù)據識別/數(shù)據比較階段,軟件以字節(jié)為單位分析數(shù)據收集階段標志出的相似數(shù)據對象。如果數(shù)據收集階段創(chuàng)建的工作表表明需要進行數(shù)據識別,那么軟件就會用 delta 差分算法確定備份組中的那些數(shù)據是唯一的、那些數(shù)據是重復的。
  
                                                 圖 2 DeltaStor 重復數(shù)據刪除五階段



    該算法可以有效的以字節(jié)為單位映射發(fā)生變化的數(shù)據,并且對數(shù)據對象內的變遷或者位置改變不敏感,所以,即使相關的對象之間發(fā)生明顯的結構改變,該算法仍可以定位冗余的數(shù)據。


    如果數(shù)據收集階段從元數(shù)據級別認定備份組中的數(shù)據和前一個備份相同,那么在數(shù)據識別階段將以字節(jié)為單位對數(shù)據進行比較。在該步驟中,軟件調用數(shù)據比較器識別出數(shù)據發(fā)生變化的文件,即使其元數(shù)據仍然相同。


    3、數(shù)據重組


    數(shù)據識別、數(shù)據比較的結果被傳遞給數(shù)據重組過程,在該過程中數(shù)據被重新組裝,放入臨時的“保留磁帶”中,新數(shù)據被保存,前一階段被標出的重復數(shù)據被已存數(shù)據的指針替代。對備份軟件而言,保留磁帶和真正的磁帶完全相同,只是存儲在新磁帶中的數(shù)據要遠少于真正的磁帶上存儲的數(shù)據。從備份軟件看來,數(shù)據是連續(xù)的并且也沒有刪除副本,SEPATON 軟件可以根據嵌入在文件系統(tǒng)中的指針讀取重復數(shù)據的唯一一份副本。該過程的最終結果是產生一份經過重復數(shù)據刪除的備份組視圖。


    4. 可選的完整性檢查


    在實際刪除所有的重復數(shù)據前,軟件執(zhí)行一次可選的檢查,以保證數(shù)據 100% 的完整。在本階段中,軟件通過將“保留磁帶”(代表經過 DeltaStor 重復數(shù)據刪除的數(shù)據)和原始數(shù)據進行比較驗證其結構和整個的數(shù)據內容。


    5. 空間回收


    在空間回收階段,軟件從文件系統(tǒng)中刪除冗余的數(shù)據,釋放先前被占用的磁盤空間以備他用。保留磁帶和原始的、沒有經過重復數(shù)據刪除的磁帶交換位置(比如條碼、槽位以及屬性等),然后軟件智能的釋放重復的區(qū)塊并將它們放回空閑空間池。經過這樣的處理以后,所有其他需要存儲空間的數(shù)據處理過程都可以重用先前被重復數(shù)據占用的空間。


    DeltaStor 軟件操作


    DeltaStor 軟件要求的人工干預極少,它和 S2100-ES2 中的軟件協(xié)同工作,能夠處理所有的負載均衡、優(yōu)化并自動執(zhí)行任務?;谝韵驴紤],適當?shù)呐渲檬潜匾模?/P>

    每次備份增加到 VTL 的最大數(shù)據量:DeltaStor 軟件要求有足夠存儲兩倍于一次備份增加數(shù)據量的磁盤空間。做為一種 delta 差分技術,該軟件要求同時操作一個“基線”數(shù)據對象和一個修訂對象。


    備份窗口長度:和其他增值特性相比,DeltaStor 軟件總是優(yōu)先保證主要的備份/恢復性能,只在系統(tǒng)資源空閑時才運行。如果由于備份和恢復窗口的原因沒有足夠的時間運行重復數(shù)據刪除過程,SEPATON 可以向網格引擎中增加專門的 DeltaStor 節(jié)點以滿足要求。


    希望的數(shù)據保存時間:當越來越多版本的相同數(shù)據保存在線時,重復數(shù)據刪除的比例會變得越來越大。在實際環(huán)境中,經過副本刪除的數(shù)據要求的磁盤空間量由原始數(shù)據大小、存儲的版本數(shù)目和重復數(shù)據刪除比例共同決定。


    數(shù)據性質:如果大多數(shù)增加到 VTL 的數(shù)據都是新產生的數(shù)據(新數(shù)據庫紀錄或者新收集的數(shù)據等等),那么就沒有多少重復數(shù)據可以讓 DeltaStor 刪除。相反,如果大多數(shù)數(shù)據是靜態(tài)的(例如,Microsoft Exchange 或者 MS Office 文檔),那么該技術就會帶來明顯的好處。


    數(shù)據類型:備份到 VTL 上的數(shù)據庫和非數(shù)據庫數(shù)據對象的比例不同,所要求的計算機處理特定數(shù)據環(huán)境的能力也不同。


    了解更多信息,請訪問:http://njyihanglw.cn/portal/browse/p1968.html
  

分享到

多易

相關推薦