淺析核電信息化數(shù)據的容災備份
和力記易 發(fā)表于:13年03月19日 11:27 [來稿] DOIT.com.cn
一、引言
隨著計算能力以及存儲技術的日新月異,各種TB級的存儲被越來越廣泛的使用,這無疑在宣告一個事實:大數(shù)據時代已經完全進入到我們的生活。作為核電領域來說,是更早步入大數(shù)據時代的領先者。其數(shù)據的主要構成除了結構化的各種數(shù)據庫,還有大量電子文檔、圖像、視頻等非結構化數(shù)據。這些數(shù)據具有增長速度快、利用率高、安全等級高等特點。如何有效的對這些數(shù)據進行容災備份,確保這些數(shù)據不會丟失,提供這些數(shù)據的業(yè)務不會中斷,是核電領域必須考慮的一個問題,這直接關系到了整個核電領域是否能夠正常運轉。
二、核電信息化數(shù)據的特點
相較其它行業(yè)來說,核電領域的信息化數(shù)據具有自身的特點,主要體現(xiàn)在以下幾個方面:
1、數(shù)據結構混雜
數(shù)據的存在格式一般分為結構化數(shù)據和非結構數(shù)據,而核電的數(shù)據基本上是非結構化存在結構化加工。所謂非結構化存在是指的數(shù)據主要以電子文檔、設計/工程圖紙、實物、照片、影像/聲音等各種各樣的人文與科學數(shù)據為主,而所謂的結構化加工是指的為了方便對非結構數(shù)據進行管理和利用,將按照國家核行業(yè)標準《核電電子文件元數(shù)據》的規(guī)定錄入結構化數(shù)據庫中。這就使得核電領域數(shù)據的格式復雜多樣,結構化數(shù)據和非結構化數(shù)據混雜。
2、數(shù)據要求保存周期長
按照《核電文件檔案管理要求》的附錄“核電文件歸檔范圍和保管期限”中所提到的保管期限來看,基本上所有的文件都要求至少長期保存,其中一大部分還要求永久保存。
3、數(shù)據要求具有抗破壞性
《核電文件檔案管理要求》的7.4.5.3中還明確提到“數(shù)據備份應該考慮到自然災害、人為破壞和其它意外情況等因素,采取可靠的備份措施,例如不同媒體的異地備份”。自然災害很好理解,指的是水、火以及地震等災難;所謂的人為破壞就是軟破壞,主要是指的人為所造成的數(shù)據破壞,如對數(shù)據進行有意或者無意的修改、刪除等操作;其它意外情況范圍較廣,但也最容易發(fā)生,如計劃內或者計劃外的重啟所引起的磁盤電流沖擊而導致的數(shù)據缺失等。
三、核電信息化數(shù)據的容災備份現(xiàn)狀
核電領域對數(shù)據的備份一直很重視,但由于選擇的產品和備份技術不同,主要存在以下幾個問題:
1、數(shù)據備份的實時性不強
大部分核電單位對數(shù)據采用了全備、增量、差異的備份方式,建立起了備份的作業(yè)。這就使得數(shù)據的備份行為按照作業(yè)的計劃執(zhí)行,備份作業(yè)在什么時候開始,數(shù)據就在什么時候備份。這就意味著備份的行為是存在著明顯的備份時間窗口的,而這種備份時間窗口將會直接導致數(shù)據的丟失。假設每周日做全備而周一到周六每天的下午6點做增量備份(如圖1),那么如果在周三的5點59分數(shù)據出現(xiàn)問題的話,此時最近的恢復點是周二6點的恢復點,這就意味著將要丟失近24小時的數(shù)據。
圖1
2、業(yè)務連續(xù)性不強
數(shù)據的作用是提供給應用進行處理和展現(xiàn),所以數(shù)據的好壞將直接決定了應用是否正常。對于傳統(tǒng)的全備、增量、差異等備份方式來說,想使用備份數(shù)據的時候必須經歷一個數(shù)據恢復的過程。同樣以周日做全備,周一到周六的每天下午6點做增量備份為例。如果當前的時間是周六的上午,源數(shù)據的存儲介質損壞,導致源數(shù)據丟失,此時在修復存儲介質后要首先恢復上周日的全備份,然后依次恢復周一到周五的增量,我們且不說周五下午6點到周六上午的數(shù)據不能被恢復。就是周一到周五能恢復的數(shù)據也要花費大量的時間成本,在此期間應用無法獲得正常數(shù)據的支撐,業(yè)務將會陷入癱瘓狀態(tài)。
3、不具備防破壞能力。
對于數(shù)據的破壞,我們在前面分成了自然破壞、軟破壞以及意外破壞。對于自然破壞來說一般采用異地備份的方式,但是對于軟破壞以及意外破壞傳統(tǒng)的備份方式卻很難解決。我們還是以周日做全備,周一到周六的每天下午6點做增量備份為例。假設當前時間是在周五的,上午8點到下午4點期間往數(shù)據庫中錄入了2萬條索引記錄,而在4點01分,這些數(shù)據因為一條SQL語句寫錯被誤刪除。那么此時離當前時間最近的是周四下午6點的恢復點,那時候是還沒有這2萬條數(shù)據的。這就意味著被誤刪的2萬條數(shù)據將永久丟失。
而對于意外情況,如重啟所造成的數(shù)據缺失而導致數(shù)據庫置疑以及無法加載時,也只能恢復到上一個恢復點,而這個恢復點距離故障點有很大的時間窗口,這就導致了破壞無法被完全修復。
四、核電信息化數(shù)據可靠災備的建設目標
綜合核電領域信息化數(shù)據的特點,在進行容災備份時,需要重點實現(xiàn)以下建設目標:
1、各服務器上重要數(shù)據零丟失
對數(shù)據進行自動監(jiān)控,連續(xù)捕獲和備份數(shù)據變化,只要數(shù)據發(fā)生變化,便實時、準確的備份下來。保證了數(shù)據的安全,一旦出現(xiàn)數(shù)據丟失或破壞,可以迅速的從備份機上把數(shù)據恢復回來。
2、災難發(fā)生后進行迅速接管和逆向同步
當主服務器出現(xiàn)意外宕機時,備份機可以在一分鐘之內接管主服務器的IP,提供對外的所有服務,保證了核心業(yè)務連續(xù)性,可以提供365天7*24小時的業(yè)務不間斷的保護。
災難發(fā)生后,原有系統(tǒng)必須盡快恢復;謴蜁r執(zhí)行與數(shù)據容災復制相反的過程,即從災備中心逆向同步到主數(shù)據中心,同步完成即可做應用切換,整個系統(tǒng)恢復到原有狀態(tài)。
3、數(shù)據可進行任意時間數(shù)據恢復
可按任意操作步數(shù)或時間點進行數(shù)據快速恢復,回到數(shù)據庫的任何狀態(tài),從而能夠找回誤刪或者損壞前的數(shù)據。在恢復的過程中不但保證了數(shù)據的完整型,而且能保證事件的完整性。解決了數(shù)據邏輯錯誤。
4、數(shù)據的異地容災
響應《核電文件檔案管理要求》,對重要數(shù)據進行異地容災,異地的容災場地和生產中心需要不在同一個電網、不在同一個江河流域、不在同一個地震帶,相隔300公里以上。