災(zāi)難恢復(fù)旨在減輕災(zāi)難對企業(yè)運(yùn)營帶來的不良影響,而不管災(zāi)難發(fā)生的原因是什么。
  
    范圍
  
    災(zāi)難對企業(yè)運(yùn)營影響的范圍可大可小,比如一個天文觀測站,觀測望遠(yuǎn)鏡的調(diào)焦系統(tǒng)出現(xiàn)故障在某種意義上是一種災(zāi)難。如果這個觀測站有兩臺或者更多的望遠(yuǎn)鏡,由于具有冗余功能,觀測工作仍能正常進(jìn)行。然而,如果觀測站僅有的一臺望遠(yuǎn)鏡或者調(diào)焦系統(tǒng)發(fā)生一定程度的故障,則該企業(yè)(天文觀測站)的觀測工作仍不能正常進(jìn)行。
  
    持續(xù)時間
  
    災(zāi)難對企業(yè)運(yùn)營最明顯的影響是停機(jī)時間??指整個或局部企業(yè)不能正常運(yùn)營的時間。故障時間(圖1)是指企業(yè)不能正常運(yùn)營的開始時間。T2是指企業(yè)從災(zāi)難中完全恢復(fù)的時間,停機(jī)時間是指T1和T2之間的時間間隔。
  
    發(fā)生時間
  
    一般來說,災(zāi)難造成的停機(jī)時間越短,企業(yè)的損失就越小。然而災(zāi)難的影響與災(zāi)難發(fā)生時間和災(zāi)難導(dǎo)致的停機(jī)時間有關(guān)。例如,在觀測站的例子中,如果望遠(yuǎn)鏡調(diào)焦系統(tǒng)發(fā)生故障的時間正好是彗星飛過地球的時間,則故障對觀測站的影響要比白天或宇宙相對平靜時發(fā)生故障的影響大得多。
  
    災(zāi)難對信息服務(wù)的影響
  
    災(zāi)難對企業(yè)信息服務(wù)的影響通常大于對企業(yè)運(yùn)營其他方面的影響。舉例來說,如果記錄某些活動的服務(wù)器及其在線存儲服務(wù)器同時在T1(圖2)時間遭到災(zāi)難性破壞,災(zāi)難影響將從最近的日志備份時間T0(圖2)持續(xù)到系統(tǒng)完全恢復(fù)時間T2(圖2)。T0和T1之間記錄的活動與在線存儲一旦丟失,T1和T2之間的活動就未被記錄,因?yàn)槿罩鞠到y(tǒng)無法正常運(yùn)行,生成日志。
  
    災(zāi)難造成的影響還與企業(yè)所記錄活動的程度密切相關(guān)。如果日志只是概念測試的部分記錄,災(zāi)難影響可能無關(guān)緊要,因?yàn)闇y試還可以重新運(yùn)行。然而,如果活動日志用來生成規(guī)范企業(yè)運(yùn)作的報表或者用來處理客戶訂單,那么,災(zāi)難造成的損失將十分巨大。
  
    準(zhǔn)備工作和恢復(fù)計(jì)劃
  
    災(zāi)難恢復(fù)計(jì)劃和準(zhǔn)備通常遵循以下兩種方法:



    盡管筆者認(rèn)為總體上第一種方法更可取,但本部分我們還是列舉了這兩種方法的優(yōu)劣勢。
  
    全面災(zāi)難恢復(fù)計(jì)劃
  
    有些企業(yè)設(shè)計(jì)的全面災(zāi)難預(yù)防和恢復(fù)計(jì)劃可以對任何可預(yù)見的災(zāi)難事件進(jìn)行全部或部分的調(diào)用。這些計(jì)劃與其說是災(zāi)難事件驅(qū)動,倒不如說是不得已而啟動,它們一般根據(jù)能夠預(yù)見的最壞災(zāi)難事件而設(shè)計(jì)。執(zhí)行全面災(zāi)難恢復(fù)計(jì)劃,必須采取的第一步是評估災(zāi)難影響,從而確定應(yīng)當(dāng)調(diào)用哪些團(tuán)隊(duì)和哪些資源。正因?yàn)槿绱?,?zāi)難發(fā)生和開始恢復(fù)之間,通常會有一段延時。
  
    特定災(zāi)難恢復(fù)計(jì)劃
  
    與上述辦法相反,有些企業(yè)制定了幾套特定災(zāi)難恢復(fù)計(jì)劃。這些計(jì)劃考慮了最可能發(fā)生的災(zāi)難和災(zāi)難的最大潛在影響。這些企業(yè)列出了可能發(fā)生影響的不同災(zāi)難,同時考慮了這種災(zāi)難對整個行業(yè)、地區(qū)、產(chǎn)品、服務(wù)和供應(yīng)鏈的影響。他們會采用歷史信息和最好的假設(shè)方法對每一種災(zāi)難進(jìn)行量化分析,并計(jì)劃出最壞的和最有可能的影響。通過最詳細(xì)的計(jì)劃,他們會高度重視最有可能發(fā)生的災(zāi)難和具有最大潛在影響的災(zāi)難。
  
    例如,在加利福尼亞和日本,發(fā)生地震的機(jī)率很高,所以建筑都設(shè)計(jì)成抗震建筑。而在新英格蘭和倫敦,地震發(fā)生的機(jī)率很小,因此人們在防震上投入的精力就較小(但不能忽略發(fā)生地震的可能)。另一個例子就是以上幾個地區(qū)幾乎都沒有防御龍卷風(fēng)侵襲的措施。因?yàn)辇埦盹L(fēng)在上述地區(qū)十分罕見。有些災(zāi)難獨(dú)立于自然環(huán)境因素,絕大多數(shù)企業(yè)都具有緊急恢復(fù)計(jì)劃,以應(yīng)對電源中斷、火災(zāi)、洪水、網(wǎng)絡(luò)故障和其他不可預(yù)知的災(zāi)難。
  
    執(zhí)行特定災(zāi)難恢復(fù)計(jì)劃,應(yīng)當(dāng)遵循特定的步驟和流程。只要災(zāi)難的性質(zhì)清楚,就不需要在恢復(fù)初期做太多決策。多數(shù)情況下,初始恢復(fù)步驟可以自動完成。但特定災(zāi)難恢復(fù)計(jì)劃的主要缺點(diǎn)是不能預(yù)料災(zāi)難,比如企業(yè)有可能采用電源中斷應(yīng)急方案來進(jìn)行火山爆發(fā)災(zāi)難恢復(fù)。
  
    混合恢復(fù)計(jì)劃
  
    實(shí)際上,大多數(shù)企業(yè)采用上述兩種偏激方法的組合方案。即制定一些針對常見災(zāi)難(如斷電、暴風(fēng)雪等)的特定計(jì)劃,同時特定全面恢復(fù)計(jì)劃,應(yīng)對其他所有災(zāi)難。此外,也有一些企業(yè)擁有多個全面恢復(fù)計(jì)劃,以應(yīng)對不同影響類型的災(zāi)難(例如一個計(jì)劃應(yīng)對某棟建筑被毀,另一個計(jì)劃應(yīng)對計(jì)算機(jī)系統(tǒng)大面積故障)。
  
    企業(yè)通常傾向于采用能滿足自身要求的恢復(fù)策略。根據(jù)筆者的經(jīng)驗(yàn),最佳的方案是一定要有一個可以應(yīng)對各種災(zāi)難事件的全面恢復(fù)方案。隨著時間的推移,不斷檢驗(yàn)和修改計(jì)劃,加快初始決策速度,從而克服全面恢復(fù)方案的這一主要缺點(diǎn)。
  
    事實(shí)證明,哪怕是最好的恢復(fù)計(jì)劃,無論是全面災(zāi)難恢復(fù)計(jì)劃還是特定災(zāi)難恢復(fù)計(jì)劃都可能不完整。本文重點(diǎn)探討可預(yù)知災(zāi)難的規(guī)劃和準(zhǔn)備。然而,如前面所述,有些意想不到的災(zāi)難會隨時發(fā)生,恢復(fù)計(jì)劃必須隨機(jī)應(yīng)變。
  
    測試災(zāi)難恢復(fù)計(jì)劃
  
    不管是為了讓審計(jì)人員滿足、取悅管理人員、符合法規(guī)要求,還是真的為了企業(yè)擁有彈性,災(zāi)難恢復(fù)計(jì)劃的編寫如果沒有經(jīng)過完整、定期的測試,那簡直就是浪費(fèi)時間?;謴?fù)計(jì)劃應(yīng)當(dāng)每年至少測試一次,并在計(jì)劃本身或應(yīng)用環(huán)境發(fā)生重大變化之后再測試一次。對于快速變化的彈性企業(yè),其災(zāi)難恢復(fù)計(jì)劃應(yīng)當(dāng)每三個月進(jìn)行一次完整的測試。
  
    測試的目地不是檢驗(yàn)恢復(fù)計(jì)劃是否通過。如果每次測試都完全成功,那么這種測試就毫無意義。最好的測試應(yīng)會發(fā)現(xiàn)哪些部分不能正常運(yùn)行,因?yàn)樵跍y試中發(fā)現(xiàn)問題并加以改正的成本,要遠(yuǎn)遠(yuǎn)低于在真正的災(zāi)難恢復(fù)過程中發(fā)現(xiàn)問題并解決問題的成本。
  
    定期測試是災(zāi)難恢復(fù)計(jì)劃保持生命力的關(guān)鍵。盡管每一次測試都被視為一個獨(dú)立的項(xiàng)目,有始有終,但測試本身是一個永無終結(jié)的過程。每一次測試都使企業(yè)有機(jī)會了解、提高自身的彈性。將討論災(zāi)難恢復(fù)測試的準(zhǔn)備、執(zhí)行和追蹤,以最大限度地了解和提高企業(yè)彈性。
  
    四種類型的測試
  
    災(zāi)難恢復(fù)測試的分類或演練方法有很多,下面重點(diǎn)討論災(zāi)難恢復(fù)測試的四種基本類型:



    在現(xiàn)實(shí)測試中,這四種類型可以組合使用,恢復(fù)團(tuán)隊(duì)成員要到測試開始前的最后一分鐘才知道測試的真正日期和時間。例如,在日常防火演習(xí)結(jié)束后,大部分員工可以返回工作崗位,但此時可能開始一次呼叫測試,要通知恢復(fù)團(tuán)隊(duì)模擬災(zāi)難已經(jīng)宣告,一次實(shí)際的災(zāi)難恢復(fù)測試將馬上開始。依據(jù)恢復(fù)計(jì)劃,幾個團(tuán)隊(duì)要轉(zhuǎn)移到災(zāi)難恢復(fù)站點(diǎn),執(zhí)行企業(yè)恢復(fù)任務(wù)。測試包括恢復(fù)已保存的介質(zhì)、恢復(fù)正常網(wǎng)絡(luò)、重新路由電話線以及讓系統(tǒng)上線等。一些實(shí)際的業(yè)務(wù)和功能被轉(zhuǎn)移到恢復(fù)站點(diǎn),而其他業(yè)務(wù)和功能的測試則采用模擬方式。
  
    準(zhǔn)備恢復(fù)測試
  
    恢復(fù)測試應(yīng)當(dāng)由協(xié)調(diào)者領(lǐng)導(dǎo)。協(xié)調(diào)者負(fù)責(zé)編寫測試場景,確保企業(yè)作好了執(zhí)行、調(diào)整模擬恢復(fù)步驟的準(zhǔn)備,通常還應(yīng)當(dāng)保證參與者專注于恢復(fù)測試。
  
    災(zāi)難測試場景編寫好之后,企業(yè)應(yīng)當(dāng)檢查測試場景的合理性、可行性,清楚而有意義。在某個測試場景被批準(zhǔn)采用,角色和職責(zé)也確定好了之后,應(yīng)當(dāng)舉行測試前會議,以協(xié)調(diào)安排測試時間,設(shè)定期望并做好后勤安排。全天和幾天的恢復(fù)測試通常需要在幾個月時間內(nèi)召開數(shù)十次甚至更多次會議,來進(jìn)行各種準(zhǔn)備和協(xié)調(diào)。
  
    最好的恢復(fù)測試應(yīng)當(dāng)是有限制的災(zāi)難場景,特別是新組建的恢復(fù)團(tuán)隊(duì)。有限制的災(zāi)難場景能讓參與者專注于易處理的可恢復(fù)問題,而不是用最糟糕的情況挫敗他們,這只會使測試人員不知所措,錯誤百出。隨著企業(yè)測試計(jì)劃的日趨成熟,可能引入更復(fù)雜和更有挑戰(zhàn)性的測試場景。例如,宣布重要恢復(fù)團(tuán)隊(duì)成員不能到位,必要備份磁帶丟失,或者通往恢復(fù)站點(diǎn)的道路被封鎖等。意外的復(fù)雜場景用來提醒恢復(fù)團(tuán)隊(duì)成員任何事情都有可能發(fā)生,有助于參與者保持積極參與解決問題的狀態(tài)。
  
    恢復(fù)測試計(jì)劃需要考慮的事項(xiàng)
  
    一方面,災(zāi)難恢復(fù)測試場景應(yīng)當(dāng)盡可能真實(shí);另一方面,從實(shí)踐的角度看,企業(yè)進(jìn)行災(zāi)難恢復(fù)計(jì)劃測試時,通常沒有必要中斷其正常功能。進(jìn)行恢復(fù)測試規(guī)劃時考慮企業(yè)運(yùn)營的某些方面尤為重要,這包括:



    執(zhí)行恢復(fù)測試
  
    恢復(fù)測試一開始,應(yīng)當(dāng)舉行一次所有參與人員都參與的介紹會議。介紹會議旨在傳達(dá)測試的目的意義,并感謝團(tuán)隊(duì)的參與。盡管恢復(fù)測試是非常嚴(yán)肅的事情,但保持“輕松”的心情通常很有必要,它可以減輕壓力,并有助于恢復(fù)人員區(qū)分測試和真正的災(zāi)難。測試不需要太正式,比如說,不要求統(tǒng)一著裝。測試過程應(yīng)當(dāng)提供一些食物和飲料,特別是延時測試。在測試進(jìn)度允許的范圍內(nèi),企業(yè)一般會鼓勵工作人員微調(diào)測試場景和恢復(fù)工作。
  
    當(dāng)恢復(fù)團(tuán)隊(duì)測試他們的部分恢復(fù)時,協(xié)調(diào)者應(yīng)當(dāng)做一份詳細(xì)記錄,內(nèi)容包括測試部分、測試時間、測試持續(xù)時間、正常運(yùn)行的部分,更重要的是要記下不能正常運(yùn)行的部分。測試指揮部應(yīng)當(dāng)設(shè)在會議室或其他適當(dāng)?shù)牡胤??;謴?fù)團(tuán)隊(duì)?wèi)?yīng)當(dāng)?shù)街笓]部匯報工作結(jié)果,領(lǐng)取進(jìn)展報告,請求援助。
  
    恢復(fù)測試中遇到問題時應(yīng)當(dāng)做好記錄,但測試通常應(yīng)當(dāng)繼續(xù)進(jìn)行,這樣才能盡可能多地從測試中發(fā)現(xiàn)恢復(fù)計(jì)劃的缺陷。例如,應(yīng)用程序恢復(fù)團(tuán)隊(duì)丟失了一組必需的數(shù)據(jù),這一事故應(yīng)當(dāng)記錄下來,然后從實(shí)際應(yīng)用中找回這組數(shù)據(jù)的副本,以便繼續(xù)進(jìn)行測試。然而,關(guān)鍵的是,在這一問題沒有找到根源并排除時,不能簡單地一筆帶過。
  
    恢復(fù)測試之后
  
    災(zāi)難恢復(fù)測試結(jié)束后,組織者應(yīng)感謝所有恢復(fù)團(tuán)隊(duì)成員的參與,并鼓勵他們就恢復(fù)測試的成功或不足之處提出反饋意見。測試中遇到的問題應(yīng)逐一記錄,并及進(jìn)安排徹底解決。測試結(jié)束后的短期內(nèi),協(xié)調(diào)者應(yīng)公布測試報告,測試報告應(yīng)記錄遇到的所有問題,并推薦解決措施,具體包括問題解決的具體負(fù)責(zé)人或組織,以及問題解決的具體時間。
  
    從災(zāi)難恢復(fù)或測試過程中吸取的經(jīng)驗(yàn)和教訓(xùn),要應(yīng)用到恢復(fù)計(jì)劃和下一次測試中。通過這種方式,企業(yè)的彈性才能日趨成熟,災(zāi)難恢復(fù)計(jì)劃才能保持適應(yīng)性。最重要的是,當(dāng)與某一次恢復(fù)計(jì)劃測試相關(guān)的所有措施都完成時,新一輪災(zāi)難恢復(fù)測試又應(yīng)當(dāng)開始。因此,恢復(fù)計(jì)劃的測試越頻繁,真正需要災(zāi)難恢復(fù)時它就越可靠。



圖1 停機(jī)時間



圖2 停機(jī)時間和數(shù)據(jù)丟失

分享到

多易

相關(guān)推薦