圖一:高可用性管理要素構(gòu)成
不同的技術(shù)和管理領(lǐng)域中的風險既符合疊加原理又符合短板原理。從最終使用者的角度來看,任何一個技術(shù)或者管理體系造成的停機時間都會被累加,而不會被區(qū)分原因。但是從系統(tǒng)建設(shè)管理的角度來看短板原理也十分明顯,如果一個系統(tǒng)每年會因為停電原因?qū)е聨资畟€小時的停機,那么投入大量成本來避免可能兩年發(fā)生一次,每次造成15分鐘停機的網(wǎng)絡(luò)風險無疑是不明智的。而各產(chǎn)品和設(shè)備廠商提出改進可用性的方案往往都是從各自的技術(shù)領(lǐng)域出發(fā),既沒有統(tǒng)一標準也沒有通盤考慮,改進方案往往也都是局部的,甚至在利益驅(qū)動下缺乏客觀的基礎(chǔ)。
建立可用性建設(shè)或改進目標,建立測量體系,并通盤考量各系統(tǒng)可用性等級,按照對系統(tǒng)整體可用性影響的大小和費效比、時效比綜合安排各系統(tǒng)改進計劃和改進方案,分步實施并進行持續(xù)的監(jiān)控和改進,可以使IT系統(tǒng)的可用性穩(wěn)定一致的滿足于業(yè)務(wù)需求,而且可測量的可用性指標還可以作為衡量IT管理團隊服務(wù)水平和質(zhì)量的標準之一。
那么如何從整體上考慮并規(guī)劃IT系統(tǒng)的高可用性呢,筆者根據(jù)IT規(guī)劃的一般規(guī)律和高可用性的特點提出以下方法:
一、設(shè)定IT系統(tǒng)可用性目標
IT系統(tǒng)的可用性必須遵從于IT系統(tǒng)最終用戶的業(yè)務(wù)要求,從這個角度來看,IT系統(tǒng)的可管理性和成本控制首先應(yīng)依從于最終用戶對于可用性的要求。
在需求調(diào)研過程中,應(yīng)充分認識到不同業(yè)務(wù)功能的重要程度差異、不同業(yè)務(wù)功能中斷對機構(gòu)戰(zhàn)略目標實現(xiàn)的影響程度、非IT替代手段的可行性和非計劃中斷的必然性、機構(gòu)本身承受意外事件傷害的能力等方面因素,獲取業(yè)務(wù)部門和服務(wù)對象的支持和理解。最終分析取得各系統(tǒng)的最大可容忍中斷時間。在分析過程中,應(yīng)充分考慮機構(gòu)在經(jīng)濟損失、聲譽損失和社會責任缺失等方面造成的損害和其承受能力,設(shè)定承受能力的閾值。機構(gòu)在經(jīng)濟方面、聲譽和市場方面社會責任和法規(guī)遵從方面的損失會隨中斷時間的延長逐步擴大,當超過某一特定時間,各方面的累積損失將不可接受,會對機構(gòu)生存和戰(zhàn)略目標達成構(gòu)成不可逆轉(zhuǎn)的影響,這個時間就是最大可容忍中斷時間。值得注意的是,最大可容忍中斷時間對不同的場景可能會有不同,一般而言不可抗力事件影響的公眾和市場容忍度較高,法律賠償方面影響較低,而人為責任事件公眾和市場容忍度較低,法律法規(guī)方面懲罰性措施也更嚴厲。
通過調(diào)研評估最終得出得到業(yè)務(wù)部門和最終用戶認可的系統(tǒng)的可用性目標=(約定服務(wù)時間-最大可容忍中斷時間)/約定服務(wù)時間*100%。
二、了解可用性保障水平的現(xiàn)狀
明確目標之后,還應(yīng)該了解目前系統(tǒng)可用性水平的現(xiàn)狀,找出差距和不足。對于現(xiàn)狀的了解應(yīng)從兩個方面著手。一方面應(yīng)對目前的IT架構(gòu)和IT管理體系現(xiàn)狀進行全面的了解和掌握(包括技術(shù)體系、邏輯關(guān)系、管理流程、管理制度、組織體系等)。為將來進行針對性改建做好基礎(chǔ)準備。另一方面應(yīng)充分了解目前IT系統(tǒng)的風險環(huán)境狀況,通過歷史事件統(tǒng)計、信息安全管理風險分析、基礎(chǔ)設(shè)施風險環(huán)境分析和IT架構(gòu)技術(shù)風險分析等,了解機構(gòu)信息系統(tǒng)面臨的威脅種類和發(fā)生概率,了解機構(gòu)對不同威脅的防范措施的有效性,了解不同種類風險發(fā)生對機構(gòu)的危害和影響程度等。最終獲取按照風險等級排列的威脅列表、針對已經(jīng)采取的防范措施有效性的評價列表,以及針對不同等級風險的處置方式建議等。
三、確定高可用建設(shè)和管理策略
可用性規(guī)劃策略的制定應(yīng)充分考慮現(xiàn)有系統(tǒng)的狀況和資源狀況,充分考慮機構(gòu)的業(yè)務(wù)目標和發(fā)展計劃,充分考慮技術(shù)現(xiàn)狀和發(fā)展趨勢,充分利用專業(yè)廠商的服務(wù)和資源共享,并結(jié)合IT整體規(guī)劃目標制定IT系統(tǒng)可用性的實現(xiàn)和改進策略。
可用性規(guī)劃的整體策略應(yīng)該包括:
四、設(shè)計IT系統(tǒng)高可用性改進方案
IT系統(tǒng)可用性的改善和提高涉及技術(shù)和管理的各個領(lǐng)域,絕對不是一兩個單純的技術(shù)方案能夠?qū)崿F(xiàn)的。一般而言,可用性改進的方案中應(yīng)至少包括:
管理體系改進方案,包括:可用性規(guī)劃、執(zhí)行、檢查、改進各環(huán)節(jié)的目標、職責、流程和管理工具、管理方法,實現(xiàn)計劃、資源投入等,如果需要,根據(jù)策略要求管理體系中還應(yīng)包括災(zāi)備中心的管理體系整合。
技術(shù)體系改進方案,包括:主機體系、網(wǎng)絡(luò)體系、存儲體系、應(yīng)用體系、安全監(jiān)控體系等各分子系統(tǒng)的改進目標、技術(shù)路線、資源獲取方式、成本估算等,如果需要還要根據(jù)策略要求規(guī)劃災(zāi)備中心的技術(shù)實現(xiàn)方案。
此外,根據(jù)實際情況可能還包括,機房基礎(chǔ)設(shè)施和服務(wù)資源獲取方案,信息安全管理體系改進方案等。
設(shè)計方案完成后應(yīng)組織相關(guān)領(lǐng)域的專家對各方案的可行性、可管理性、技術(shù)成熟度、可擴展性、可管理性、費效比等進行評估和修訂。
五、高可用改進方案的分步實現(xiàn)
一般而言,可用性的改進計劃應(yīng)根據(jù)時效比和費效比排列優(yōu)先級,根據(jù)方案設(shè)定分類分階段招標,由專業(yè)廠商負責實施完成。對于復(fù)雜的可能需要多家專業(yè)廠商協(xié)作完成的綜合性項目,應(yīng)由熟悉整體規(guī)劃和項目管理專業(yè)技能的人員組建專業(yè)項目管理團隊,在整個項目周期中協(xié)調(diào)和管理整個實施過程,保證項目的實施質(zhì)量和實施周期。
六、IT系統(tǒng)高可用性的維護和改進
IT系統(tǒng)高可用性目標的實現(xiàn)不是一兩個項目能夠完全解決的,隨著業(yè)務(wù)的發(fā)展和技術(shù)的變革,IT系統(tǒng)的邏輯架構(gòu)和功能,數(shù)據(jù)和配置信息以及其所處的風險環(huán)境等都會處于不斷的變化當中,必須建立起持續(xù)的監(jiān)控、改進流程和相關(guān)的規(guī)范方法,才能夠保證系統(tǒng)的可用性目標能夠得到保持并持續(xù)的改進。
相關(guān)的維護和改進工作至少應(yīng)包括:
高可用IT管理是一個復(fù)雜的系統(tǒng)工程,包含了IT架構(gòu)、基礎(chǔ)設(shè)施、災(zāi)備、安全、IT治理等各個不同的技術(shù)和管理領(lǐng)域,在每一個技術(shù)和管理領(lǐng)域中又都有其自身的知識體系和方法體系,本文無法窮舉,希望通過以上內(nèi)容對企業(yè)CIO在構(gòu)建高可用IT管理體系方面有所幫助,共同推進高可用IT管理體系的發(fā)展。