Walter Beddoe,Six Telekurs負責IT和后勤的副總裁,他說,“17年來,我們從未出現(xiàn)過影響到客戶利益的重大宕機事件。”
汽車服務公司Carfax的運營經(jīng)理Jerry Gregg說,重要的是要了解,不少性能測量工具計算出的正常運行時間只是一個近似值。“這樣的數(shù)值,充其量只能用來參考。”
Gregg觀察到,一些初步的正常運行時間測量工具得出的數(shù)值實際上可能引起誤解,因為這些工具不能正確地區(qū)分如下兩種情況:周日清晨睡眠時間發(fā)生的一小時長的服務器宕機和周四下午正運行關鍵業(yè)務進程時的10分鐘的系統(tǒng)失靈。這也是為什么應該購買那些可提供全時、基于事件分析能力的測量工具的原因。
為了讓正常運行時間分析更有意義,Gregg決定選用可以顯示服務器崩潰對關鍵業(yè)務服務產(chǎn)生何種影響的測量工具。Gregg采用了BMC的ProactiveNet性能管理軟件,該軟件可直接將服務器宕機時間與銷售交易和其他類型的面向業(yè)務數(shù)據(jù)進行關聯(lián)。“可以讓我們用美元而不只是用時間來量化服務器的宕機事件。”
該軟件所生成的信息可幫助他確定宕機事件是否會威脅到企業(yè)的盈虧底線,為購買新服務器、更好的網(wǎng)絡設備或其他可靠性增強技術及服務的預算做辯護。“如果沒有這樣的信息,你就只能在無法真正了解運營成本的情況下進行成本效益決策,”Gregg說。
別讓黑客“盜取”正常運行時間
在保障服務器正常運行時間方面,安全也會發(fā)揮重要的作用。假如服務器遭遇惡意軟件攻擊,或者網(wǎng)絡路徑不安全,那么服務器宕機是毫不令人驚訝的。“需要從物理安全起步——也就是數(shù)據(jù)中心的建筑開始,首先保障其物理安全,”Beddoe說。
其次,要建立服務器的訪問規(guī)則,并予以強制執(zhí)行,同時,還要強制執(zhí)行安全程序、防病毒程序、防火墻,培訓遵紀守法的管理員,都是非常重要的。Beddoe說,“所有這些要素在服務器安全和提升正常運行時間方面都發(fā)揮著同樣的重要作用。”
為IT咨詢及客戶軟件開發(fā)商Superior科技解決方案公司監(jiān)管服務器運營的John Luludis說,要想真正讓服務器的正常運行時間最大化,超越基本的安全實踐是很重要的。Luludis強烈推崇定期的獨立安全審計。“我監(jiān)管的網(wǎng)絡必須定期進行滲透測試,之所以要這么做就是要讓我的網(wǎng)絡盡可能的安全,而且最好從外部看也是安全的。”
保護你的數(shù)據(jù)
盡管Princeton Radiology的Howard也強烈信奉定期的服務器維護,但是他也指出,經(jīng)理和員工再怎么努力也無法避免一定量故障的發(fā)生。要想防范因服務器失效而導致的任何數(shù)據(jù)損失,Howard建議制定數(shù)據(jù)保護計劃,并將其整合到企業(yè)全面的業(yè)務連續(xù)性戰(zhàn)略中去。
Princeton采用了來自Compellent科技的場外存儲解決方案,復制器所有已存儲的數(shù)據(jù)。“即便有一個災難恢復數(shù)據(jù)中心,我們實際上也得在主要設施之外運行一些服務器,所以我們需要雙向備份數(shù)據(jù)。”
Raoul Gabiam,華盛頓大學的IT運營兼工程設計經(jīng)理,他認為生命周期管理是服務器正常運行時間規(guī)劃的一個內(nèi)在組成部分。
華盛頓大學的Gabiam則仰仗內(nèi)置于網(wǎng)絡基礎設施中的負載均衡技術來防范服務器可能出現(xiàn)的突然宕機。“假如一臺服務器崩潰或者某個應用不響應,那么網(wǎng)絡流量就會重定向到其他服務器,相同的服務器也能處理這一工作負載。”
和Princeton的Howard不一樣,Gabiam比較看好集群,采用了Novell的集群服務來提供附加的冗余層。如果集群中的一個節(jié)點失靈,或者有停機維護的需要,那么在該節(jié)點上運行的集群應用或者某個服務組件便可無縫地遷移到集群的另一個節(jié)點上去運行。
這個遷移進程可以配置成手工失效備援或者自動失效備援。“一般而言,在硬件或軟件失效時,應該讓應用自動失效備援到下一個備選節(jié)點上去,”Gabiam說,不過管理員也可以在某個特定節(jié)點須執(zhí)行維護任務時,手動將應用遷移到另一個節(jié)點去。