定期巡檢能及時發(fā)現(xiàn)系統(tǒng)的異常情況,避免事故的發(fā)生,但傳統(tǒng)私有云巡檢依靠人員每天按部就班的逐個去檢查服務(wù)器、存儲、網(wǎng)絡(luò)等設(shè)備的狀況,或者從幾千條日志中找到有價值的內(nèi)容,耗時耗力,同時存在周期漫長、可靠性差等弊端。相較于傳統(tǒng)的人工巡檢,智能巡檢對云平基礎(chǔ)設(shè)施進行自動巡檢,發(fā)現(xiàn)異常自動告警,一鍵收集巡檢日志,實現(xiàn)巡檢全過程的智能化。
超大規(guī)模分布式云計算中心統(tǒng)一巡檢
云計算中心經(jīng)歷了規(guī)?;l(fā)展的階段后,目前正往分布式的方向發(fā)展,以整合各類物理資源和虛擬資源,形成統(tǒng)一的邏輯資源池,有效提升云計算中心資源利用率和管理效率。在分布式架構(gòu)下,云計算中心應(yīng)用系統(tǒng)功能模塊分散部署,業(yè)務(wù)系統(tǒng)功能細(xì)分導(dǎo)致了版本多樣性,各模塊之間的調(diào)用關(guān)系復(fù)雜。傳統(tǒng)的私有云只能對分布在不同區(qū)域的單個資源池進行單獨運維,為每個資源池構(gòu)建一套運維系統(tǒng),難以實現(xiàn)整個云平臺的一體化運維?! ?/p>
易捷行云新一代私有云智能巡檢示意圖
易捷行云新一代私有云EasyStack ECS基于安全、穩(wěn)定、高效的新一代數(shù)據(jù)中心分布式云操作系統(tǒng),可實現(xiàn)超大規(guī)模云計算中心的智能統(tǒng)一運維。首先,易捷行云將1000+家大中型企業(yè)客戶、數(shù)萬節(jié)點規(guī)模云平臺的運維經(jīng)驗產(chǎn)品化,形成運維知識庫;之后通過事件網(wǎng)格服務(wù)自動執(zhí)行巡檢等運維動作。事件網(wǎng)格服務(wù)是易捷行云新一代私有云的內(nèi)在能力,具有事件編排的能力,通過事件網(wǎng)格服務(wù),可通過API,在云服務(wù)與物理設(shè)備之間通過最有效的路徑,及時感知事件,動態(tài)執(zhí)行運維動作,不受部署規(guī)模與部署形態(tài)的影響,幫助企業(yè)提升態(tài)勢感知能力和企業(yè)敏捷性。
巡檢全流程“零干預(yù)”,規(guī)避人為操作風(fēng)險
傳統(tǒng)私有云的監(jiān)控管理、巡檢、日志等系統(tǒng)是分開建設(shè)的,往往需要運維人員的人工巡檢,手動輸入巡檢日志。而易捷行云新一代私有云EasyStack ECS基于業(yè)務(wù)場景靈活定義運維服務(wù)過程,由人工檢查升級為7×24無人自動化巡檢,巡檢全程無人值守,規(guī)避人為操作風(fēng)險,實時跟蹤記錄云平臺運行情況,實現(xiàn)對異常狀態(tài)的提前判斷和預(yù)期故障的預(yù)警,有效提高巡檢效率,保障業(yè)務(wù)安全穩(wěn)定運行。
巡檢流程零干預(yù):360°深度感知云平臺運行狀態(tài)
日常巡檢工作每天對云平臺進行健康巡檢和對資源的性能指標(biāo)的異常巡檢。易捷行云新一代私有云ECS中內(nèi)嵌自動巡檢腳本,提前定義巡檢任務(wù)和時間,在不影響客戶業(yè)務(wù)前提下,對物理資源、計算資源、存儲資源、網(wǎng)絡(luò)資源、云服務(wù)、操作系統(tǒng)等進行全面的運行狀態(tài)及容量狀態(tài)的自動化檢測分析,幫助客戶360°深度感知云平臺運行狀態(tài),使得管理人員可以做到遠(yuǎn)程巡視,及時發(fā)現(xiàn)、匯報、處理問題,防患于未然,同時也為實時、異地處理告警創(chuàng)造可能。
日志管理零干預(yù):統(tǒng)一日志,巡檢報告實時/定時通知
運維管理的日志數(shù)據(jù)可以很好地反映云平臺的運行狀況,系統(tǒng)出現(xiàn)問題的時候,可以通過反查日志進行排障。易捷行云新一代私有云ECS實現(xiàn)了日志、監(jiān)控、告警的可視化、自動化。提供從日志一鍵采集、日志存儲到日志檢索分析等多項服務(wù),幫助運維人員全面、系統(tǒng)的分析系統(tǒng)故障和健康狀況,方便問題快速定位和分析;同時,通過提前配置告警郵箱,巡檢日志定時發(fā)送,協(xié)助用戶及時獲取異常通知,查詢異常原因?!?/p>
提前配置告警郵箱,巡檢日志定時發(fā)送
異常告警零干預(yù):異常自動告警,故障可自愈
為了幫助企業(yè)更加量化的評估當(dāng)下告警管理能力,易捷行云新一代私有云ECS基于智能巡檢感知,對服務(wù)、存儲、主機和日志提供嚴(yán)重、警告和信息不同程度的自動告警,并提供自動修復(fù)和手動告警處理方案;在發(fā)生故障或失控之前提供足夠的警告,實現(xiàn)主動運維,降低故障率;當(dāng)設(shè)備出現(xiàn)故障、損壞以及設(shè)備負(fù)載異常時觸發(fā)自動告警,從故障發(fā)現(xiàn)、診斷到自愈整個流程自動化實施,基本實現(xiàn)運維保障的很少參與或無人參與,保證平臺安全可靠?!?/p>
提供不同程度自動告警及處理方案
案例:某大型三甲醫(yī)院智能巡檢實現(xiàn)高效運維
易捷行云新一代私有云ECS智能巡檢無技術(shù)門檻,可幫助企業(yè)主動的找出可能影響系統(tǒng)可用性和性能降低的原因,發(fā)現(xiàn)可能會影響軟硬件嚴(yán)重故障,以及業(yè)務(wù)系統(tǒng)性能瓶頸等等,很大程度地提供用戶業(yè)務(wù)使用環(huán)境的可用性和穩(wěn)定性。
以某大型三甲醫(yī)院為例,該醫(yī)院依托易捷行云新一代私有云ECS構(gòu)建起醫(yī)院內(nèi)部私有云平臺,通過加速故障診斷與運維決策,對硬件、系統(tǒng)、服務(wù)、性能全面360°監(jiān)控,可視化多維細(xì)粒度監(jiān)控指標(biāo),自動化運維和深度分析,告警/自動巡檢報告郵件通知等豐富的功能,有效地降低了運維壓力,讓醫(yī)院更加專注于業(yè)務(wù)系統(tǒng)功能擴展和服務(wù)優(yōu)化。
隨著企業(yè)IT管理規(guī)模日益擴大,易捷行云新一代私有云ECS智能巡檢服務(wù)將大大提高運維和巡檢人員的工作效率,增加運維巡檢工作的便捷性與準(zhǔn)確性,以輕運維的方式提高云平臺服務(wù)管理水平,幫助企業(yè)云平臺高可靠、高可用,加速企業(yè)數(shù)字化轉(zhuǎn)型。