一、智能化已成為釋放 IT 運維人員能力的重要技術手段
在云計算數(shù)據(jù)中心場景下,資源與信息更加集中。這種“集中”不是集中到一臺機器,而是集中到由 100 臺、1000 臺或更多機器組成的集群上。云計算技術能為用戶提供極高的計算能力及海量存儲空間,與此同時,也帶來了運維方式的巨大變化。隨著服務規(guī)模的不斷擴展,人工進行系統(tǒng)管理已經(jīng)成為不可能完成的任務,自動化運維將是不可回避的選擇。同時,企業(yè)數(shù)字化轉(zhuǎn)型所需要的 IT 敏捷性和速度也超越了以往傳統(tǒng)的 IT 運維實踐。
IT運維的重要工作內(nèi)容之一就是定期巡檢。無論是室內(nèi)的數(shù)據(jù)中心機房,還是新型的云數(shù)據(jù)中心,定期的巡檢管理是必不可少的。傳統(tǒng)的巡檢系統(tǒng),多數(shù)巡檢為半夜進行非常辛苦,運維人員直接通過手工記錄檢查結(jié)果,該種方式需要工作量很大、效率低、檢查結(jié)果不易保留及查詢等,另一方面由于是人工操作,就會有惰性和不規(guī)范情況出現(xiàn),容易造成管理人員走馬觀花。隨著云計算技術在各行各業(yè)的工程落地實踐,傳統(tǒng)的巡檢方式已經(jīng)很難滿足用戶對大規(guī)?;A資源的運維要求,需要通過一種全新的自動化技術來擺脫傳統(tǒng)的紙張記錄方式,讓運維人員巡檢更加科學,是當前企業(yè)急需解決的難題。
目前,應用于云平臺的智能化巡檢服務在行業(yè)內(nèi)較為少見,一些產(chǎn)品大多通過第三方的巡檢工具,巡檢內(nèi)容也僅局限于虛擬機層面,更不能直接輸出云平臺巡檢結(jié)果的分析整理以及下一步的運維管理建議,還只是停留在對可觀存在的數(shù)據(jù)信息的收集整理階段。對于 IT 運維人員而言,還無法做到協(xié)助對主觀意識層面的知識歸納與創(chuàng)新的幫助,如果,智能化的云平臺巡檢服務能夠?qū)崿F(xiàn)全面的內(nèi)容巡檢以及對巡檢結(jié)果的分析整理,并可輸出標準化的巡檢報告,那將會釋放運維人員的機械化工作壓力,更多的時間投入到知識沉淀和創(chuàng)新性得工作中去。
圖 1 云平臺運維工作體系
二、品高云平臺智能體檢服務
品高云平臺智能體檢服務,解決了運維人員手動巡檢云平臺的諸多問題,自動巡檢完畢后即可導出巡檢報告,運維人員可詳細查看巡檢總結(jié)、存在問題以及優(yōu)化意見,極大簡化運維人員巡檢流程,進一步提高了運維巡檢的工作效率,釋放運維人員的機械化工作壓力。
圖 2 平臺智能體檢服務示意圖
品高云平臺智能體檢服務的巡檢內(nèi)容包括了云服務器性能情況、云存儲容量以及可用性、云控制器可用性、數(shù)據(jù)庫使用情況、云服務可用性、整體資源使用情況、資源使用 TOP 監(jiān)控、資源可用性。
品高云平臺智能體檢服務除了對云平臺的整體運行情況進行檢查外,輸出的標準化巡檢報告中還為運維人員提供了云平臺的優(yōu)化建議與問題改進建議。
三、特色能力
針對常見問題給出整改建議,后續(xù)可以按需擴容整改建議庫 ;
自動生成 Word 版本巡檢報告,目錄中直接標記問題所在,可通過點擊跳轉(zhuǎn)具體問題章節(jié);
針對云的物理資源(服務器、存儲、SDN 網(wǎng)絡)、云控制器與數(shù)據(jù)庫、虛擬資源、各種云服務等統(tǒng)一進行健康檢查;
四、應用場景
定期巡檢云平臺整體情況,包括計算/存儲/網(wǎng)絡/高級服務/數(shù)據(jù)庫/平臺狀態(tài)等。
統(tǒng)計分析云平臺資源使用情況,為升級擴容提供參考。
五、功能實踐——自動巡檢品高云平臺
本次功能實踐是通過智能體檢服務對品高云平臺進行自動巡檢,輸出標準化的巡檢報告,并針對某一巡檢項與云平臺內(nèi)的實際情況進行對比,以確認智能化巡檢服務的準確性。
詳細操作步驟如下:
(1)打開平臺智能巡檢服務,填寫品高云巡檢平臺信息,包括用戶名稱,平臺版本,巡檢人,平臺賬號,密碼,平臺地址,存儲地址等。
圖 3 填寫巡檢平臺信息
(2)點擊生成報表開始巡檢云平臺。
圖 4 巡檢過程截圖
(3)巡檢完成后即可導出完整的云平臺巡檢報告。
圖 5 標準化巡檢報告封面
自動輸出的巡檢報告包括了服務器狀態(tài)、云平臺數(shù)據(jù)庫運行狀態(tài)、云存儲服務狀態(tài)、云平臺使用狀態(tài)、自助服務門戶狀態(tài)、實例狀態(tài)等內(nèi)容,同時,還針對巡檢結(jié)果與存在問題進行了數(shù)據(jù)分析,為云平臺運維人員提供了一定的管理建議。
(4)針對實例狀態(tài)中的內(nèi)存監(jiān)控情況,查看巡檢報告中的巡檢內(nèi)容是否與云平臺中的實例監(jiān)控一致。
首先,打開云平臺巡檢報告,在實例狀態(tài)監(jiān)控章節(jié)查看實例內(nèi)存監(jiān)控情況,發(fā)現(xiàn)云平臺共有以下 1 臺虛擬機內(nèi)存占用過高,實例 IP 為 i-4B71D908。
圖 6 巡檢報告中實例內(nèi)存巡檢結(jié)果截圖
進入云平臺(地址 10.202.83.1:8663),通過【監(jiān)控與報表】→【監(jiān)控 TOP】可以查看到云平臺中實例內(nèi)容占用率最高的實例也為 i-4B71D908,與巡檢報告輸出的數(shù)據(jù)一致,這說明平臺智能體檢服務的巡檢結(jié)果非常準確。
圖 7 云平臺監(jiān)控監(jiān)控 TOP 截圖