考慮到業(yè)務(wù)部門是隨機(jī)性的出現(xiàn)10分鐘左右的中斷,如果機(jī)器存在硬件故障,那么美信CreCloud云網(wǎng)管肯定也會(huì)有所體現(xiàn)。美信CreCloud云網(wǎng)管對(duì)ping值的反饋是默認(rèn)每2分鐘一次,3000ms算超時(shí),7*24小時(shí)任務(wù)制。我們查看ping的監(jiān)控點(diǎn),同時(shí)自定義發(fā)生故障的日期,可以查看到在此期間,ping的服務(wù)成功率是100%,同時(shí)相應(yīng)時(shí)間最長(zhǎng)也不超過8ms,并沒有發(fā)現(xiàn)如業(yè)務(wù)部門所說的情況。
繼續(xù)檢查CPU利用率的情況,發(fā)現(xiàn)利用率較低,同時(shí)服務(wù)成功率也是100%。
在物理內(nèi)存方面的檢測(cè)依然沒有發(fā)現(xiàn)任何問題。
以同樣的方法在0.61的服務(wù)器上進(jìn)行了排查,結(jié)果和上面的并無二致。因此可以判斷問題并不在網(wǎng)絡(luò)硬件方面。
最終與業(yè)務(wù)部門共同檢查,發(fā)現(xiàn)問題出在“應(yīng)用”上。0.176上跑的是業(yè)務(wù)部門自己寫的一個(gè)服務(wù)。于是我們將該服務(wù)添加到美信CreCloud云網(wǎng)管的監(jiān)控點(diǎn)上繼續(xù)排查故障。最終發(fā)現(xiàn)該服務(wù)隨機(jī)性的掛死,在測(cè)試的兩個(gè)小時(shí)內(nèi),服務(wù)就掛掉了兩次。(在圖表中,實(shí)心區(qū)域是正常時(shí)間段,空心區(qū)域是服務(wù)失敗的時(shí)間段。)
在監(jiān)測(cè)數(shù)據(jù)列表中,還可以查看到發(fā)生故障狀態(tài)的具體時(shí)間,以及持續(xù)時(shí)間等詳細(xì)信息。
從業(yè)務(wù)部門提出疑惑,到我們給出專業(yè)的答案,整個(gè)過程不超過1個(gè)小時(shí)。領(lǐng)導(dǎo)對(duì)我們解決問題的速度和專業(yè)性提出了肯定。而這個(gè)過程中,美信CreCloud云網(wǎng)管這種高效的工作機(jī)制和準(zhǔn)確簡(jiǎn)單的圖表可以說是功不可沒。通過美信CreCloud云網(wǎng)管的圖表數(shù)據(jù),我們和業(yè)務(wù)部門找到一種更快捷也更準(zhǔn)確的溝通方式。