多個機構的調(diào)研結果顯示,企業(yè)在上云過程中會不同程度地采用多種類型的資源池——混合云既具備公有云彈性伸縮的優(yōu)點,又可滿足用戶對于不同類型業(yè)務和數(shù)據(jù)的運營需求,越來越多的企業(yè)IT架構正在逐步向多地、多點的混合云系統(tǒng)轉變。
一、多地、多點、異構資源池網(wǎng)絡監(jiān)控難度陡增
隨著云計算新技術的不斷引入,傳統(tǒng)的網(wǎng)絡運維、監(jiān)控方案越來越難以持續(xù),云時代的網(wǎng)絡監(jiān)控診斷遇到了新的挑戰(zhàn)。許多企業(yè)IT運營管理人員紛紛表示,現(xiàn)有的監(jiān)控診斷方案難以覆蓋日益增加的東西向流量;云化后的虛擬資源時刻發(fā)生變化、虛擬網(wǎng)絡的層級不斷疊加和轉換、不同業(yè)務的網(wǎng)絡服務拆分和交織在一起,網(wǎng)絡的日常運維工作由此變得非常復雜;而當在業(yè)務出現(xiàn)問題時,由于缺少完整的證據(jù)鏈幫助企業(yè)快速定位和排障,導致部門間經(jīng)常互相推諉。網(wǎng)絡“黑盒”成為企業(yè)上云的一大障礙已經(jīng)成為業(yè)界共識,造成這個問題的原因包括以下幾點:
1. 流量管理有短板:傳統(tǒng)的分光/鏡像/采樣等技術只能覆蓋到物理網(wǎng)絡,對越來越占據(jù)主導地位的虛擬網(wǎng)絡流量缺乏精準和高效的采集手段,而后端現(xiàn)有的大部分分析工具首先缺乏必須的流量數(shù)據(jù),并且也無法處理TB級別的流量數(shù)據(jù)。
2. 網(wǎng)絡視圖不清晰:云數(shù)據(jù)中心的特點是各種業(yè)務由同一套系統(tǒng)承載,網(wǎng)絡資源是動態(tài)變化的,因此很難像傳統(tǒng)網(wǎng)絡那樣用一張清晰的圖來表示云網(wǎng)絡,出現(xiàn)業(yè)務故障時“虛擬網(wǎng)元”往往成為了故障盲點,對于網(wǎng)絡中的服務互訪、關聯(lián)關系、訪問路徑還缺少有效的監(jiān)控手段,定位故障點成了新挑戰(zhàn)。
3. 監(jiān)控不隨云擴展:企業(yè)采用混合云架構后,網(wǎng)絡結構靈活多變,在多租戶、大量業(yè)務、海量數(shù)據(jù)的背景下,需要建立包含物理、虛擬化、容器網(wǎng)絡的統(tǒng)一監(jiān)控平臺,并為其他部門提供網(wǎng)絡分流、數(shù)據(jù)服務。
二、用DeepFlow構建業(yè)務全鏈路流量知識圖譜
許多行業(yè)有明確的等保要求,例如必須有能力對虛擬網(wǎng)絡的拓撲和流量進行采集和展現(xiàn),采集方式也必須確保安全可靠。企業(yè)想徹底解決虛擬網(wǎng)絡“黑盒”問題,則需要獲取完整的網(wǎng)絡流量。下面以DeepFlow全景圖功能為例,介紹混合云環(huán)境下的網(wǎng)絡流量采集及全鏈路監(jiān)控。
全景圖是DeepFlow重要功能之一,v5.6版本提供十多個維度(包括IP、VPC、子網(wǎng)、區(qū)域、可用區(qū)、宿主機、虛擬機、容器節(jié)點、容器POD、業(yè)務、資源組等)的資源流量搜索和知識圖譜展現(xiàn),以及云網(wǎng)全景視圖下的監(jiān)控診斷解決方案。幫助用戶將網(wǎng)絡信息、資源信息、服務信息與業(yè)務信息有機關聯(lián),統(tǒng)一采集并分發(fā)任意工作負載(容器/虛擬機)之間的流量,實現(xiàn)對業(yè)務網(wǎng)絡的全面性能監(jiān)控。流量搜索從十余個維度的資源視角展示網(wǎng)絡性能監(jiān)控數(shù)據(jù)。全景圖展示的視角(頁面)包括:
流統(tǒng)計:以IP五元組聚合流,以流屬性為基礎統(tǒng)計吞吐、負載、時延、性能、異常及流量屬性數(shù)據(jù),支持以趨勢、排名、分布、拓撲的方式進行可視化。
包統(tǒng)計:以IP二元組聚合,對包的播送類型、TCP標志位、TTL、包長區(qū)間等屬性進行吞吐量統(tǒng)計,支持以趨勢、排名、分布、拓撲的方式進行可視化。
廣域網(wǎng):從地理位置的視角展示資源與Internet之間的流量分布,支持以中國省份維度進行分組統(tǒng)計,支持的指標量與流統(tǒng)計相同,支持以趨勢、排名、分布的方式進行可視化。
通過點擊拓撲中的節(jié)點、路徑,以及分布圖中的分組,用戶可在上述頁面之間進行切換,從不同的視角對同樣的數(shù)據(jù)進行展現(xiàn)。另外,頁面還可進一步跳轉到流量曲線二級頁面,以折線圖的視角,展現(xiàn)現(xiàn)拓撲中的節(jié)點、路徑或分布圖中分組的統(tǒng)計數(shù)據(jù)在不同時間的結果,并與虛擬機、容器POD的啟停、創(chuàng)建(同步)、刪除、遷移、IP變更事件進行關聯(lián)展示。進一步的,可以跳轉到流日志三級頁面,查看對應的原始流日志詳細信息。
DeepFlow全景圖功能下目前有流量搜索及網(wǎng)絡拓撲兩個子功能,流量搜索聚焦于從不同的維度對虛擬網(wǎng)絡中的流量指標數(shù)據(jù)(500多個監(jiān)控指標)進行靈活檢索,形成豐富多樣的子視圖(拓撲類、比較類、分布類、趨勢類等),對流量數(shù)據(jù)進行可視化展現(xiàn)。且所有可視化圖表均可加入自定義視圖中進行進一步的組合、設置告警生成策略、設置報表生成策略。
網(wǎng)絡拓撲功能聚焦于從邏輯、虛擬、物理的視角展現(xiàn)網(wǎng)絡的配置信息和狀態(tài)指標數(shù)據(jù)。完整描述各虛擬資源及虛擬網(wǎng)元之間的訪問關系以及流量狀態(tài),幫助管理者全面掌握虛擬網(wǎng)絡整體情況,有效應對虛擬網(wǎng)絡內(nèi)部組件關系復雜、虛擬機變動頻繁等現(xiàn)象。
三、全景視圖下的云網(wǎng)全鏈路監(jiān)控診斷
采集數(shù)據(jù)、可視化呈現(xiàn)只是精細化管理的第一步,接下來還要將網(wǎng)絡信息、資源信息、服務信息、及業(yè)務信息,關聯(lián)對應起來,真正用于發(fā)現(xiàn)問題、解決問題。例如,用戶通過DeepFlow全景圖可以確定突發(fā)的網(wǎng)絡故障問題在哪一側,以及業(yè)務網(wǎng)絡端到端逐跳性能問題診斷等。
通過精細搜索,過濾指定網(wǎng)流:源、目的、協(xié)議、服務端口;通過端到端指標量對比,定位問題在客戶端/服務端;結合資源知識圖譜,定位流量的資源信息。
通過精細搜索,過濾指定網(wǎng)流:源、目的、協(xié)議、服務端口;通過物理鏈路逐跳查看,展示網(wǎng)絡性能指標的逐跳變化,定位丟包和時延位置;通過廣域網(wǎng)追蹤,過濾網(wǎng)流,定位問題地域。
四、總結
DeepFlow全景圖幫助管理者將網(wǎng)元狀態(tài)、網(wǎng)絡流量與資源(業(yè)務)有機關聯(lián),使云中業(yè)務網(wǎng)絡不再是運維“黑洞”。通過全網(wǎng)流量采集,時序數(shù)據(jù)庫的分布式存儲,再繪制包含多個維度的網(wǎng)絡知識圖譜,最終通過對關鍵指標量的監(jiān)控,實現(xiàn)對業(yè)務網(wǎng)絡全鏈路的監(jiān)控和性能診斷。