3.1. 方案概述
在該項(xiàng)目建設(shè)中, DeepFlow? 平臺(tái)對(duì)接范圍包括阿里公有云、VMware、華為公有云、華為私有云、微軟公有云共5個(gè)平臺(tái)。通過(guò)部署DeepFlow? 采集器、控制器和數(shù)據(jù)節(jié)點(diǎn)三大組件,幫助地產(chǎn)科技企業(yè)在混合云環(huán)境中實(shí)現(xiàn)了虛擬網(wǎng)絡(luò)流量的統(tǒng)一采集和實(shí)時(shí)分析,實(shí)現(xiàn)對(duì)業(yè)務(wù)關(guān)鍵鏈路的全面性能監(jiān)控,并提供虛擬網(wǎng)絡(luò)端到端的路徑診斷。
采集器運(yùn)行于5朵云的計(jì)算節(jié)點(diǎn),通過(guò)從控制器獲取ACL規(guī)則,提供對(duì)云環(huán)境中的網(wǎng)包數(shù)據(jù)完備的采集和預(yù)處理能力(如過(guò)濾、分發(fā)、Flow生成、Flow截取、脫敏等功能)可精細(xì)地實(shí)現(xiàn)對(duì)云網(wǎng)絡(luò)流量的采集和分析。
控制器組件以集群模式旁路部署在本地資源池的標(biāo)準(zhǔn)x86服務(wù)器中,提供5朵云的對(duì)接和全部采集器的管理以及采集策略的管理。數(shù)據(jù)節(jié)點(diǎn)部署方式和控制器相同,提供豐富的實(shí)時(shí)分析和回溯取證等功能,并根據(jù)項(xiàng)目規(guī)劃要求,支持橫向擴(kuò)展。
3.2. 部署實(shí)施
在項(xiàng)目實(shí)施過(guò)程中,控制器和數(shù)據(jù)節(jié)點(diǎn)旁路部署在地產(chǎn)科技企業(yè)本地資源池的x86集群,控制器通過(guò)對(duì)接云平臺(tái)實(shí)現(xiàn)了虛擬機(jī)遷移感知,從而實(shí)現(xiàn)了采集策略的自動(dòng)化跟隨;同時(shí) DeepFlow? 擁有對(duì)自身系統(tǒng)的全面監(jiān)控能力,以確保平臺(tái)穩(wěn)定運(yùn)行且不會(huì)對(duì)地產(chǎn)科技企業(yè)云環(huán)境造成影響。根據(jù)5朵不同云的技術(shù)差異,采集器組件在不同的云環(huán)境中,采取了如下部署方式:
在基于開(kāi)源OpenStack云平臺(tái)環(huán)境(如華為私有云)中,采集器以用戶(hù)態(tài)進(jìn)程的形式安裝在宿主機(jī)上,利用宿主機(jī)操作系統(tǒng)自身內(nèi)核的功能模塊,對(duì)其虛擬網(wǎng)卡進(jìn)行流量采集。
在VMware云平臺(tái)、微軟Hyper-V虛擬化環(huán)境和其他公有云中,通過(guò)在獨(dú)立虛擬機(jī)中安裝采集器的方式,借助宿主機(jī)或公有云操作系統(tǒng)自帶的虛擬交換機(jī)功能實(shí)現(xiàn)流量的采集。
3.2.1. 云網(wǎng)全景圖
地產(chǎn)科技企業(yè)云平臺(tái)對(duì)資源上下級(jí)的關(guān)聯(lián)展示有所缺失。例如網(wǎng)管平臺(tái)只有宿主機(jī)與虛擬機(jī)的信息關(guān)系,而云平臺(tái)又只有VPC、子網(wǎng)、虛擬機(jī)信息;當(dāng)宿主機(jī)故障時(shí),無(wú)法判斷影響了哪些客戶(hù)的哪些資源。借助 DeepFlow? 資源拓?fù)浼饶懿榭促Y源的所有云平臺(tái)信息、流量統(tǒng)計(jì)信息,又能根據(jù)不同視角來(lái)查看資源的關(guān)聯(lián)關(guān)系;例如VPC視角能將VPC關(guān)聯(lián)的虛擬網(wǎng)關(guān)、VPC所包含的子網(wǎng)、虛擬機(jī)、虛擬路由器、虛擬安全組、外網(wǎng)/內(nèi)網(wǎng)IP等全部呈現(xiàn)。
現(xiàn)有的流量統(tǒng)計(jì)和管理工具中,基本具備對(duì)單資源點(diǎn)的監(jiān)控,但多資源之間的流量走向關(guān)系卻不能直觀地可視化,因此則不能進(jìn)行帶寬資源優(yōu)化,也不能監(jiān)控流量到底流向何方。借助 DeepFlow? 流量拓?fù)淠芰?,云平臺(tái)的運(yùn)營(yíng)者不僅能從大范圍到小范圍層層深入揭示流量拓?fù)潢P(guān)系,也能窺見(jiàn)資源與資源之間、資源與Internet之間、資源與未知流量之間的關(guān)系。
3.2.2. 云網(wǎng)診斷
云時(shí)代東西向流量占比越來(lái)越大,虛擬網(wǎng)絡(luò)越來(lái)越得到重視,但虛擬網(wǎng)絡(luò)問(wèn)題的定位還處在蠻荒期,多數(shù)場(chǎng)景下都是一邊人工查看配置信息,一邊找到對(duì)應(yīng)設(shè)備,一邊導(dǎo)流量分析的狀態(tài)。云平臺(tái)運(yùn)營(yíng)者無(wú)法準(zhǔn)確知曉業(yè)務(wù)部門(mén)提出來(lái)的帶寬需求是否合理;也不知道虛擬機(jī)的投放是否符合業(yè)務(wù)需求;不清楚東西向的流量與南北向流量的變化;難以區(qū)分哪些業(yè)務(wù)的流量產(chǎn)生了異常;不能預(yù)判活躍TCP端口是否有變化。
地產(chǎn)科技企業(yè)的5朵云不同程度地遇到了上述問(wèn)題,要解決上述問(wèn)題需要先解決東西向流量帶來(lái)的巨大壓力。DeepFlow? 依靠精準(zhǔn)的流量預(yù)處理能力,從多資源維度、多租戶(hù)視角、多流量場(chǎng)景、任意時(shí)間粒度來(lái)統(tǒng)計(jì)與分析云網(wǎng)流量、包量,針對(duì)業(yè)務(wù)畫(huà)像梳理出來(lái)的業(yè)務(wù)做可視化監(jiān)控。此外,DeepFlow? 提供了豐富的可自定義告警設(shè)置,通過(guò)對(duì)不同的云資源池、設(shè)定詳細(xì)的網(wǎng)絡(luò)性能監(jiān)控指標(biāo)和告警閾值,從而實(shí)現(xiàn)了快速發(fā)現(xiàn)和定位業(yè)務(wù)網(wǎng)絡(luò)異常;結(jié)合支持五元組采集過(guò)濾的PCAP下載功能,滿(mǎn)足了故障回溯取證的需求,覆蓋了故障事前預(yù)警和事后分析的全場(chǎng)景。
4. 價(jià)值總結(jié)
在不侵?jǐn)_生產(chǎn)網(wǎng)絡(luò)、不影響業(yè)務(wù)連續(xù)性的前提下,DeepFlow? 通過(guò)與地產(chǎn)科技企業(yè)多云平臺(tái)的對(duì)接,在層次復(fù)雜的虛擬網(wǎng)絡(luò)環(huán)境中從服務(wù)和應(yīng)用角度,梳理并監(jiān)控業(yè)務(wù)網(wǎng)絡(luò),通過(guò)對(duì)網(wǎng)絡(luò)指標(biāo)的異常信息進(jìn)行實(shí)時(shí)分析,為業(yè)務(wù)在虛擬網(wǎng)絡(luò)中的運(yùn)行狀態(tài)提供及時(shí)的監(jiān)控告警。地產(chǎn)科技企業(yè)通過(guò)部署 DeepFlow? 實(shí)現(xiàn)了異構(gòu)云資源池虛擬網(wǎng)絡(luò)流量的按需采集、統(tǒng)一管理,解決了多云環(huán)境下虛擬流量的一體化管理和分析,為企業(yè)的業(yè)務(wù)整合、資源打通和基礎(chǔ)設(shè)施建設(shè)打下了堅(jiān)實(shí)的基礎(chǔ)。