圖1 數(shù)據(jù)中心網(wǎng)絡(luò)流量模型的演進(jìn)
為什么會有這么大的轉(zhuǎn)變?
對于早期的數(shù)據(jù)中心,其業(yè)務(wù)主要是數(shù)據(jù)中心外部對數(shù)據(jù)中心的訪問,因此流量以南北向為主?;跇I(yè)務(wù)特征,以及出口帶寬的限制,網(wǎng)絡(luò)的設(shè)計一般是按照一定的比例,逐級收斂的,即:數(shù)據(jù)中心網(wǎng)絡(luò)接入側(cè)的帶寬,是網(wǎng)絡(luò)匯聚區(qū)/核心區(qū)帶寬的數(shù)倍。常見的帶寬收斂比為:1:3~1:20。
而隨著云計算的到來,越來越豐富的業(yè)務(wù)對數(shù)據(jù)中心的流量模型產(chǎn)生了巨大的沖擊。如搜索、并行計算等大數(shù)據(jù)業(yè)務(wù),需要大量的服務(wù)器組成集群、協(xié)同完成工作,這導(dǎo)致服務(wù)器之間的流量變得非常大。
另外,云計算時代復(fù)雜多變的需求,也帶來了流量的不確定性,我們無法再準(zhǔn)確預(yù)測服務(wù)器的流量,無法再通過設(shè)計來規(guī)劃網(wǎng)絡(luò)的帶寬。同時,虛擬化所帶來的虛擬機(jī)動態(tài)遷移能力,又進(jìn)一步導(dǎo)致網(wǎng)絡(luò)流量模型愈趨復(fù)雜、東西向流量愈趨增大。
隨著數(shù)據(jù)中心流量模型的改變,傳統(tǒng)的收斂網(wǎng)絡(luò)將不再滿足數(shù)據(jù)中心的業(yè)務(wù)需求。我們需要在數(shù)據(jù)中心內(nèi)部署無阻塞的網(wǎng)絡(luò),即:數(shù)據(jù)中心內(nèi)部,任意服務(wù)器之間可以線速交互流量。
2 胖樹架構(gòu),讓數(shù)據(jù)中心網(wǎng)絡(luò)不再擁塞
當(dāng)前,業(yè)界普遍認(rèn)可的實現(xiàn)無阻塞網(wǎng)絡(luò)的技術(shù)是:胖樹架構(gòu)(Fat-Tree,由Charles E. Leiserson于上個世紀(jì)八十年代提出)。其基本理念是:使用大量低性能的交換機(jī),構(gòu)建出大規(guī)模的無阻塞網(wǎng)絡(luò)。
2.1 胖樹架構(gòu)下,網(wǎng)絡(luò)帶寬不收斂
傳統(tǒng)的樹形網(wǎng)絡(luò)拓?fù)渲?,帶寬是逐層收斂的,樹根處的網(wǎng)絡(luò)帶寬要遠(yuǎn)小于各個葉子處所有帶寬的總和。
而胖樹網(wǎng)絡(luò)則更像是真實的樹,越到樹根,枝干越粗,即:從葉子到樹根,網(wǎng)絡(luò)帶寬不收斂。這是胖樹架構(gòu)能夠支撐無阻塞網(wǎng)絡(luò)的基礎(chǔ)。
圖2 胖樹網(wǎng)絡(luò)和傳統(tǒng)網(wǎng)絡(luò)的邏輯拓?fù)浔容^
如上圖所示,為了實現(xiàn)網(wǎng)絡(luò)帶寬的無收斂,胖樹網(wǎng)絡(luò)中的每個節(jié)點(根節(jié)點除外)都需要保證上行帶寬和下行帶寬相等,并且每個節(jié)點都要提供對接入帶寬的線速轉(zhuǎn)發(fā)的能力。
下圖是一個2元4層胖樹的物理結(jié)構(gòu)示例(2元:每個葉子交換機(jī)接入2臺終端;4層:網(wǎng)絡(luò)中的交換機(jī)分為4層)。其使用的所有物理交換機(jī)都是完全相同的。
圖3 胖樹架構(gòu)的物理拓?fù)鋵嵗?/p>
從圖中可以看到,每個葉子節(jié)點就是一臺物理交換機(jī),接入2臺終端;上面一層的內(nèi)部節(jié)點,則是每個邏輯節(jié)點由2臺物理交換機(jī)組成;再往上面一層則每個邏輯節(jié)點由4臺物理交換機(jī)組成;根節(jié)點一共有8臺物理交換機(jī)。
這樣,任意一個邏輯節(jié)點,下行帶寬和上行帶寬是完全一致的。這保證了整個網(wǎng)絡(luò)帶寬是無收斂的。
同時我們還可以看到,對于根節(jié)點,有一半的帶寬并沒有被用于下行接入。這是胖樹架構(gòu)為了支持彈性擴(kuò)展,而為根節(jié)點預(yù)留的上行帶寬。通過把胖樹向根部繼續(xù)延伸,即可實現(xiàn)網(wǎng)絡(luò)規(guī)模的彈性擴(kuò)展。
2.2 適應(yīng)數(shù)據(jù)中心應(yīng)用,胖樹需要量體裁衣
在胖樹架構(gòu)中,為了實現(xiàn)彈性的擴(kuò)展,樹根節(jié)點預(yù)留了和下行接入能力相同的上行帶寬。而在數(shù)據(jù)中心實際的建設(shè)中,整個網(wǎng)絡(luò)的規(guī)模是可以提前預(yù)知和規(guī)劃好的(比如:受機(jī)房空間的限制,不可能無限擴(kuò)容),因此樹根處一般不需要預(yù)留如此大規(guī)模的上行帶寬。
圖4 減少胖樹網(wǎng)絡(luò)的層數(shù)
如上圖所示,如果樹根只負(fù)責(zé)網(wǎng)絡(luò)內(nèi)的無阻塞交換,則我們可以把樹根原本用于上行的帶寬也接入到下行的胖樹中。這樣,我們可以減少一個胖樹網(wǎng)絡(luò)層次和大量的物理交換機(jī),即可獲得相同的無阻塞的交換能力。
胖樹架構(gòu)的理論模型中,整個網(wǎng)絡(luò)都采用相同性能的物理交換機(jī)。而實際的數(shù)據(jù)中心網(wǎng)絡(luò)中,接入交換機(jī)由于只負(fù)責(zé)少量的服務(wù)器的接入,在轉(zhuǎn)發(fā)能力要求上,要比匯聚交換機(jī)和核心交換機(jī)低很多。因此,我們通常在TOR的位置使用盒式交換機(jī),而在匯聚區(qū)、核心區(qū)使用高性能框式交換機(jī),在滿足網(wǎng)絡(luò)需求的同時,還可以達(dá)到增強(qiáng)網(wǎng)絡(luò)性能、簡化網(wǎng)絡(luò)部署的目的。
圖5 樹根使用高性能交換機(jī)
如上圖所示的胖樹組網(wǎng),我們也可以通過在樹根處使用高性能的框式交換機(jī),減少網(wǎng)絡(luò)中的交換機(jī)數(shù)量,進(jìn)而降低部署和維護(hù)復(fù)雜度、簡化布線。
從胖樹架構(gòu)的拓?fù)渲锌梢钥吹剑謽渚W(wǎng)絡(luò)中是存在環(huán)路的。為了實現(xiàn)無阻塞的交換,我們不能使用STP這種“阻斷鏈路”的方式破環(huán),而是要充分利用所有的鏈路資源。當(dāng)前比較成熟的技術(shù),除了傳統(tǒng)的路由協(xié)議(運行在三層IP網(wǎng)絡(luò)中)之外,還有TRILL協(xié)議(運行在二層ETH網(wǎng)絡(luò)中)。
3 華為精品交換機(jī),打造極致無阻塞網(wǎng)絡(luò)
華為新一代數(shù)據(jù)中心交換機(jī)產(chǎn)品:CE12800、CE6800、CE5800,全面支持TRILL標(biāo)準(zhǔn)協(xié)議和傳統(tǒng)的路由協(xié)議,產(chǎn)品涵蓋框式、盒式,接入能力覆蓋GE、10GE、40GE、100GE,充分滿足數(shù)據(jù)中心的無阻塞的需求。
圖6 華為新一代數(shù)據(jù)中心交換機(jī)
1、CE12800框式交換機(jī),單槽位支持24*40GE、96*10GE全線速的線卡,充分滿足胖樹架構(gòu)的高轉(zhuǎn)發(fā)性能的需求。
2、CE6800、CE5800上行支持單端口40GE,有效減少胖樹網(wǎng)絡(luò)的布線復(fù)雜度;下行支持GE/10GE的接入能力,充分滿足各種接入需求
3、全系列CE交換機(jī)支持TRILL標(biāo)準(zhǔn)協(xié)議,CE12800的ECMP能力更高達(dá)32路,使組建的二層ETH胖樹網(wǎng)絡(luò)能夠提供高達(dá)720T的雙向轉(zhuǎn)發(fā)性能,提供了更高的彈性擴(kuò)展能力。
圖7 CE12800構(gòu)建大容量無阻塞胖樹網(wǎng)絡(luò)
上圖是使用CE12812交換機(jī)構(gòu)建的大容量無阻塞胖樹網(wǎng)絡(luò)。配合TRILL協(xié)議,可實現(xiàn)超大規(guī)模的二層ETH網(wǎng)絡(luò)的部署:
1、對外提供4608個40GE線速接口,或者18432個10GE線速接口。
2、網(wǎng)絡(luò)內(nèi)部使用40GE互聯(lián),節(jié)省布線、簡化物理拓?fù)洹?/p>
為了減少網(wǎng)絡(luò)延遲,數(shù)據(jù)中心的網(wǎng)絡(luò)部署正趨于扁平化,即直接使用Core交換機(jī)和TOR交換機(jī)組成扁平的數(shù)據(jù)中心網(wǎng)絡(luò)。此時我們可以在Core和TOR之間部署胖樹,組成無阻塞的二層ETH網(wǎng)絡(luò)。
圖8 CE系列交換機(jī)構(gòu)建扁平化胖樹網(wǎng)絡(luò)
上圖是扁平化胖樹的一個實例,我們使用CE12800和CE6800(或CE12800和CE5800)來構(gòu)建高性能無阻塞胖樹網(wǎng)絡(luò)。配合TRILL協(xié)議,向外提供了高密度的10GE/GE服務(wù)器接入能力。
除此之外,配合CE12800上面TRILL高達(dá)32路的ECMP能力,以及TOR交換機(jī)的堆疊能力,我們還能夠使用CE系列交換機(jī)組建出更大規(guī)模的扁平化胖樹網(wǎng)絡(luò),充分滿足大型、超大型數(shù)據(jù)中心網(wǎng)絡(luò)的部署需求。
結(jié)束語
云計算為數(shù)據(jù)中心網(wǎng)絡(luò)帶來了新的挑戰(zhàn),無阻塞已然成為數(shù)據(jù)中心網(wǎng)絡(luò)的必然選擇。華為公司新一代數(shù)據(jù)中心交換機(jī),以其豐富的業(yè)務(wù)功能、超強(qiáng)的轉(zhuǎn)發(fā)性能,充分滿足了云計算數(shù)據(jù)中心的無阻塞網(wǎng)絡(luò)的部署需求。