eRDMA能力可用于包括HPC、AI、數(shù)據(jù)庫(kù)、大數(shù)據(jù)等多個(gè)場(chǎng)景,將RDMA變成一種通用的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。
隨后,在與阿里云彈性計(jì)算產(chǎn)品線負(fù)責(zé)人張獻(xiàn)濤和阿里云彈性計(jì)算產(chǎn)品總監(jiān)王志坤兩位負(fù)責(zé)人的采訪中,我發(fā)現(xiàn)了阿里云在基礎(chǔ)設(shè)施層面有許多值得稱(chēng)道的地方。
為什么現(xiàn)在推出了eRDMA技術(shù)?
熟悉基礎(chǔ)架構(gòu)的朋友都了解,RDMA不是什么新鮮的技術(shù),只是現(xiàn)在對(duì)于RDMA的低延遲和高性能表現(xiàn)有了更迫切的需求。
說(shuō)來(lái)也簡(jiǎn)單,只要計(jì)算集群的網(wǎng)絡(luò)規(guī)模不斷提升,節(jié)點(diǎn)之間數(shù)據(jù)交互的效率會(huì)受影響,節(jié)點(diǎn)和節(jié)點(diǎn)之間的訪問(wèn)延時(shí)會(huì)加劇,反映到應(yīng)用上,會(huì)對(duì)業(yè)務(wù)應(yīng)用的實(shí)時(shí)性帶來(lái)制約,長(zhǎng)此以往,這顯然是無(wú)法接受的。
張獻(xiàn)濤在采訪中表示,對(duì)于大數(shù)據(jù)、AI以及高性能計(jì)算場(chǎng)景時(shí),傳統(tǒng)的TCP/IP也大致上能滿(mǎn)足需求,只不過(guò)整體的通信效率會(huì)比較低,而隨著微服務(wù)、服務(wù)網(wǎng)格、Serverless等新型計(jì)算模式的流行,頻繁出現(xiàn)的RPC的調(diào)用對(duì)網(wǎng)絡(luò)通信延遲的要求也都越來(lái)越高。
eRDMA是什么?
eRDMA(e代表Elastic彈性)依托于阿里云的神龍架構(gòu)MoC卡,結(jié)合通用的服務(wù)器以及交換機(jī),再加上私有的協(xié)議來(lái)實(shí)現(xiàn)RDMA,由于替代了專(zhuān)用網(wǎng)絡(luò)交換機(jī)和網(wǎng)卡設(shè)備,所以,成本親民。
從張獻(xiàn)濤的介紹中了解到,用戶(hù)無(wú)需為eRDMA付出太多額外成本,eRDMA的出現(xiàn)更像是阿里云為所有用戶(hù)提供的一項(xiàng)福利,而這項(xiàng)福利將把原本高冷的RDMA變成一項(xiàng)普惠的服務(wù)。
眾所周知,傳統(tǒng)的RDMA對(duì)傳輸?shù)目煽啃砸蠛芨?,?duì)網(wǎng)絡(luò)丟包非常敏感。有測(cè)試數(shù)據(jù)顯示,大于0.001的丟包率,RDMA網(wǎng)絡(luò)有效吞吐急劇下降,0.01的丟包率就會(huì)使RDMA吞吐率下降為0,所以,RDMA需要的是高可靠的網(wǎng)絡(luò),最好是零丟包的那種。
因此,需要克服的技術(shù)挑戰(zhàn)還是挺多的。技術(shù)實(shí)現(xiàn)上,阿里云的eRDMA采用了自研的擁塞控制(CC)算法,可以容忍VPC網(wǎng)絡(luò)中的傳輸質(zhì)量變化(延遲、丟包等),在有損的網(wǎng)絡(luò)環(huán)境中依然擁有良好的性能表現(xiàn)。
雖然TCP/IP也能做到RDMA要求的可靠性,但是它是以犧牲時(shí)延來(lái)達(dá)到的可靠,而eRDMA在技術(shù)上的突破點(diǎn)在于,既提供了類(lèi)似于TCP/IP的可靠性,同時(shí)也有極佳的延遲表現(xiàn)。
eRDMA的性能表現(xiàn)如何?
eRDMA可提供最低5微秒的時(shí)延,延遲表現(xiàn)優(yōu)于同類(lèi)技術(shù)方案(AWS的EFA為15.5微秒),雖然比基于Infiniband實(shí)現(xiàn)的RDMA方案高了幾微秒,但與原來(lái)25微秒的VPC相比,大約降低了80%,由此,數(shù)據(jù)庫(kù)、AI和大數(shù)據(jù)等應(yīng)用獲得30%~130%的性能提升。
值得強(qiáng)調(diào)的是,eRDMA最低5微秒的時(shí)延表現(xiàn)是在單個(gè)可用區(qū)組網(wǎng)中的表現(xiàn)。當(dāng)然,如果跨地域組網(wǎng),則時(shí)延表現(xiàn)會(huì)增長(zhǎng),但實(shí)際上,跨區(qū)域組網(wǎng)部署應(yīng)用的情況很少見(jiàn)。因此,5微秒的時(shí)延有比較實(shí)際的參考價(jià)值。
常見(jiàn)的RDMA實(shí)現(xiàn)方案有Infiniband和RoCE網(wǎng)絡(luò)兩種(iWarp比較少見(jiàn)了),這兩種方案雖然性能表現(xiàn)比eRDMA強(qiáng),但都依賴(lài)于昂貴的專(zhuān)用網(wǎng)絡(luò)設(shè)備,特別是要有優(yōu)先級(jí)流量控制能力的交換機(jī)設(shè)備,運(yùn)維成本也比較高,更重要的是,這兩種方案都無(wú)法實(shí)現(xiàn)大規(guī)模組網(wǎng)。
eRDMA具備很強(qiáng)的擴(kuò)展性,eRDMA突破了傳統(tǒng)RDMA實(shí)現(xiàn)方案中無(wú)法大規(guī)模組網(wǎng)的問(wèn)題,傳統(tǒng)組網(wǎng)方案中,一臺(tái)交換機(jī)只能支持三四百臺(tái)設(shè)備,而eRDMA則能通過(guò)大規(guī)模組網(wǎng)構(gòu)建更大的計(jì)算集群。
eRDMA的應(yīng)用表現(xiàn)與生態(tài)前景
eRDMA簡(jiǎn)單易用,它一端對(duì)接的是用戶(hù)熟悉的VPC網(wǎng)絡(luò),可以利用VPC提供的各種功能特性,能對(duì)接各種云上資源,獲得資源彈性能力。另一端,eRDMA為應(yīng)用提供的ERI(Elastic RDMA Interface)接口也完全參照了RDMA上流行的驗(yàn)證接口,對(duì)接開(kāi)放生態(tài)。
從王志坤的介紹中了解到,eRDMA支持原生的Verbs接口的應(yīng)用,實(shí)現(xiàn)對(duì)上層應(yīng)用的無(wú)縫支持,來(lái)享受RDMA帶來(lái)的性能收益,在整體性能方面都有了非常明顯的提升, 即使是Spark和Redis這類(lèi)數(shù)據(jù)庫(kù)應(yīng)用,即使不用做過(guò)多的改造,它的性能也有非常明顯提升。
談到大規(guī)模集群的應(yīng)用場(chǎng)景,不得不提機(jī)器學(xué)習(xí)訓(xùn)練場(chǎng)景。
從阿里云過(guò)去幾年服務(wù)AI場(chǎng)景的實(shí)踐來(lái)看,主要都是從網(wǎng)絡(luò)加速層面優(yōu)化機(jī)器學(xué)習(xí)訓(xùn)練過(guò)程,而非在機(jī)器學(xué)習(xí)框架和模型層面做優(yōu)化。通過(guò)利用AIACC加速引擎來(lái)優(yōu)化機(jī)器學(xué)習(xí)訓(xùn)練集群的通信效率,從而提升在云上做機(jī)器學(xué)習(xí)訓(xùn)練的效率。
在張獻(xiàn)濤看來(lái),在應(yīng)用需求的推動(dòng)下,未來(lái)支持eRDMA或者是基于RDMA接口的應(yīng)用會(huì)越來(lái)越多,以前主要是高性能計(jì)算相關(guān)應(yīng)用,而現(xiàn)在,越來(lái)越多的大數(shù)據(jù)和AI應(yīng)用也都在適配RDMA接口。目前看來(lái),開(kāi)源軟件步伐相對(duì)快一些,商業(yè)化的軟件則相對(duì)慢一點(diǎn)。
從eRDMA到神龍架構(gòu),將Offload進(jìn)行到底
eRDMA本質(zhì)上是一種CPU Offload(卸載)技術(shù),如果沒(méi)有這種Offload,則需要浪費(fèi)許多寶貴的CPU資源。有測(cè)試數(shù)據(jù)顯示,40Gbps的TCP/IP流能幾乎會(huì)耗盡主流服務(wù)器的所有CPU資源。如果沒(méi)有RDMA這種Offload,這將是計(jì)算集群技術(shù)的一場(chǎng)災(zāi)難。
eRDMA的技術(shù)載體阿里神龍架構(gòu)MoC本身也是一種DPU(Data Process Unit),目前,阿里神龍架構(gòu)的MoC卡和AWS的Nitro卡是市場(chǎng)上最常見(jiàn)、也是最成熟的兩種DPU解決方案,DPU能為云服務(wù)商帶來(lái)巨大的成本效益和競(jìng)爭(zhēng)優(yōu)勢(shì)。
有數(shù)據(jù)顯示,DPU每年能為IT產(chǎn)業(yè)節(jié)省高達(dá)60億美金的成本,除了云廠商自研DPU,市場(chǎng)上出現(xiàn)了多家第三方DPU解決方案,同樣是看中了DPU產(chǎn)業(yè)的巨大商業(yè)機(jī)遇,據(jù)了解,阿里云是業(yè)內(nèi)最早自研DPU的云廠商,在許多性能參數(shù)上都達(dá)到了業(yè)內(nèi)領(lǐng)先,甚至最佳水平。
從我的個(gè)人觀察來(lái)看,阿里云eRDMA技術(shù)與AWS EFA(Elastic Fabric Adapter)在功能定位上一致,對(duì)比兩種方案的技術(shù)參數(shù)能看到eRDMA的兩大優(yōu)勢(shì),第一,支持?jǐn)?shù)據(jù)保序,第二,延遲表現(xiàn)更好一些。
阿里云以神龍架構(gòu)為主的技術(shù)創(chuàng)新為其帶來(lái)了許多明顯優(yōu)勢(shì),依托于此的基礎(chǔ)設(shè)施也達(dá)到了業(yè)內(nèi)領(lǐng)先水平。
最近,Gartner公布的阿里云版本的Gartner Solution ScoreCard 2021報(bào)告中對(duì)阿里云IaaS+PaaS九方面的能力進(jìn)行打分,其中,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)以及安全部分得分都達(dá)到了業(yè)內(nèi)領(lǐng)先水平,認(rèn)可了阿里云在IaaS基礎(chǔ)設(shè)施層面的實(shí)力。