圖:阿里巴巴高級(jí)技術(shù)專家,阿里云智能文件存儲(chǔ)架構(gòu)師裴曉輝

阿里巴巴裴曉輝:基于全閃的核心業(yè)務(wù)系統(tǒng)上云架構(gòu)與應(yīng)用

裴曉輝 :大家好,我今天演講的題目是,《基于全閃的核心業(yè)務(wù)系統(tǒng)上云架構(gòu)與應(yīng)用》,分享四個(gè)方面的內(nèi)容,一是回顧介質(zhì)的發(fā)展史,二是阿里在閃存技術(shù)方面的發(fā)展,三是文件存儲(chǔ)在閃存技術(shù)方面的開(kāi)發(fā)和實(shí)踐,第四是NAS產(chǎn)品大圖。

介質(zhì)發(fā)展史

存儲(chǔ)介質(zhì)的發(fā)展經(jīng)歷了很多的階段,從最開(kāi)始的打孔紙帶到后面磁帶存保存冷的數(shù)據(jù),后面還有磁盤(pán)、軟盤(pán),這些介質(zhì)年輕的同學(xué)可能都沒(méi)有見(jiàn)過(guò),從IBM 1TB硬盤(pán)和現(xiàn)在的閃存,總的來(lái)說(shuō)可靠性是越來(lái)越高。

這里跟謝長(zhǎng)生老師的觀點(diǎn)不同的地方是從核心業(yè)務(wù)和關(guān)鍵數(shù)據(jù)上閃存的角度看閃存已經(jīng)是一種主流了,尤其是在大數(shù)據(jù)和虛擬化方面,并且金融、政府,政企云、電信已經(jīng)加快了,比如說(shuō)在線的金融,尤其是交易系統(tǒng),如果有一個(gè)比較高的抖動(dòng)就會(huì)帶來(lái)經(jīng)濟(jì)上的損失,還有代碼托管等。

閃存在四個(gè)方面會(huì)對(duì)業(yè)務(wù)帶來(lái)比較大的幫助,極致的吞吐能力,很低的延時(shí),能耗和性能的下降會(huì)降低綜合成本,故障率的降低。

阿里在閃存技術(shù)方面的發(fā)展

阿里云ESSD云盤(pán)也是今年大規(guī)模商化的,帶來(lái)了極致的體驗(yàn),有100萬(wàn)IOPS的能力和4GB的吞吐。在這張圖可以看到,阿里云的ESSD云盤(pán)的性能比友商遠(yuǎn)遠(yuǎn)領(lǐng)先的,我們?nèi)〉眠@么好的性能,是我們有一個(gè)高性能的技術(shù)棧基礎(chǔ)。

我們?cè)谔摂M化技術(shù)方面IO模型是一個(gè)多通道的模型,另外我們有非常高性能的RDMA的網(wǎng)絡(luò)協(xié)議棧、自研用戶態(tài)文件系統(tǒng),還有非常重要的Run-to-Complete無(wú)鎖線程模型,這些技術(shù)保障了非常好的性能。

阿里有一個(gè)很重要的基石是盤(pán)古分布式文件系統(tǒng),具有高可靠、快速故障恢復(fù),極低的空間成本提供極高的數(shù)據(jù)安全性。

文件存儲(chǔ)NAS極速型利用了ESSD和閃存的極致性能的能力,和我們文件存儲(chǔ)CPFS他們是有不同的定位,文件存儲(chǔ)CPFS提供了幾十GB的吞吐能力,提供毫秒級(jí)的延時(shí),你可以做高性能的計(jì)算,文件存儲(chǔ)通訊型給你一個(gè)線性擴(kuò)展的能力,給你一個(gè)比較低的成本。

介紹一下極速型NAS極致性能的軟件棧,在最上層有一個(gè)高性能的網(wǎng)絡(luò)協(xié)議棧。前面已經(jīng)提到RDMA的高性能協(xié)議棧,另外我們的文件系統(tǒng)是一個(gè)完全自研的文件系統(tǒng),包括NAS訪問(wèn)的協(xié)議我們都是完全自研的,100G的網(wǎng)絡(luò)也在不斷地研發(fā)中。最下面是盤(pán)古文件系統(tǒng),提供了一個(gè)非常好的能力。

我們極速型NAS的核心分為兩個(gè)部分,一個(gè)有百微秒級(jí)的時(shí)延,最高讀寫(xiě)45K的能力,我們支持20億小文件的規(guī)模,并且還可以彈性的擴(kuò)展。另外在數(shù)據(jù)安全這方面是做了很多的工作,你可以對(duì)文件系統(tǒng)打快照,這樣在發(fā)生文件誤刪的時(shí)候,可以把文件恢復(fù)出來(lái),也可以去做數(shù)據(jù)的加密。

另外,極速NAS提供了非常豐富的訪問(wèn)控制,接下來(lái)介紹一下產(chǎn)品規(guī)格,針對(duì)不同的應(yīng)用,和用戶場(chǎng)景提供了非常豐富的容量規(guī)格,并且還支持按量付費(fèi),或者是包年、包月的方式。目前極速NAS支持的協(xié)議是NFSV3,在后面可能會(huì)支持更多的協(xié)議。我們這邊IOPS的能力,從20-45K的幅度,在未來(lái)也會(huì)有更高的能力。

文件存儲(chǔ)在閃存的開(kāi)發(fā)和實(shí)踐

下面簡(jiǎn)單的介紹一下極速型NAS的應(yīng)用場(chǎng)景,第一個(gè)Nginx、PHP網(wǎng)站和WEB服務(wù)。第二個(gè)持續(xù)代碼托管和CI的集成,另外一個(gè)現(xiàn)在比較熱的ECI容器,高性能的共享存儲(chǔ),這些應(yīng)用都對(duì)時(shí)延非常敏感,會(huì)有大量的原數(shù)據(jù)的操作。使用通用型NAS時(shí),就會(huì)導(dǎo)致系統(tǒng)運(yùn)行比較緩慢,比如說(shuō)網(wǎng)站的加載速度比較慢。

下面是兩個(gè)具體的用戶場(chǎng)景實(shí)例,某一個(gè)電商網(wǎng)站會(huì)把網(wǎng)頁(yè)的素材放在我們極速型NAS上面,當(dāng)用戶每次打開(kāi)的時(shí)候會(huì)需要大量的網(wǎng)絡(luò)小文件的加載,這樣當(dāng)你的后端存儲(chǔ)的時(shí)延比較高的時(shí)候用戶體驗(yàn)是非常差的,會(huì)發(fā)現(xiàn)打開(kāi)那個(gè)文件需要比較長(zhǎng)的時(shí)間,這樣對(duì)用戶的體驗(yàn)是非常差的。他們遷移到極速型NAS之后網(wǎng)頁(yè)加載的速度提升了20倍,保存日志到極速型NAS時(shí),系統(tǒng)CPU下降了7倍,給用戶帶來(lái)了跟本地文件系統(tǒng)比較接近的用戶體驗(yàn)。

另外,下面是一個(gè)比較重要的例子,國(guó)內(nèi)某個(gè)頂級(jí)的金融服務(wù)使用K8S容器服務(wù)時(shí),對(duì)于極速型NAS提出了非常高的要求,這是因?yàn)樗麄優(yōu)橐粋€(gè)股票APP提供服務(wù),當(dāng)IO延時(shí)較高時(shí)很可能導(dǎo)致某一項(xiàng)交易沒(méi)有成功或者變慢,會(huì)變成非常糟糕的事情,可能會(huì)造成非常大的經(jīng)濟(jì)損失。當(dāng)有極速型NAS之后,我們給他們提供了10萬(wàn)左右的IOPS,這里的IOPS包含了讀寫(xiě),還有原數(shù)據(jù)的操作。

阿里提供百微秒的時(shí)延滿足了頂級(jí)金融服務(wù)商對(duì)下面存儲(chǔ)延遲的要求。另外極速NAS是獨(dú)享的,所以說(shuō)不管是一個(gè)容器還是十個(gè)容器起來(lái)的話實(shí)際上他們之間是沒(méi)有相互影響的,這樣可以讓用戶體驗(yàn)到穩(wěn)定的性能,這一點(diǎn)對(duì)于金融的用戶是非常重要的,不允許存在毛刺,我們極速型NAS為容器提供了非常好的多機(jī)的共享能力。

NAS產(chǎn)品大圖

最后,我再簡(jiǎn)單介紹一下NAS產(chǎn)品的大圖,我們最上面是NAS為K8S,神龍裸金屬服務(wù)、ECI、HPC批量計(jì)算、GPU服務(wù)還有機(jī)器學(xué)習(xí),這些應(yīng)用的場(chǎng)景我們都提供了非常好的解決方案,并且還可以和阿里云日志分析,智能的分析,生命周期的管理,拷貝的管理,防病毒這些額外的服務(wù)是可以銜接起來(lái)的。

在最下面我們對(duì)協(xié)議上面的支持,我們支持標(biāo)準(zhǔn)的NFS和SMB,值得一提的是我們文件存儲(chǔ)NAS的協(xié)議層消耗比業(yè)界軟件的消耗要小很多。另外,我們這邊還支持了并行的文件系統(tǒng),主要是支持MPI的API的調(diào)用,會(huì)有一個(gè)非常好的吞吐能力。

另外,我們這邊高級(jí)特性還在不斷完善過(guò)程中,在下面還是基于阿里云飛天盤(pán)古這一套分布式存儲(chǔ)系統(tǒng),他給我們提供了非常好的數(shù)據(jù)安全特性,還有一個(gè)極致的性能。另外,我們針對(duì)IDC計(jì)算接入云上面有比較好的方案,比如說(shuō)可以通過(guò)VPN或者拉條專線或者NAT的方式去銜接。用戶上云的時(shí)候會(huì)面臨數(shù)據(jù)遷移的問(wèn)題,所以說(shuō)在文件存儲(chǔ)NAS這邊也提供了在線的遷移服務(wù),并且還支持不同產(chǎn)品間數(shù)據(jù)遷移。

今天我這邊分享的內(nèi)容基本講完了,最后還要為文件存儲(chǔ)打一個(gè)call,如果在座的各位有致力于做下一代文件存儲(chǔ)可以聯(lián)系我的,咱們?nèi)プ鲆粋€(gè)完全自研的,基于阿里云飛天的文件存儲(chǔ)。

主持人:謝謝曉輝,阿里云在很多技術(shù)上都是自研的,技術(shù)研究的很深,大家如果有什么問(wèn)題,請(qǐng)抓緊時(shí)間提出來(lái)。

提問(wèn):剛才講了這么多阿里云上提供了這么多文件系統(tǒng),有不同的產(chǎn)品,其實(shí)我理解做文件存儲(chǔ)在時(shí)延和帶寬就像天平的兩端怎么樣去平衡,我想請(qǐng)問(wèn)一下今天著重介紹的產(chǎn)品,我的感受是在時(shí)延上有一些獨(dú)到的地方,那阿里云在文件存儲(chǔ)上如何考慮在時(shí)延和帶寬上怎么樣均衡和發(fā)展,甚至后面是有可能做到融合嗎?

裴曉輝:這是非常好的問(wèn)題,咱們?nèi)プ龃鎯?chǔ)系統(tǒng)的時(shí)候是兩個(gè)重要的指標(biāo),一個(gè)是時(shí)延,你訪問(wèn)我的延時(shí),另外一個(gè)是吞吐能力,這是一個(gè)相互之間有此消彼漲的問(wèn)題。剛剛提阿里云在閃存技術(shù)發(fā)展的時(shí)候能看到,我們現(xiàn)在已經(jīng)商業(yè)化的ESSD的100萬(wàn)的IOPS能力是給我們提供了一個(gè)非常好的工程實(shí)踐上的經(jīng)驗(yàn),并且阿里云所有的軟件架構(gòu)也在向剛剛提到的那些方面做演進(jìn),比如說(shuō)我們的軟件站磨的越來(lái)越薄。

另外,關(guān)于延時(shí)和吞吐不是一概而定的問(wèn)題,要針對(duì)用戶的場(chǎng)景提供最好的方案,比如說(shuō)如果是AI計(jì)算可以用CPFS。

提問(wèn):極速文件系統(tǒng)為啥容量限制在32T?還有一個(gè)問(wèn)題是高性能網(wǎng)絡(luò)協(xié)議對(duì)于我們用戶來(lái)說(shuō)需要定制化客戶端嗎?

裴曉輝:針對(duì)第一個(gè)問(wèn)題我們內(nèi)部32T最大的上線不是一個(gè)應(yīng)用的限制,這是我們經(jīng)過(guò)了一些調(diào)研之后發(fā)現(xiàn)的,當(dāng)然如果有更大的需求可以提供一個(gè)工單聯(lián)系我們可以開(kāi)放的。第一個(gè)我們對(duì)上限沒(méi)有限制的,甚至可以做在線的擴(kuò)容。

第二個(gè)問(wèn)題在做NAS過(guò)程中需要面臨很重要的問(wèn)題,就是客戶端的問(wèn)題,NAS跟對(duì)象和快有一個(gè)不同的地方是客戶端的用戶操作系統(tǒng)可能是千差萬(wàn)別的,它上面的客戶端的實(shí)現(xiàn)也是不一樣的。不同的客戶端需要有不同的參數(shù)配置,才能夠有更好的性能。

針對(duì)這些問(wèn)題我們做了自動(dòng)化的工具,只要把工具在ECS上或者客戶端上去運(yùn)行會(huì)給你一個(gè)很好的建議。比如說(shuō)哪些參數(shù)做什么的調(diào)整和配置能夠達(dá)到很好的性能。這個(gè)是針對(duì)標(biāo)準(zhǔn)客戶端,標(biāo)準(zhǔn)客戶端已經(jīng)不是特別匹配云環(huán)境。比如說(shuō)會(huì)影響下面的并發(fā)能力,我們這邊也在去做定制化客戶端的事情,它會(huì)比本地客戶端有更好的性能、更好的穩(wěn)定性,還有更容易使用的方式。你去使用NAS的時(shí)候不需要改任何代碼,只需要掛在上面,和本地文件系統(tǒng)一樣很愉快的訪問(wèn)他了。

主持人:謝謝阿里的專家,下一位演講人是Eden Kim先生,來(lái)自SNIN硬盤(pán)技術(shù)工作組主席、Calypso CEO。

分享到

xiesc

相關(guān)推薦