2014年7月31日,由DOIT傳媒、存儲在線主辦的“2014中國閃存峰會”在北京亮馬河飯店隆重舉行,來自第三方調(diào)研機(jī)構(gòu)、專家學(xué)者、行業(yè)用戶、廠商代表和意見領(lǐng)袖等多方人士齊聚一堂,以“閃耀I(xiàn)T 存取未來”為主題,從不同角度深刻探討閃存技術(shù)如何促進(jìn)政企組織的業(yè)務(wù)創(chuàng)新。
來自戴爾中國資深存儲解決方案高級顧問經(jīng)理王珝東做了主題演講,圍繞“為面向業(yè)務(wù)的高性能架構(gòu)”展開。
演講實錄如下:
今天上午包括下午之前聽到很多關(guān)于閃存的技術(shù),它的好處、優(yōu)勢,高I/O,低延遲,不同的各個廠商有不同的產(chǎn)品,大家看到外面有很多展示。我也看到有卡的放到主機(jī)里面,包括SSD硬盤,還有存儲,各個廠商都有不同的自己的解決方案。有些客戶買了SSD硬盤,結(jié)果發(fā)現(xiàn)上去的性能跟他多買幾塊SAS差不多。我們?nèi)绾卫煤瞄W存技術(shù)的解決方案,解決客戶的問題才是最重要的,并不是說我今天買了閃存都可以解決客戶的所有問題。有沒有一個解決方案不同于其他的廠商這種插卡式、硬盤、存儲,能不能把他利用起來,一個比較好的解決方案來解決客戶的應(yīng)用的問題,解決客戶的高I/O需求,低延遲的需求,這是我今天跟大家講。
講到整個解決方案之前先給大家舉個例子,先看一個場景,常常會上網(wǎng)購物,淘寶或者是京東都會上網(wǎng)購物。你在上網(wǎng)購物的時候?qū)τ谖覀兊木W(wǎng)站來講他的訪問的頻率和訪問的模式包括他的高峰期和持續(xù)度是沒有辦法猜測。經(jīng)常會說比如我們光棍節(jié)的時候一天都是高峰,他有促銷,6.18有促銷,這些東西他的持續(xù)的時間可能是一小時、兩小時、八小時或者是峰值都是在夜里,這是很難去評估。第二需要一個極快的速度去訪問,淘寶大概每秒到1.4萬個并發(fā)用戶,1.3萬個并發(fā)I/O。一般人的忍耐度經(jīng)常我們會打開一個網(wǎng)頁的時候三秒鐘打不開我基本上關(guān)了去另外一個網(wǎng)站。三秒天堂,三秒低于定律。另外數(shù)據(jù)對業(yè)務(wù)極具價值,確保送貨,地址的準(zhǔn)確性,你的行為習(xí)慣,以前買過什么東西,很多網(wǎng)站推出以前買過什么東西,別的人以前買過什么東西實時推送。以前通過7到14天出來給你推送,現(xiàn)在很多網(wǎng)站都可以實時推送,這是數(shù)據(jù)對業(yè)務(wù)的價值。
另外還有來源于移動互聯(lián)網(wǎng),包括我們的手機(jī)、Pad這種,很多朋友像我有時候吃飯夠,去的路上提前30分鐘團(tuán)購,這種數(shù)據(jù)量越來越大,越來越多,客戶體驗越來越好。所以這就是對業(yè)務(wù)負(fù)載的挑戰(zhàn)。我們所搭建這個系統(tǒng)是不是可以持續(xù)支撐不但變化和上升的業(yè)務(wù)。以前一刀切的方式買一個存儲解決所有問題,基本上不夠高效,效率不高。不同類型數(shù)據(jù)都需要分別對待,以確保存儲容量和成本與應(yīng)用性能更好的匹配。用戶良好體驗特別重要。
性能問題影響客戶體驗,一是程序開發(fā)的因素,代碼沒有優(yōu)化,設(shè)置參數(shù)的優(yōu)化,數(shù)據(jù)索引的建立的時候,搜索方法。另外還有就是基礎(chǔ)架構(gòu)和部署的因素,計算、內(nèi)存資源不足,網(wǎng)絡(luò)帶寬、存儲I/O,兩個相互之間有可能有時候可以互補(bǔ)。當(dāng)程序開發(fā)的時候有這些問題可以用基礎(chǔ)架構(gòu)更快的解決這些問題,我的程序開發(fā)是更多,我有1000多個人或者是1萬多個人可以投入很大的資源做程序的優(yōu)化也可以。因為有這兩個因素,所以我們會發(fā)現(xiàn)我們可以看到數(shù)據(jù)庫會慢,關(guān)鍵業(yè)務(wù)慢,線上的業(yè)務(wù)慢,甚至分析報表也慢,備份恢復(fù)慢,可以看到所有客戶體現(xiàn)的慢基本上在這幾個方面,性能影響客戶的幾個方面。
在我們經(jīng)常搭建系統(tǒng)的時候,大家講性能,經(jīng)常說我要高帶寬,高I/O,這個像我們過收費(fèi)站一樣,一到禮拜六禮拜天京藏高速,進(jìn)京方向,回來的時候基本停在那,延遲等,我們經(jīng)常考慮的都是在帶寬,我的收費(fèi)站再多,可能收費(fèi)的人每人就交十塊錢,每個人都遞100塊錢,每次都要找90塊錢,延遲很大?紤]一個性能,另外還有一個因素就是延遲。但是延遲和可靠性又是相互沖突的地方。如何保證延遲越小,可靠性越高。I/O一些延遲的關(guān)鍵因素造成延遲在I/O上面,一個是盤速,轉(zhuǎn)速,從以前7200轉(zhuǎn)、1萬轉(zhuǎn)和1.5萬轉(zhuǎn),以前硬盤到1.5萬轉(zhuǎn)再也沒有上去了,包括散熱和轉(zhuǎn)速的問題等等。還有存儲的連接能力,我們控制器到重復(fù)速率,這是帶寬問題。還有存儲區(qū)域網(wǎng)絡(luò)本身的延遲的瓶頸,我們可以看到這個造成延遲非常大。這個延遲數(shù)據(jù)產(chǎn)生基本上都是計算節(jié)點到存儲節(jié)點數(shù)據(jù)傳輸?shù)臅r候,I/O越多,他響應(yīng)的時間越慢,最后結(jié)果就是應(yīng)用性能受到影響。
我們可以看到我們需要面對技術(shù)的現(xiàn)實,我們知道CPU內(nèi)存符合摩爾定律,存儲這么多年都是這樣發(fā)展,本身從納秒一級的CPU處理速度到毫秒一級硬盤樹立速度相差非常大,造成延遲大的原因,性能不好的原因。怎么解決這個問題?到底花費(fèi)多少錢才可以把這個花費(fèi)縮短。傳統(tǒng)的方式有幾種可以縮短從I/O到CPU的毫秒到納秒的提高性能。第一種方式就是快道技術(shù),傳統(tǒng)硬盤上面速率最快是外圈,能不能把這些活躍數(shù)據(jù)全部放到外圈,不是過去數(shù)據(jù)散列放到硬盤上,快道技術(shù)把數(shù)據(jù)放到外圈。戴爾本身提供類似的解決方法,流動的數(shù)據(jù)架構(gòu)。第二種方式就是提高存儲帶寬,光纖的網(wǎng)絡(luò),8G,16G甚至更高。把網(wǎng)絡(luò)帶寬加大,但是并不代表低延遲。收費(fèi)站有四個口收費(fèi),擴(kuò)到40個收費(fèi)口,每處理速度那么慢,也是很慢。網(wǎng)絡(luò)帶寬加快并不一定縮小你的延遲,這也是另外一種方式,加大網(wǎng)絡(luò)帶寬可以解決一些問題,不是全部。第三種就是在后端部署閃存盤,可以看到在過去如果用機(jī)械硬盤的話,今天可以用11塊×SAS SSD,可以跑到88000I/OPs。在閃存盤非?,你是寫密集型還是讀密集型,這跟應(yīng)用很大關(guān)系,他的成本是多少,目標(biāo)是多少。放在機(jī)柜里不知道是349塊盤在機(jī)房耗電都是花錢的,相對SSD來講便宜很多。第三種方式后端存儲部署快速的閃存盤。我們實現(xiàn)讀寫分離,能夠感受到SSD硬盤的性能,可以提高一些性能。用這種方式可以解決是什么問題?這是我們舉的現(xiàn)實的例子,這是戴爾公司和SAP在上面做的解決方案,包括六個緯度數(shù)據(jù)表和兩個事實百數(shù)據(jù),主表包含180億條記錄,總量超過60TB,兩個小時才可以計算出結(jié)果,F(xiàn)在采用這種后端在存儲加閃存的解決方案,可以提高查詢速度從兩小時變成20秒,可以同時做400個并發(fā)查詢時間縮短到10分鐘。閃存的數(shù)據(jù)中心可以解決一些延遲問題,所但言日,提高I/OPS,提高客戶的訪問度。提高客戶體驗,降功耗。
這三種方式可以解決從I/O、存儲到CPU這么大鴻溝之間60%的問題,剩下40%怎么辦?今天所有插卡式,SSD硬盤還有后端存儲都只能解決這個,跟CPU還有差距,怎么讓他更貼近CPU,更快的速度滿足客戶的應(yīng)用。
解決I/O延遲的突破,所有I/O來了要通過CPU到存儲前端的HBA,還有控制器,還有后端的HBA,還有磁盤還有到硬盤,經(jīng)過這么多步驟。更多廠商要么做前端,要么做后端,每經(jīng)過一步全部都有延遲,延遲非常大。通過什么樣的技術(shù)應(yīng)用,來解決這個問題。我們就更貼近CPU,怎么做?用現(xiàn)在的PCIe的SSD閃存加速放到服務(wù)器上面。跟你插卡和硬盤有什么區(qū)別?第一要考慮這個很貴,是不是多個應(yīng)用同時使用,能不能同時都可以共享,現(xiàn)在很多插卡和硬盤的SSD都是單機(jī)使用,其他機(jī)器怎么用。老的機(jī)器無法支持PCIe的SSD方式插不上去,怎么提高他的性能,第一個要考慮這個問題。放到主機(jī)里的SSD卡,同時多機(jī)多應(yīng)用共享。如果可以多應(yīng)用共享,就類似一個Cache值,這個是否可靠。主機(jī)內(nèi)存一樣,一關(guān)機(jī)數(shù)據(jù)就沒了,雖然SSD掉鏈之后數(shù)據(jù)還有。但是屬于壞掉了,這個數(shù)據(jù)怎么保存。硬件發(fā)生問題,能不能做自我保護(hù),目前在很多廠商他們的解決方案我認(rèn)為不是特別的完善,因為做硬件的復(fù)制,價格非常貴?匆幌麓鳡栐趺唇鉀Q的?第三我們用SSD到底是不是用讀取加速還是寫入加速還是兩者都可以。第四考慮的問題是不是我加了這個高速緩存以后,我的應(yīng)用要改,或者未來當(dāng)你在擴(kuò)展的時候,你在在線擴(kuò)容或者是即時生效或者是前端部署的時候會不會有停機(jī)。這就是我們要考慮的五個問題。有沒有一種解決方案把他全部解決。這是我們解決I/O延遲的最終辦法,我們要創(chuàng)建一個高速的共享閃存池,這個閃存池是放在主機(jī)里的,可能是一排兩排三排,只要插上有PCIeSSD硬盤就變成共享的閃存池。就可以把最活躍的數(shù)據(jù),讀寫數(shù)據(jù),最靠近服務(wù)器和應(yīng)用的方式去部署。同時我們對寫數(shù)據(jù)做額外的數(shù)據(jù)保護(hù),剛剛我說的你的Cache怎么做,我們利用高速網(wǎng)絡(luò)高速復(fù)制解決HA的問題,大量減少后端存儲。
這個就是戴爾的端到端解決方案,叫Fluid Cache forSAN。加快響應(yīng)時間,第二對數(shù)據(jù)庫性能提高,并且對虛擬化環(huán)境也能提高整個環(huán)境的性能。第三確保數(shù)據(jù)的安全和一致性。這是我們老板在6月份美國戴爾客戶大會上當(dāng)時現(xiàn)場演示,我們用了8臺服務(wù)器,后端用的是我們的存儲跑到了500萬的I/OPS,我們只需要8臺服務(wù)器。
我后面詳細(xì)給大家介紹一下Fluid Cache forSAN,講這個解決方案之前是什么樣的技術(shù)架構(gòu)催生了我們可以做到Fluid Cache forSAN。第一就是接口協(xié)議,有PCIeSSD,有SAS的SSD,本身跑的協(xié)議不太一樣。因為NVMe協(xié)議,多核處理,可以快速發(fā)揮SSD的硬盤的性能和好處。可以看到這是他三個對比,整體運(yùn)營成本降低很多,性能不差,F(xiàn)在戴爾都是基于PCIe3.0開發(fā)的標(biāo)準(zhǔn)協(xié)議。
這個是我們在R920的PCIe9個閃存盤,720最多是四個。剛才說的是第一個技術(shù)的突破,我們搭建Fluid Cache forSAN架構(gòu)。必要的突破是網(wǎng)絡(luò)延遲帶寬的降低。以前有RDMA協(xié)議,降低CPU,提升他整個響應(yīng)時間的速度。在協(xié)議基礎(chǔ)上做了了RoCE協(xié)議,基于萬兆或者四萬兆的以太網(wǎng)使用RDMA來創(chuàng)建低延遲的網(wǎng)絡(luò)。比傳統(tǒng)的iWARP提供更低延遲的效果。IT四大技術(shù)新交匯和融合,軟硬共生。I/O的NVMe協(xié)議,網(wǎng)絡(luò)還有村ROCE協(xié)議,計算的集群,搭建協(xié)議空間是FluidCache軟件。
看一下這個架構(gòu)。你們的Fluid Cache到底什么樣的架構(gòu)?首先Fluid Cache架構(gòu)我們有服務(wù)器,先搭建一個存儲網(wǎng)絡(luò),后面可以用我們這個系統(tǒng),可以用SSD硬盤可以不用SSD硬盤,他有一個問題就是整個的延遲,后面如果用SSD,可以解決這60%的I/O到CPU的性能問題。我們在主機(jī)里面要安裝Fluid Cache forSAN軟件,添加PCle的硬盤。我有三臺,我在三臺每一個插SSD硬盤就可以了。剩下是舊的機(jī)器和系統(tǒng),沒有SSD,沒關(guān)系,第一步裝了這個Fluid Cache forSAN軟件,跟存儲連起來就好了。我們把這些具有PCIe和SSD硬盤這些服務(wù)器叫做貢獻(xiàn)者,他會組織一個Cache池。剩下服務(wù)器就是共同的Server,就叫客戶端。第三步就是要把這些服務(wù)器透過高速的RoCE網(wǎng)絡(luò)連起來,這是10G或者是40G的高速網(wǎng)絡(luò),不同于我們傳統(tǒng)的以太網(wǎng)。這個集群從三個節(jié)點開始接入高速緩存。Cache最高可以達(dá)到12.8TB,網(wǎng)絡(luò)之間傳輸是低延遲的網(wǎng)絡(luò),高速的網(wǎng)絡(luò)。所有節(jié)點通過Cache提升他對I/O的處理。第四步就是建立高速緩存池,他的I/O是通過緩存池去訪問本土的。
給大家舉個案例,這是我們保險的客戶,他有一些移動的業(yè)務(wù)終端,他的需求是有一些BYOD的pad,開始用戶預(yù)估是3萬,年底會達(dá)到5萬pad,它的規(guī)模是慢慢會到10萬臺,F(xiàn)在遇到一個挑戰(zhàn),每秒超過1500個并發(fā)用戶的時候他的性能下降非?,超過2000用戶,系統(tǒng)就已經(jīng)訪問不了,這是無法忍受。尤其是早晨9點到10點的時候,基本上負(fù)載支撐不住的。
可以看他當(dāng)前的架構(gòu),非常標(biāo)準(zhǔn)的一個架構(gòu),防火墻,負(fù)載均衡服務(wù)器,應(yīng)用服務(wù)器,還有OracleRAC-1。原有系統(tǒng)用的是小機(jī),我們的人進(jìn)去之后經(jīng)過分析發(fā)現(xiàn)所有評定是發(fā)生在數(shù)據(jù)庫上面。數(shù)據(jù)庫上面以前我們正常設(shè)計的時候都是70的讀,30寫的比例,真正上了系統(tǒng)之后,經(jīng)過我們分析會發(fā)現(xiàn)每38個讀帶一個寫,F(xiàn)在的做法,我要擴(kuò)容,再多買存儲來提高性能,這個花費(fèi)很貴的。我要把現(xiàn)有的Unix系統(tǒng)遷移到Liunx系統(tǒng)上去,沒有那么多的人力。當(dāng)時評估了小機(jī)的升級硬件方案不可行,增加Web節(jié)點數(shù)不可行。評估遷移到更高端的新購小型機(jī),不可行。升級存儲硬件不可行。我們怎么解決?可以借用互聯(lián)網(wǎng)思路,在大部分的互聯(lián)網(wǎng)公司,他的讀寫數(shù)據(jù)庫是分離的,讀庫比寫庫更重要,有些我們的發(fā)布系統(tǒng)寫上去,他發(fā)布出來,一定要展示給大家,新的產(chǎn)品。所以所有這些全球的數(shù)據(jù)中心的運(yùn)營,只要數(shù)據(jù)庫的應(yīng)用,大部分都要做讀寫分離。我們應(yīng)用互聯(lián)網(wǎng)的云的架構(gòu)思維,前面有一些負(fù)載均衡,Web服務(wù)器還有應(yīng)用緩存。最容易出問題就是數(shù)據(jù)庫,我們要用讀寫分離的數(shù)據(jù)庫。
這個像賓館的前臺,我去住的時候排隊,前面根本不是在住,前面有人問可以不可以借傘,附近有什么好餐廳,有沒有旅游介紹手冊,沒有讀寫分離。但是他有讀寫分離,只有一個人,這邊跑,那邊跑,整個處理能力跟不上,不可能解決問題,讀寫分離,但是能力不足。我們怎么為客戶做,保留他現(xiàn)有的小型機(jī)系統(tǒng),SharePlex在Oracle上面功能非常強(qiáng)大。我們用SharePlex同時做了四個,把他遷到X86上,可以做異構(gòu)。小型是Unix,遷移到X86上,成本降低非常多,同時拷貝四份,SharePlex可以做一對四的同時拷貝。把讀寫數(shù)據(jù)庫分離,把所有寫庫放到小機(jī)的系統(tǒng)上,把讀的放到X86,最后架構(gòu)變成這樣。SharePlex的資源占用極小,對元數(shù)據(jù)庫性嫩和網(wǎng)絡(luò)帶寬的影響也保持在最低限度。當(dāng)前可以支持3萬個移動用戶,每秒并發(fā)用戶數(shù)大概9000個。移動客戶端提交業(yè)務(wù)后5秒可以返回結(jié)果。小型機(jī)的CPU峰值基本不超過50%,讀壓力減少70%。這臺小型機(jī)基本上還去做了讀寫分離之后,他把報表和業(yè)務(wù)挪大小型機(jī)上來了。我們Fluid Cache最高峰值不超過30%,主數(shù)據(jù)庫復(fù)制延遲小于1秒。目前這種架構(gòu)徹底解決了他業(yè)務(wù)性能的問題,為他未來的擴(kuò)展打下了基礎(chǔ)。
這個上午看到了,我們有一個對比,只是把數(shù)據(jù)調(diào)出來做對比,應(yīng)用不太一樣。Fluid Cache forSAN,8臺服務(wù)器,可以做到每秒1.4萬的并發(fā)用戶。雙11促銷并發(fā)值每秒1.3萬個,平均響應(yīng)延時6毫秒。Fluid Cache事務(wù)處理能力是1.26萬秒,雙11促銷是1.187萬秒。我們在Liunx和VMware可以支持,之后Windows也會推出。
我到底什么樣的架構(gòu),什么樣的應(yīng)用適合采用這個Fluid Cache forSAN,大家聽得更多就是我要高I/O,一跑到50萬個I/O,其實大家知道當(dāng)I/O到百萬極以上,那都不是事,不會再關(guān)心I/O的處理能力,大家更關(guān)心是延遲。如果要求的對低延遲的要求非常高的話,那是符合Fluid Cache forSAN這架構(gòu)。用這種架構(gòu)去彌補(bǔ)從存儲到CPU剩下40%的性能差距。尤其還有一些應(yīng)用在高峰的時候每秒的并發(fā)處理能力需要非常高,也可以用Fluid Cache forSAN這種技術(shù)來解決。
今天大家聽了很多都是關(guān)于單獨(dú)產(chǎn)品的一些他的優(yōu)勢、特點用SSD之后有什么好處。今天我給大家講是利用好閃存所做的整體的解決方案能幫客戶解決什么問題。他也可以做Linux的Fluid Cache forSAN集群和VMware Fluid Cache forSAN集群。我是老機(jī)器要做虛擬化,能不能用Liunx的Fluid Cache forSAN,是可以跨平臺,共用Fluid Cache forSAN共享的流動緩存,可以用我們這個技術(shù),可以共享。當(dāng)你有這種需求的時候或者Fluid Cache forSAN的數(shù)據(jù)中心解決方案,幫助大家解決這些問題。
今天我就給大家介紹這么多戴爾公司跟其他廠商不太一樣我們的SSD的解決方案,請大家記住我們叫做Fluid Cache forSAN,謝謝大家。