以下為陳小波演講實(shí)錄整理:
英特爾(中國(guó))有限公司存儲(chǔ)架構(gòu)師陳小波在會(huì)上以EMC是否為軟件定義存儲(chǔ)一問引題,“EMC不是軟件定義存儲(chǔ),確實(shí)不是,但存儲(chǔ)其實(shí)都由軟件來控制?!?/p>
濟(jì)南海關(guān)工程師分享了其選擇SDS的經(jīng)驗(yàn)
何為軟件定義存儲(chǔ),何為對(duì)用戶最有用的軟件定義存儲(chǔ)?相信大家看完濟(jì)南海關(guān)高級(jí)工程師孟凡超的分享之后會(huì)有一個(gè)初步的認(rèn)識(shí)。
孟凡超首先介紹了一個(gè)今年制作的全國(guó)海關(guān)跨境貿(mào)易電子商務(wù)系統(tǒng)流程圖,為國(guó)內(nèi)貨物出口國(guó)外的基本流程。最左邊的SQL數(shù)據(jù)庫(kù),最早之前是在存儲(chǔ)上,通過畫LINE的方式放置SQL數(shù)據(jù)庫(kù)。運(yùn)行發(fā)現(xiàn)的問題主要集中在數(shù)據(jù)量較大——濟(jì)南海關(guān)一年報(bào)關(guān)單與抄單數(shù)為15萬份,加上它所有環(huán)節(jié)上的單量在70-80萬之間。
再加上現(xiàn)在還啟用了新一版的報(bào)關(guān)機(jī)制——無紙化報(bào)關(guān)。所有中間環(huán)節(jié)都以電子數(shù)據(jù)形式存儲(chǔ)在網(wǎng)絡(luò)上。
接下來的審單各個(gè)環(huán)節(jié)也通過讀取網(wǎng)絡(luò)上電子數(shù)據(jù)完成。這相當(dāng)于海量存儲(chǔ),用戶讀取或檢索需要很高的IOPS支持。而如果一票貨物都裝在一輛車?yán)?,卡口放行時(shí)由于需要讀取所有貨物所有報(bào)關(guān)單的信息,后臺(tái)SQL數(shù)據(jù)庫(kù)性能造成了一個(gè)瓶頸,用戶讀取單量的時(shí)候,產(chǎn)生很高的延時(shí)。里面放著數(shù)十份報(bào)關(guān)單,放行的時(shí)候,車行走卡口的位置,攝像頭取得他的車牌號(hào)之后,把后面所有報(bào)關(guān)單的信息全部給同步出來,看他的信息是否符合放行標(biāo)準(zhǔn)。
這個(gè)時(shí)候經(jīng)常有一個(gè)現(xiàn)象——我這個(gè)車上到臺(tái)上去,需要等到很長(zhǎng)時(shí)間,前面那個(gè)桿才抬起來。這個(gè)過程我們經(jīng)過排查之后發(fā)現(xiàn),確實(shí)對(duì)于我們通關(guān)來講效率低了很多,從今年開始我們也對(duì)整套系統(tǒng)進(jìn)行了一個(gè)從頭到尾的排查,終于排查出來之后主要性能落在SQL數(shù)據(jù)庫(kù)上。
下一步我們通過最早之前SQL數(shù)據(jù)庫(kù)是用的2008版,做的是Windows自己帶的故障源集群。性能大家知道基本上是平時(shí)用的話只有一臺(tái)主機(jī)用,另外一臺(tái)是待機(jī)狀態(tài)。我們今年做了一個(gè)新的,就是用了SQL2012,有一個(gè)Alwayson集群。我有三臺(tái)主機(jī),其中有兩臺(tái)它的數(shù)據(jù)庫(kù)是處在同步的狀態(tài),這個(gè)時(shí)候它的硬件應(yīng)用率和原先2008的方式應(yīng)該是利用率提高了。下面介紹它的性能來講是中間同步的關(guān)系,第三臺(tái)機(jī)器做了SQL一個(gè)異步的同步,對(duì)我的數(shù)據(jù)庫(kù)有三個(gè)副本。
這個(gè)過程當(dāng)中,從一般傳統(tǒng)技術(shù)上來講,可能你要在主機(jī)下面掛的是存儲(chǔ),今年我們采用的是本地磁盤。通過三臺(tái)主機(jī)安裝英特爾的PCIE SSD卡,做了一個(gè)數(shù)據(jù)庫(kù)整合,我把我的主數(shù)據(jù)庫(kù)都放在SSD上。我們?cè)偃y(cè)性能,發(fā)現(xiàn)延時(shí)基本被消除。這個(gè)系統(tǒng)運(yùn)行一年之后,我們用NVMe和FC-SAN,性能提高5倍以上。原來半分鐘時(shí)間把數(shù)據(jù)從后臺(tái)讀到前端去,現(xiàn)在5秒左右就可以抬桿。之前計(jì)劃購(gòu)買兩套FC-SAN,后來買了SSD卡把這個(gè)問題解決了。后來容災(zāi)都沒有單獨(dú)再去購(gòu)買。運(yùn)維成本少了兩套FC-SAN存儲(chǔ),包括機(jī)柜,耗電,空調(diào),機(jī)房占用都節(jié)省掉,對(duì)人力成本也減少很多。因?yàn)槲椰F(xiàn)在不太需要維護(hù)FC-SAN關(guān)鍵存儲(chǔ),只需要維持它的正常運(yùn)轉(zhuǎn)。
這個(gè)系統(tǒng)我們目前來講能夠?qū)ξ覀冋淄P(guān)多元系統(tǒng)起到很好的支撐作用,雖然說中間可能沒有什么很好的創(chuàng)新,但是我們?nèi)诤狭藥追N產(chǎn)品的優(yōu)點(diǎn),能夠?qū)⑺糜谖覀冏约耗壳八龅墓ぷ鳌?/p>
我的匯報(bào)就到這。
應(yīng)用軟件是定義存儲(chǔ)的關(guān)鍵
陳小波:說到存儲(chǔ)我們看它的特征,所有存儲(chǔ)從硬件來說就是兩塊,一個(gè)控制器,一個(gè)和控制器相連的磁盤。從軟件應(yīng)用控制器上,軟件做什么?軟件高度抽象之后就三個(gè)作用——組織磁盤、輸出磁盤、容災(zāi)。
存儲(chǔ)要做什么?存儲(chǔ)運(yùn)用數(shù)據(jù),既然是數(shù)據(jù)就是用戶最核心的IT資產(chǎn),要求存儲(chǔ)安全可靠,穩(wěn)定運(yùn)行。存取要求什么?要求性能,IOPS,bw(帶寬,每秒的吞吐量)、lat(每次IO操作的延遲)。應(yīng)用的數(shù)據(jù),剛才濟(jì)南海關(guān)說的很清楚,誰產(chǎn)生數(shù)據(jù)?應(yīng)用產(chǎn)生數(shù)據(jù),由應(yīng)用來牽動(dòng)你的軟件定義存儲(chǔ)或者操作各方面的存儲(chǔ),使得你的應(yīng)用從用戶層面看待整個(gè)核心。
數(shù)據(jù)中心面臨的五大問題——安全,可靠性,性能,易管理性和成本
傳統(tǒng)數(shù)據(jù)中心面臨的問題?;A(chǔ)硬件發(fā)展決定就是高效利用CPU多核,這是絕大多數(shù)用戶數(shù)據(jù)中心里面的環(huán)境,有一些單獨(dú)應(yīng)用和數(shù)據(jù)庫(kù)在物理計(jì)算。對(duì)用戶來說比較普遍的幾個(gè)問題,性能是一方面,但性能不是最絕對(duì)的一個(gè)方面。很多大型用戶性能主體不嚴(yán)重,不嚴(yán)重的前提條件是他付出了非常昂貴的成本實(shí)現(xiàn)性能無虞。如果存儲(chǔ)性能不夠會(huì)是什么情況?我們有一個(gè)案例,一家公司買了32位的Oracle數(shù)據(jù)庫(kù),三套數(shù)據(jù)庫(kù)要求10萬的IOPS,存儲(chǔ)只能給3萬。大家知道Oracle是根據(jù)日志浪費(fèi),浪費(fèi)錢不說,它的業(yè)務(wù)也受到了影響。存儲(chǔ)性能不夠,造成你整體應(yīng)用性能不夠,不僅僅是存儲(chǔ)的問題。
同時(shí)在新的數(shù)據(jù)中心逐漸走向虛擬化和云化的時(shí)候,你的存儲(chǔ)和虛擬化和云的結(jié)合是不是足夠的敏捷,足夠的彈性,這些是傳統(tǒng)的FC很難回答的問題。
從最終用戶角度來講,數(shù)據(jù)中心基礎(chǔ)架構(gòu)來講始終是計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)這三塊。每次由計(jì)算推動(dòng)整個(gè)發(fā)展,現(xiàn)狀就是整個(gè)計(jì)算從小機(jī)走向IE架構(gòu),也從IE架構(gòu)里面走上虛擬化和云化。技術(shù)推動(dòng)這個(gè),要求存儲(chǔ)和網(wǎng)絡(luò)跟上這個(gè)。存儲(chǔ)性能直接影響你的整體性能,大小用戶都受限于存儲(chǔ)性能。他們直接推動(dòng)之后,形成新的平衡,以達(dá)到形成統(tǒng)一管理。
最終用戶需求是什么?他們會(huì)說,我不關(guān)心你們很多需求,我就關(guān)心第一我們的數(shù)據(jù)是不是安全的。數(shù)據(jù)安全是基本的要求?,F(xiàn)在大家都知道整個(gè)超融合和SDS市場(chǎng)蓬勃發(fā)展,看上去都很好,誰是真正的好,誰是真正在保證我的數(shù)據(jù)安全,這是用戶的疑問。用戶填的第二個(gè)需求是簡(jiǎn)單易用。這幾點(diǎn)用戶對(duì)幾個(gè)基礎(chǔ)架構(gòu)追求統(tǒng)一起來,我們換成一個(gè)公式,如果你的安全有一點(diǎn)瑕疵,不管你前面性能多好,界面多么炫目,得分是0。我們有各種安全保障,系統(tǒng)穩(wěn)定可靠,不會(huì)因?yàn)閱吸c(diǎn)故障失效,有容災(zāi)等等,這是系數(shù)能否保證100分的算法。
傳統(tǒng)終端存儲(chǔ),兩個(gè)控制器互相作用,提供SCN的接口,這是大家最熟悉的存儲(chǔ)形態(tài)。這種形態(tài)下,絕大部分廠家Gateway,能提供一個(gè)ISCSI,NFS和SMB協(xié)議,統(tǒng)一存儲(chǔ)??赡芤彩墙K端存儲(chǔ)的一個(gè)定義。
如果我們把控制器加多,磁盤加多,四個(gè)或者八個(gè)控制器,這是高端存儲(chǔ)。本質(zhì)來講它和終端存儲(chǔ)一樣,只是控制器更多,整體能力更強(qiáng)一點(diǎn)。傳統(tǒng)盤在傳統(tǒng)架構(gòu)不變的情況下,從機(jī)械硬盤換成SSD。各種架構(gòu)都有,絕大部分都是這樣。這里有一個(gè)問題,控制器能力,軟件定義存儲(chǔ),任何存儲(chǔ)都是這樣。
組織磁盤、輸出磁盤,組織磁盤第一我有各種技術(shù),把盤組在一起提供,控制器這時(shí)候是瓶頸。我們把控制器拿出來盤減少,以前通過外設(shè)盤柜就放在控制器里面。用各種方式把它們連接起來,這個(gè)時(shí)候就叫分布式存儲(chǔ),最早常見的分布式存儲(chǔ)。云存儲(chǔ)、對(duì)象存儲(chǔ),傳統(tǒng)存儲(chǔ)無法提供海量數(shù)據(jù)的彈性擴(kuò)展。
大家一說分布式存儲(chǔ),主要是在互聯(lián)網(wǎng)為主提供的對(duì)象存儲(chǔ)上,云盤上,這比較廉價(jià),為了降低成本,不一定用服務(wù)器,甚至用i3和i5的CPU。大家在日常工作中超融合,這個(gè)地方你不要受廉價(jià)PC的誤導(dǎo),它不是干這個(gè)事的。廣義上講,所有的ServerSAN,HCI,Object都是分布式存儲(chǔ)。
大家都知道存儲(chǔ)里面的計(jì)算資源不多,如果我們?cè)侔褍蓚€(gè)合并起來就是超融合。話是這么說。英特爾展臺(tái)有七家,外面神州云科他們展臺(tái)上有一個(gè)測(cè)試規(guī)范。其中有一項(xiàng)就是你用多少資源達(dá)到多少性能。有幾個(gè)指標(biāo),其中一點(diǎn)就是用很少的資源實(shí)現(xiàn)一個(gè)相對(duì)較高的性能。你把本該用于虛擬化的計(jì)算資源和內(nèi)存資源用于你的存儲(chǔ),這被認(rèn)為是失敗的超融合。我們只計(jì)算節(jié)點(diǎn)里面少量計(jì)算資源和內(nèi)存資源。
大家都有一個(gè)想法,對(duì)于不同的應(yīng)用,它們對(duì)于性能、成本、可擴(kuò)展性、敏捷性的要求不一樣。比如云計(jì)算非常要求敏捷性,數(shù)據(jù)庫(kù)其實(shí)不太要求敏捷性,數(shù)據(jù)庫(kù)要求極限性。在我們分布式存儲(chǔ)里面它的原數(shù)據(jù)怎么設(shè)計(jì),要求不同。大家想用一種技術(shù)去實(shí)現(xiàn)是有困難的,甚至大家強(qiáng)求分布式,其實(shí)有時(shí)候并不都需要分布式。剛才濟(jì)南海關(guān)孟凡超講的,單機(jī)用的就是本地的軟件保護(hù)技術(shù),軟件定義的軟件保護(hù)技術(shù)。整體兩地三中心,用的不是分布式軟件,是整體的兩地三中心全閃的數(shù)據(jù)庫(kù)解決方案。性能、成本各方面的解釋,不一定需要強(qiáng)求。
組織磁盤,用于云的超融合可以在更高層面。輸出,在超融合,不管數(shù)據(jù)庫(kù)超融合還是云的超融合有一點(diǎn)很隱含的優(yōu)勢(shì)。只輸出給本機(jī),減少它在設(shè)計(jì)和性能上的拼接。更高層面由別的軟件進(jìn)行,不管是HAA+DR的設(shè)計(jì)。最早是數(shù)據(jù)庫(kù)要求的,原來不完善,現(xiàn)在數(shù)據(jù)可以做到。其實(shí)Oracle也可以做到。
再簡(jiǎn)單講兩點(diǎn),最核心的兩點(diǎn),數(shù)據(jù)安全和性能。安全主要矛盾是軟件,硬件也有要求,有各種的容災(zāi)方案,主要矛盾是軟件。我們測(cè)試也是軟件,是一切的前提。他擔(dān)心出問題,成功案例很重要,測(cè)試方法很重要。核心來說,就是在虛擬機(jī)中跑數(shù)據(jù)庫(kù),各種破壞性測(cè)試。通過我們這個(gè)測(cè)試,它一定沒問題。在我這測(cè)試8臺(tái)、16臺(tái)的規(guī)模,他實(shí)際是32臺(tái),有的問題在小規(guī)模爆發(fā)不出來,大規(guī)模可以爆發(fā)出來。
簡(jiǎn)單說怎么測(cè)?兩個(gè)數(shù)據(jù)庫(kù)不停的查數(shù)據(jù),跑FIO,給它數(shù)據(jù)量。做各種破壞性測(cè)試,拔網(wǎng)線,關(guān)機(jī)等等破壞性測(cè)試。應(yīng)用不停頓,關(guān)機(jī)應(yīng)用肯定會(huì)停頓,我的所有都是好的。
性能主要矛盾是硬件,不是軟件。軟件廠家之間的區(qū)別就是一個(gè)打羅漢拳,一個(gè)打太極拳,打的好的都一樣。硬件決定你性能的基礎(chǔ),我給你100分性能,軟件決定把這個(gè)性能發(fā)揮60分還是40分。軟件設(shè)計(jì)的好與壞,40和60分的差距很大。任何性能上的投機(jī)取巧會(huì)付出數(shù)據(jù)安全的代價(jià)。傳統(tǒng)存儲(chǔ)上,比如EMC是靠UPS去保證內(nèi)存中的數(shù)據(jù)庫(kù),如果說它沒有相應(yīng)的保證,我不相信誰有幾百個(gè)、上千個(gè)存儲(chǔ)節(jié)點(diǎn)的UPS。如果它沒有各種措施,任何想在性能上投機(jī)取巧,用戶一定會(huì)扶持血淋淋代價(jià)。
磁盤轉(zhuǎn)速?zèng)Q定你的Random性能,RPM還能磁密度上升,容量還能提高,現(xiàn)在是8T,16T,32T,你即使性能提升了,你的rebuild,在容量增加后數(shù)據(jù)安全性也會(huì)很危險(xiǎn)。怎么選?我看可靠性??煽啃缘谝唬瑪?shù)據(jù)庫(kù)大家經(jīng)??紤]性能,其余可以考慮性價(jià)比。
解決方案和結(jié)論,第一軟件,選適合你的軟件,用合適方法測(cè)試它們。這也符合二八定律,不會(huì)百分之百都落在SSD里面。
除了英特爾還有軟件,英特爾還用于OPA。大家對(duì)英特爾的OPA感興趣請(qǐng)聯(lián)系我們。謝謝大家。