峰會(huì)第二天,共舉行了十場(chǎng)分論壇。在“分布式存儲(chǔ)與應(yīng)用論壇”上,曙光信息產(chǎn)業(yè)有限公司產(chǎn)品總監(jiān)石靜以“深耕·落地,超大規(guī)模分布式存儲(chǔ)集群實(shí)踐探究”為題發(fā)表演講,闡述了超大存儲(chǔ)集群面臨的技術(shù)挑戰(zhàn)、如何基于曙光ParaStor構(gòu)建海量數(shù)據(jù)存儲(chǔ)最佳方案以及十多年來(lái)深耕細(xì)作行業(yè)的成功案例。
以下內(nèi)容根據(jù)速記整理,未經(jīng)本人審定。
石靜:尊敬的各位嘉賓,大家下午好!今天聽(tīng)了很多同行專家們講了很多產(chǎn)品,很有啟發(fā)。也有榮幸站到這里,分享曙光公司對(duì)大規(guī)模分布式存儲(chǔ)實(shí)踐的探究。
海量數(shù)據(jù)存儲(chǔ) 從云端到落地
近年來(lái),超大集群建設(shè)需求逐漸增加,數(shù)十乃至數(shù)百PB數(shù)據(jù)共享,分布式存儲(chǔ)機(jī)遇與挑戰(zhàn)共存。
中科曙光的重點(diǎn)應(yīng)對(duì)是三個(gè)領(lǐng)域。
一是先進(jìn)計(jì)算,國(guó)家“十三五”規(guī)劃的時(shí)候已經(jīng)把先進(jìn)計(jì)算納入重點(diǎn)發(fā)展的范疇。先進(jìn)計(jì)算包括常見(jiàn)一級(jí)計(jì)算云計(jì)算、智能計(jì)算等等。我們現(xiàn)在處于一個(gè)計(jì)算多元化的時(shí)代。隨著5G商用的加速,邊緣計(jì)算也大行其道,帶給用戶們便利的同時(shí),其實(shí)也有海量數(shù)據(jù)的管理和存儲(chǔ)需求。
第二,視頻監(jiān)控。視頻監(jiān)控也面臨兩個(gè)趨勢(shì),第一大趨勢(shì)就是超高清,第二大趨勢(shì)AI智能化,兩大趨勢(shì)都帶來(lái)了數(shù)據(jù)大幅度的增長(zhǎng)一個(gè)市級(jí)行政規(guī)模里面,一年可以達(dá)到數(shù)PB。
三是現(xiàn)在各行各業(yè)都做的數(shù)字化轉(zhuǎn)型,數(shù)字化轉(zhuǎn)型期間這種云存儲(chǔ)資源池是IT建設(shè)必經(jīng)之路。以運(yùn)營(yíng)商為例,一個(gè)資源池一年有數(shù)十PB規(guī)模。我們部署了一百多個(gè)節(jié)點(diǎn),但真要管理數(shù)百PB規(guī)模的時(shí)候,對(duì)于產(chǎn)品和技術(shù)挑戰(zhàn)也是非常大的。
超大存儲(chǔ)集群面臨的技術(shù)挑戰(zhàn)
一是要解決超大存儲(chǔ)集群里如何保障高效傳輸。二是集群大了以后承載的業(yè)務(wù)也是非常大的,性能需求也是迥異,一套存儲(chǔ)怎么滿足這種各個(gè)不同的性能需求,三是在超大規(guī)模里邊如何能夠保證一個(gè)安全可靠。
基于曙光ParaStor,構(gòu)建海量數(shù)據(jù)存儲(chǔ)最佳方案
曙光公司基于自研分布式存儲(chǔ)系統(tǒng)ParaStor,結(jié)合多年技術(shù)積累,市場(chǎng)耕耘的市場(chǎng)經(jīng)驗(yàn),打造一個(gè)整體的解決方案,其特點(diǎn)是涵蓋海量數(shù)據(jù)管理、高速網(wǎng)絡(luò)技術(shù)、存儲(chǔ)協(xié)議棧優(yōu)化等,超大規(guī)模部署實(shí)踐經(jīng)驗(yàn),數(shù)百個(gè)存儲(chǔ)節(jié)點(diǎn),數(shù)萬(wàn)個(gè)計(jì)算節(jié)點(diǎn),7X24小時(shí)穩(wěn)定運(yùn)行,成功在先進(jìn)計(jì)算視頻監(jiān)控商務(wù)信息等各個(gè)領(lǐng)域有大規(guī)模甚至超大規(guī)模的部署。
在應(yīng)對(duì)上面三個(gè)挑戰(zhàn)的時(shí)候都是怎么做的,接下來(lái)給各位逐一分享。
1)精細(xì)化控制,高效率的實(shí)時(shí)保障
集群交付的高效。分布式集群內(nèi)部存儲(chǔ)節(jié)點(diǎn)之一,業(yè)務(wù)客戶端和存儲(chǔ)系統(tǒng)的交互信息需要在每個(gè)節(jié)點(diǎn)實(shí)時(shí)同步。我們可以有N個(gè)節(jié)點(diǎn),N個(gè)節(jié)點(diǎn)和N減一個(gè)節(jié)點(diǎn)進(jìn)行交互,首先是拓?fù)湟晥D,我們需要知道節(jié)點(diǎn)位置和磁盤(pán)位置,每一個(gè)節(jié)點(diǎn)運(yùn)行狀態(tài),節(jié)點(diǎn)性能指標(biāo)需要同步,N個(gè)節(jié)點(diǎn)增加的時(shí)候,我們通信是非常大的。ParaStor不再是基于節(jié)點(diǎn)做的,而是以小組作為通信,通信增加了顆粒度,增加顆粒度的方式減少通信的次數(shù),能夠做到秒級(jí)更新。此外交互的過(guò)程中肯定存在某一個(gè)時(shí)刻有多個(gè)源向同一個(gè)目標(biāo)交互,我們加入了隨機(jī)因子,可以避免多個(gè)源向同一個(gè)點(diǎn)同時(shí)交互,避免沖突的等待。
另外,分布式存儲(chǔ)里面所有的數(shù)據(jù)傳輸交互都是基于網(wǎng)絡(luò)鏈接的,在一些性能的場(chǎng)景中大家都會(huì)用到RDMA協(xié)議,RDMA協(xié)議每一條網(wǎng)絡(luò)鏈接都是需要分配內(nèi)存的。一個(gè)直觀的認(rèn)識(shí),如果說(shuō)我有一萬(wàn)個(gè)計(jì)算節(jié)點(diǎn),需要和某一個(gè)節(jié)點(diǎn)建立交互的,光建立一萬(wàn)個(gè)鏈接就耗費(fèi)50G內(nèi)存,系統(tǒng)資源有限的,對(duì)于整個(gè)網(wǎng)絡(luò)通信是不穩(wěn)定的,我們?cè)趺醋龅哪??我們?cè)谶@里邊不再說(shuō)每一條單獨(dú)分享內(nèi)存,分配內(nèi)存的時(shí)候先分配一部分,等到用完再分配,這樣降低資源的消耗,實(shí)踐中帶一套集群里面,每一個(gè)節(jié)點(diǎn)配置128G內(nèi)存,這是交互的高效性。
為了保證多個(gè)客戶端訪問(wèn)到數(shù)據(jù)實(shí)時(shí)更新的,需要一致性。ParaStor借助分布鎖的機(jī)制保證數(shù)據(jù)一致性,每一個(gè)請(qǐng)求的時(shí)候都要帶一個(gè)鎖資源。當(dāng)集群規(guī)模很大的時(shí)候,光是維護(hù)這些鎖的資源開(kāi)銷非常大。整個(gè)維護(hù)鎖資源的服務(wù)器是集群模式,可以出發(fā)鎖請(qǐng)求的服務(wù)器很多的,并發(fā)服務(wù)的,這樣就相當(dāng)于增加了鎖的數(shù)量,提供鎖服務(wù)器,可以優(yōu)化鎖的申請(qǐng)和釋放隊(duì)列每一個(gè)鎖服務(wù)器可以提供的并發(fā)度也是提升的。
這是應(yīng)對(duì)第一個(gè)挑戰(zhàn)。
2)多維度優(yōu)化,滿足多樣化性能需求
智能預(yù)讀。對(duì)于多樣化的性能要求,運(yùn)行一段時(shí)間后,存儲(chǔ)系統(tǒng)可以智能識(shí)別業(yè)務(wù)的IO模式,是一直連續(xù)的,還是一直是隨機(jī)的,是4K訪問(wèn)還是1M訪問(wèn),獲知這種IO模式以后,存儲(chǔ)系統(tǒng)可以自適應(yīng)采用不同的方式給不同的應(yīng)用不同的加速引擎。
多層加速。整個(gè)的IO鏈路上有不同級(jí)別緩存的,從業(yè)務(wù)客戶端的內(nèi)存到存儲(chǔ)節(jié)點(diǎn)的內(nèi)存,三個(gè)不同級(jí)別里邊根據(jù)數(shù)據(jù)熱度進(jìn)行不同的熱度緩存加速,有的業(yè)務(wù)用到分級(jí)存儲(chǔ),我們實(shí)現(xiàn)跟大部分產(chǎn)品一樣的功能,基于一個(gè)文件一個(gè)策略,比如說(shuō)什么是最后訪問(wèn)的,文件大小多少,符合文件屬性的遷移到熱數(shù)據(jù)或者冷數(shù)據(jù)區(qū),在此之上做到更細(xì)的監(jiān)控,根據(jù)文件某一段經(jīng)常訪問(wèn)的數(shù)據(jù),1G文件里面128K做一個(gè)遷移。大家都知道雖然現(xiàn)在SSD的成本大幅度的下降,但是資源總是有限的,而通過(guò)這種方式可以提升整個(gè)系統(tǒng)的效率。
智能QOS。大規(guī)模系統(tǒng)里面業(yè)務(wù)的性能需求是各異的,總有那么一些VIP業(yè)務(wù)對(duì)性能要求是不一樣的,用戶也不希望所有的業(yè)務(wù)都同樣去用存儲(chǔ)資源。通過(guò)智能的QOS帶寬的服務(wù)能力,保證關(guān)鍵業(yè)務(wù)的業(yè)務(wù)資源。這種方式多維度的優(yōu)化可力爭(zhēng)做到以不變應(yīng)萬(wàn)變,不管業(yè)務(wù)怎么變都可以提供穩(wěn)定可靠的性能。
3)超大規(guī)模 安全可靠
大部分的產(chǎn)品都有多種冗余機(jī)制,從部件到網(wǎng)絡(luò)到數(shù)據(jù)的冗余方式,不管如何去冗余,去保護(hù)在大規(guī)模系統(tǒng),但總有故障的時(shí)候。當(dāng)出現(xiàn)故障的時(shí)候也不可怕,曙光能夠做到快速的故障切換,快速進(jìn)行業(yè)務(wù)的切換,去保證業(yè)務(wù)的連續(xù)性。這里邊我們就是利用剛才講到的保證集群,交互高效率,通過(guò)拓?fù)浼皶r(shí)更新保證故障及時(shí)切換。
大規(guī)模系統(tǒng)里面有這么一種場(chǎng)景,如果一塊盤(pán)不能讀了就是不能讀了踢出去就好,有一些盤(pán)不能讀了還能響應(yīng)你一會(huì)兒。有一些時(shí)斷時(shí)續(xù)的方式,還有一些假死的,這些節(jié)點(diǎn)網(wǎng)絡(luò)會(huì)成為害群之馬,不管你也不行,還給我通信,管你總能影響我性能。這是非常致命的,我們的處理方式監(jiān)控到數(shù)十種亞健康的狀態(tài),網(wǎng)絡(luò)節(jié)點(diǎn)亞健康及時(shí)割裂出去。上午有很多同仁講到海量小文件性能優(yōu)化問(wèn)題,這里邊提一下修復(fù)過(guò)程中怎么去優(yōu)化海量小文件的修復(fù)性能。我們?cè)赑araStor底層可以直接管理到物理磁盤(pán),底層可以做一個(gè)小文件聚合,實(shí)際的效果我們1KB小文件修復(fù)性能可以達(dá)到一個(gè)小時(shí)每秒,大家想一下什么概念,我們一般都是說(shuō)大文件修復(fù)的時(shí)候,一個(gè)TB三十分鐘,小文件可以做到一個(gè)小時(shí),極大提升可靠性。
4)多套集群統(tǒng)一管理,運(yùn)維無(wú)憂
大規(guī)模集群里面還有一種場(chǎng)景,不是說(shuō)單一系統(tǒng)就上一百個(gè)PB,或者50個(gè)PB,有多套集群,比如說(shuō)視頻監(jiān)控,每一個(gè)縣級(jí)市或者地級(jí)市都有這種存儲(chǔ)需求,不是很大一個(gè)集群分散在多個(gè)地方的集群,這種情況下對(duì)運(yùn)維管理人員來(lái)說(shuō),肯定希望能把這些集群做一個(gè)統(tǒng)一管理。ParaStor內(nèi)置管理軟件,可以做到這一點(diǎn)。給大家放一個(gè)圖,中間這一塊,不管是買(mǎi)多少套ParaStor,只要有我們標(biāo)準(zhǔn)軟件的話,就會(huì)提升這個(gè)功能,我們?cè)谝惶紫到y(tǒng)同時(shí)管理最多64套集群,管理起來(lái)比較方便的,只要是我的管理網(wǎng)絡(luò)可達(dá),就可以監(jiān)控起來(lái),提供標(biāo)準(zhǔn)的API接口,用戶可以定制屬于自己的監(jiān)控平臺(tái)。
以上就是我們大規(guī)模集群里面的優(yōu)化,都離不開(kāi)我們多年以來(lái)在技術(shù)上的積累。
十年歷程 深耕細(xì)作
ParaStor從2009年發(fā)布以來(lái),經(jīng)歷了十年的歷程,產(chǎn)品做了四次迭代,2012年第二代產(chǎn)品融合了NAS,隨著云上來(lái)集成了對(duì)象接口,2018年是我們的分水嶺,當(dāng)年發(fā)布了全新一代支持全對(duì)稱/非對(duì)稱架構(gòu)支持文件/對(duì)象接口,2019年融合了iSCSi接口,分布式統(tǒng)一存儲(chǔ)。我們支持塊接口比較晚,一方面我們的產(chǎn)品的規(guī)劃,另外一個(gè)方面是我們對(duì)于產(chǎn)品的定位。我們深耕細(xì)作的,不僅做一款產(chǎn)品,更是把產(chǎn)品和應(yīng)用做更好的適配,現(xiàn)在已經(jīng)在九個(gè)應(yīng)用領(lǐng)域里邊得到廣泛的應(yīng)用,也取得了不錯(cuò)市場(chǎng)表現(xiàn)。
這是我們的典型應(yīng)用,大家可以看一下.
最后給大家分享幾個(gè)典型案例。
首先講到就是說(shuō)第一個(gè)大規(guī)模場(chǎng)景先進(jìn)計(jì)算,曙光公司致力于各地先進(jìn)計(jì)算的建設(shè)。在先進(jìn)計(jì)算中心里邊有大規(guī)模數(shù)據(jù)存儲(chǔ)需求,舉這樣一個(gè)例子,先進(jìn)計(jì)算A中心和先進(jìn)計(jì)算B中心??梢钥吹紸中心已經(jīng)部署了100PB存儲(chǔ)容量,存儲(chǔ)節(jié)點(diǎn)260個(gè),支撐的節(jié)點(diǎn)13000個(gè)。中間是一個(gè)地球模擬裝置,這里邊要求節(jié)點(diǎn)數(shù)不是很多,有一個(gè)性能指標(biāo)聚合帶寬達(dá)到1TB每秒,已經(jīng)成功做了驗(yàn)收并實(shí)施一段時(shí)間,承載的業(yè)務(wù)150類業(yè)務(wù)。這是先進(jìn)計(jì)算。
看一下中國(guó)氣象局,這一套用于叫做PAI系統(tǒng),氣候變化支撐系統(tǒng),聚合帶寬200GB/s有23PB存儲(chǔ)空間,2017年做的,3000個(gè)客戶端,部署以后,兩年穩(wěn)定運(yùn)行。
看一下石油行業(yè)的案例。眾所周知,石油行業(yè)是典型的一個(gè)HPC應(yīng)用,對(duì)性能存儲(chǔ)要求極為苛刻的,對(duì)存儲(chǔ)空間使用極為苛刻.系統(tǒng)上去以后,出到多少GB帶寬很容易,石油行業(yè)里邊經(jīng)常把存儲(chǔ)空間用到80%,90%,要求你的存儲(chǔ)性能不能有任何下降的。ParaStor在中石油中海油中石化部署了三十余套,累計(jì)存儲(chǔ)容量40+PB,對(duì)專業(yè)的石油軟件,GeoEast、CGG做到代碼級(jí)的優(yōu)化,當(dāng)存儲(chǔ)使用率達(dá)到85%甚至以上的時(shí)候性能是沒(méi)有任何損耗的,這是石油的案例。
在智慧交通領(lǐng)域,京雄鐵路綜合視頻監(jiān)控項(xiàng)目。我們每天坐高鐵有一些沿途線路,每一個(gè)沿途線路都會(huì)放一套存儲(chǔ)有視頻圖片文件,以前的方案都是用SAS存儲(chǔ),京雄鐵路SAS存儲(chǔ)換成了我們分布式存儲(chǔ),鐵路每一條鐵路沿線都會(huì)放PB存儲(chǔ)空間,多套集群統(tǒng)一管理。
今年一直做的,相信友商的很多同仁知道這個(gè)項(xiàng)目,就是利國(guó)利民關(guān)系國(guó)計(jì)民生的好事,就是取消省界收費(fèi)站項(xiàng)目,廣東為例提供了70余套ParaStor。40個(gè)路段,38條高速路合計(jì)700個(gè)龍門(mén)架提供存儲(chǔ)資源。
最后一個(gè)是智慧醫(yī)療的案子。今年上半年,曾經(jīng)在央視網(wǎng)上曙光公司的一個(gè)機(jī)器人,AI機(jī)器人去真正的取代醫(yī)生去做一些病人的檢測(cè),這個(gè)就是機(jī)器人背后用了ParaStor系統(tǒng),天壇醫(yī)院在這系統(tǒng)里面有一個(gè)成功應(yīng)用,給用戶提供7PB在先存儲(chǔ)能力,支撐序列比對(duì)拼接。
我的分享就到這里。
技術(shù)不停,我們曙光ParaStor也不會(huì)停,希望我們未來(lái)產(chǎn)品和各位友商產(chǎn)品一起服務(wù)于整個(gè)的社會(huì),也能夠去創(chuàng)造更多的價(jià)值,謝謝大家。
編后:本次2019中國(guó)數(shù)據(jù)與存儲(chǔ)峰會(huì)(DATA & STORAGE SUMMIT)為期兩天,包含主論壇、CIO高峰對(duì)話,以及大數(shù)據(jù)、閃存系統(tǒng)、分布式存儲(chǔ)、第二存儲(chǔ)與容災(zāi)備份、超融合與云存儲(chǔ)、人工智能、數(shù)據(jù)創(chuàng)新與安全可控、容器創(chuàng)新與應(yīng)用、SCM第五代存儲(chǔ)與閃存控制器等十大主題論壇,超過(guò)100場(chǎng)的專業(yè)知識(shí)分享。初步統(tǒng)計(jì),本屆峰會(huì)吸引了來(lái)自政、企、產(chǎn)、學(xué)、研、媒體等各方參會(huì)者約2000人,在線直播觀看觀眾再創(chuàng)新高,超過(guò)10萬(wàn)余人次。