達沃時代副總裁雷迎春精彩演講

以下為雷迎春演講實錄:

經(jīng)過了2016,有一些體會。總體來說,存儲行業(yè)的大趨勢是從第二平臺向第三平臺轉(zhuǎn)移,第二平臺有PC機、客戶端服務(wù)架構(gòu)、局域網(wǎng)和互聯(lián)網(wǎng)。第三平臺有云計算、大數(shù)據(jù)、分析和社交。轉(zhuǎn)移過程當中整個信息技術(shù)價值已經(jīng)從計算和業(yè)務(wù)驅(qū)動為中心,轉(zhuǎn)向到以用戶和數(shù)據(jù)為中心。

所謂”新存儲”,第一是指分布式存儲,第二是多種訪問協(xié)議,第三是以閃存為中心,第四,應(yīng)用定義。其實我們來看同樣陣列也好,存儲本身都是使用英特爾平臺。硬件存儲會用專用或定制化硬件,他們可能提供高集成度接口,可能會用定制化的東西,服務(wù)器里面會增加BBU,或者外面增加UPS,或使用好的服務(wù)器,硬件服務(wù)器主板會提高要求,通常情況下使用硬件存儲。從軟件上面來說,為了支撐硬件存儲,會在軟件上做很多工作,比如說內(nèi)置分配,電源一起整合,每次申請內(nèi)存都會看有沒有足夠電源。

分布存儲可能會使用商品化服務(wù)器,比如Dell XC服務(wù)器。分布式存儲更相信自己的軟件,對系統(tǒng)的可靠性,對性能的保證。我認為分布式存儲和陣列本身最大一個區(qū)別,應(yīng)該是不同軟件的哲學。

陣列里面一個進程只能看到直聯(lián)的存儲資源,所有資源是屬于硬狀態(tài),當一個故障發(fā)生時候會發(fā)出一個信號,說磁盤故障,只能看到本地資源。而分布式存儲不一樣,每個介質(zhì)有獨立存在,整個OSD向Metosrv匯報,OSD存儲之前呈現(xiàn)出抽象的狀態(tài)。Metasrv不能直接看見存儲資源,其上的Objects是軟狀態(tài),存儲故障可能在下一秒發(fā)生。軟件協(xié)作是先天的。

達沃是分布式軟件存儲提供商,主要兩個產(chǎn)品部署,一個是超規(guī)模,另一個是超融合,面向單數(shù)據(jù)中心和多數(shù)據(jù)中心,硬件平臺用的商品化硬件。所以在IT發(fā)展上,看自身如何提供多協(xié)議和閃存與定義來適應(yīng)存儲要求。

達沃自主研發(fā)文件系統(tǒng),比較受Google? GFS影響,主要數(shù)據(jù)是元數(shù)據(jù)服務(wù)+對象存儲服務(wù)組成。標準POsix語義。最開始元數(shù)據(jù)服務(wù)是HA,在2013年左右變成了三個節(jié)點,最多我們做了6個節(jié)點,在實驗測試,我們做的這種分布式一個元數(shù)據(jù),10億級規(guī)模。存儲軟件比較早是以磁盤為中心,整個存儲面向磁盤的,閃存為輔。

這是我們的一個軟件結(jié)構(gòu),可以看到整個元數(shù)據(jù)設(shè)計比較復(fù)雜,實現(xiàn)文件系統(tǒng)的語義,同時管Objectmetasrv本身。整個來說元數(shù)據(jù)非常重,因為HA和存儲HA是獨立,自己要去實現(xiàn)存儲語義以外,自己來做很重的事物,是分布式的東西,近似于在做一個分布式數(shù)據(jù)庫的工作。右邊我們整個I/O受元數(shù)據(jù)一個驅(qū)動,磁盤并不是說把簡單把磁盤用I/O換過去就很好的I/O了,I/O模型并不能充分使用這個閃存,有必要去升級一下我們軟件的結(jié)構(gòu)。

這是達沃2.0軟件結(jié)構(gòu),今年突然一下發(fā)現(xiàn)我們本身從10億級規(guī)模到千億級規(guī)模本身,軟件數(shù)據(jù)規(guī)模太大了,怎么會一下子有這樣的需求,用戶把大數(shù)據(jù)提進去了,現(xiàn)在來說我們的4、5個項目千億級項目本身,確認達沃軟件要升級的事情。第二,各種應(yīng)用并存,需要多種協(xié)議支撐,還有數(shù)據(jù)百億級的數(shù)據(jù)化,生產(chǎn)型和非生產(chǎn)型在一個平臺上,因為不可能遷移,有這樣一個需求,以閃存來支撐整個系統(tǒng)本身。

達沃1.0有中心,怎么將其變成全分布式多中心,我們把軟件分成了獨立開出一個層次,在上面怎么來用上層使用。整個來說2.0是這樣一個背景。這是我們對象存儲一個結(jié)構(gòu),因為是中心存儲,實現(xiàn)全對稱元數(shù)據(jù),管理對象狀態(tài),隨著系統(tǒng)大規(guī)模增長,也不會擔心狀態(tài)受限于這個規(guī)模。

I/O第一次訪問元數(shù)據(jù),第二次可以直接跳到對象存儲上面。對象存儲本身支持混合存儲或者全散,全散支持消重和壓縮。這是我們的一個I/O框架,稱為ROWS,獨優(yōu)化和寫順序。兩種配置,混合存儲和全閃存存儲。ROWS(Read? optimally,Writesequentially)讀寫分離,性能層服務(wù)絕大多數(shù)I/O。緩存,分離、壓縮、消重。順序?qū)?,到性能層的異步I/O寫,到容量層的異步I/O寫,讀優(yōu)化,自緩存層的同步I/O讀,自性能層的同步I/O讀。

我們這一塊本身實現(xiàn)了緩存、分層支撐性能東西,可以看到幾個配置,是有全散配置等等。

達沃的全分布式文件系統(tǒng)屬于千億級規(guī)模。這是我們分布存儲最基礎(chǔ)、文件存儲地方調(diào)用對象存儲的I/O,對象存儲庫把一個文件I/O變成一個對象本身往下扔,主要做的事情是File到Object的映射。元數(shù)據(jù)整個工作原理這樣一個事情。每個MDU里面組織方式有定長部分,還有變長部分。通常來說每個節(jié)點分配8個MDU。我們MDU本身分散不同的MDU,名字空間動態(tài)分區(qū)不是基于子樹,隨機深成不同的MDU里面去。整個來說我們事物兩種思路,一個是MDU思路本身,還有跨MDU,還有涉及超級大的目錄操作,或者以千萬單位的目錄,跨MDU,整個操作都是事物型的。

在統(tǒng)一存儲方面,由于達沃是做分布式文件系統(tǒng)出身,自然而然用文件方式管理資源??梢钥吹紽ile? Store的名字空間,還有Blob? Store的名字空間,還有Disk? Store的名字空間。BLob? Store是File? Store的簡化。這是我們分布式對象存儲,我們把Blob分成1K,所有1K放在Object,所有1K在一個地方。刪除一個對象,只需要植一個位就可以。

磁盤比較簡單,只是一個大塊映射道不同的Object上。我們未來會做跨中心,還有混合云方面的工作。我們覺得這些年的體會,首先是存儲需要多協(xié)議訪問,一個存儲池既需要通過NFS、SMB? 、ISCSI? 等等,還有數(shù)據(jù)的多協(xié)議訪問,同一個數(shù)據(jù)可能需要被NFS訪問到,同時需要被Web對象訪問到,還需要Hadoop,未來隨著這種流處理,在線處理分析一定是一種常態(tài)。所以我們認為本身要做出數(shù)據(jù)多協(xié)議,不僅是存儲資源。

第二,規(guī)模和性能,全分布式系統(tǒng)本身是一個解決規(guī)模的問題。而閃存這邊我們認為好的我們叫現(xiàn)成模式,或者通過I/O通道模式本身,才能把閃存發(fā)揮好,而不是簡單的替換一個介質(zhì)。

最后一個是應(yīng)用定義,我們覺得超融合里面存儲本身有一些人用的Lang,超融合里面經(jīng)常給VM本身設(shè)定他的快照或者遷移,很多時候需要存儲做配合的事情。

分享到

zhangnn

相關(guān)推薦