2020年,戴爾與谷歌合作將Isilon的橫向擴(kuò)展文件系統(tǒng)OneFS放到了谷歌云上,用于生產(chǎn)環(huán)境。
2021年的一份白皮書上,Dell PowerScale OneFS在微軟的Azure上提供計(jì)算密集型文件工作負(fù)載。
在許多人的想象中,公有云似乎無所不能,那為什么還會跟傳統(tǒng)本地存儲廠商進(jìn)行合作呢?
戴爾大中華區(qū)非結(jié)構(gòu)化數(shù)據(jù)存儲事業(yè)部總經(jīng)理劉志洪的一番話道出了背后的關(guān)鍵原因。
某國內(nèi)大型公有云服務(wù)商的負(fù)責(zé)人曾對劉志洪表示,任何公有云廠商想要做好分布式文件系統(tǒng),做好高性能分布式文件系統(tǒng),大概需要投入兩三億人民幣,需要兩三百個(gè)研發(fā)人員研發(fā)兩三年,做出來的方案還不一定比戴爾的分布式文件系統(tǒng)OneFS好。
OneFS是戴爾分布式NAS Isilon的操作系統(tǒng),Isilon最早是在2001年推出的,20多年的發(fā)展歷程中,經(jīng)歷了無數(shù)生產(chǎn)環(huán)境驗(yàn)證,踩過的坑很難數(shù)清楚。如果要再造一個(gè)OneFS或者超越OneFS,也需要經(jīng)歷多年的打造和歷練,產(chǎn)品技術(shù)以外還得積累大量實(shí)戰(zhàn)經(jīng)驗(yàn)。
在IDC的報(bào)告中,基于OneFS的PowerScale是排名第一的橫向擴(kuò)展NAS平臺。在Gartner的魔力象限中,基于OneFS的存儲系統(tǒng)連續(xù)六年位居領(lǐng)導(dǎo)者象限的最右上角。市場上,基于OneFS的文件存儲系統(tǒng)已經(jīng)提供了17EB的容量空間,服務(wù)于數(shù)不清的企業(yè)用戶。
劉志洪的這番話梳理了公有云存儲和本地存儲之間的關(guān)系,優(yōu)勢差異,其實(shí)我們也完全可以從另一個(gè)角度來看兩者的關(guān)系。
十多年前,中國市場上的存儲服務(wù)提供商絕對以國際大廠的本地存儲為主,中國的存儲廠商只有少數(shù)幾家,而現(xiàn)在,在公有云如火如荼發(fā)展了十年后,中國存儲市場上的本地存儲廠商數(shù)量居然在增多。
在公有云發(fā)展的同時(shí),本地存儲廠商也在巨大的市場空間下快速發(fā)育,其實(shí),這些市場空間大部分都來自于數(shù)據(jù)量的爆炸性增長,特別是非結(jié)構(gòu)化數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)推動(dòng)存儲市場發(fā)展
IDC預(yù)測,到2025年,全球數(shù)據(jù)量將達(dá)到181ZB,其中,80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù)。得益于各行各業(yè)的數(shù)字化轉(zhuǎn)型進(jìn)程,大數(shù)據(jù)、物聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)等技術(shù)的應(yīng)用和普及,企業(yè)和組織希望從數(shù)據(jù)中發(fā)現(xiàn)價(jià)值,提高企業(yè)和組織的運(yùn)行效率。
劉志洪表示,2018年,戴爾在內(nèi)部發(fā)起了一個(gè)“10PB俱樂部”活動(dòng),用于表彰銷售容量達(dá)到10PB的銷售人員,推廣部署容量達(dá)到10PB的用戶案例,而當(dāng)時(shí)很多人都覺得這一目標(biāo)設(shè)定的太高了,以醫(yī)療行業(yè)為例,2018年普遍需要的容量都是幾十TB到幾百TB的水平。
而在最近兩年,醫(yī)療行業(yè)對于非結(jié)構(gòu)化數(shù)據(jù)存儲,特別是醫(yī)療影像數(shù)據(jù)存儲需求爆炸式增長。去年,有一家醫(yī)院一次性采購了10PB的PowerScale用于存儲醫(yī)療影像數(shù)據(jù),而這還不是國內(nèi)最大的,國內(nèi)醫(yī)院最大的容量已經(jīng)達(dá)到20PB的水平了。
PowerScale是Isilon的升級版本,提供全閃節(jié)點(diǎn)、混合節(jié)點(diǎn)和歸檔節(jié)點(diǎn),在某醫(yī)院一次性采購10PB存儲的項(xiàng)目中,既有大量全閃存節(jié)點(diǎn),也有歸檔節(jié)點(diǎn),前者負(fù)責(zé)支撐前端應(yīng)用,后者用于長期歸檔數(shù)據(jù),也可用于大數(shù)據(jù)分析和人工智能等場景。
劉志洪對于未來趨勢也非常樂觀,認(rèn)為在未來三到五年里,會有一些用戶一次性采購100PB規(guī)模的存儲,到時(shí)候,戴爾的10PB俱樂部就應(yīng)該改成100PB俱樂部了。
在IDC的數(shù)據(jù)里,2020年全球數(shù)據(jù)量才64ZB,到2025年就要達(dá)到181ZB了,劉志弘說的100PB俱樂部或許并不遙遠(yuǎn)。
但說到底,數(shù)據(jù)的增長只是現(xiàn)象,企業(yè)和組織說到底是為了從數(shù)據(jù)中挖掘價(jià)值,提升競爭力,所以,各行各業(yè)對數(shù)據(jù)的利用情況就非常關(guān)鍵。
非結(jié)構(gòu)化數(shù)據(jù)在典型行業(yè)的典型用法
下圖是戴爾匯總的非結(jié)構(gòu)化數(shù)據(jù)(UDS-Unstructured data storage)比較火的應(yīng)用領(lǐng)域,總結(jié)的還是非常全面的,不難發(fā)現(xiàn),非結(jié)構(gòu)化數(shù)據(jù)存儲對每個(gè)行業(yè)都越發(fā)重要。
戴爾大中華區(qū)非結(jié)構(gòu)化數(shù)據(jù)解決方案部高級系統(tǒng)工程師高中耀介紹了非結(jié)構(gòu)化數(shù)據(jù)在芯片設(shè)計(jì)和機(jī)器學(xué)習(xí)領(lǐng)域的用法。
從介紹中了解到,芯片設(shè)計(jì)和芯片制造環(huán)節(jié)會產(chǎn)出大量非結(jié)構(gòu)化數(shù)據(jù),從存儲的角度看,設(shè)計(jì)10nm芯片前后需要600-700TB數(shù)據(jù),設(shè)計(jì)7nm芯片則需要大約1.2PB的數(shù)據(jù)。從計(jì)算的復(fù)雜度來看,每更新一代芯片進(jìn)行仿真測試運(yùn)算所需的CPU核數(shù)也會翻倍。
EDA芯片設(shè)計(jì)行業(yè)對于存儲的性能和容量都提出了要求。
芯片設(shè)計(jì)前期需要處理大量小文件,對于IOPS性能要求很高,而在做仿真測試驗(yàn)證的時(shí)候,則會產(chǎn)生大量大文件,對于存儲系統(tǒng)的帶寬吞吐都提出了更高要求。最后,在設(shè)計(jì)完成后,則需要設(shè)計(jì)數(shù)據(jù)做長久歸檔,整個(gè)流程對存儲能力的要求非常均衡。
高中耀介紹稱,Dell PowerScale在芯片行業(yè)的應(yīng)用非常普遍,全球排名TOP20的芯片設(shè)計(jì)企業(yè)里,有80%都采用了PowerScale的方案,PowerScale可以幫企業(yè)輕松應(yīng)對芯片設(shè)計(jì)對IT的挑戰(zhàn)。
Dell PowerScale的可擴(kuò)展性可真正實(shí)現(xiàn)彈性伸縮,可面向未來的設(shè)計(jì)需求,靈活根據(jù)需求調(diào)整集群大小。同時(shí),PowerScale全閃存、混合、歸檔系列可以滿足芯片設(shè)計(jì)不同階段對于存儲的要求。
Dell PowerScale本身非常成熟和現(xiàn)代化,無需遷移數(shù)據(jù)就能完成升級換代,在可靠性方面,也都是行業(yè)標(biāo)桿水平,能讓用戶更省心。
在AI和機(jī)器學(xué)習(xí)領(lǐng)域,PowerScale可以從容處理大量用于機(jī)器學(xué)習(xí)模型訓(xùn)練非結(jié)構(gòu)化數(shù)據(jù),閃存配置的PowerScale可應(yīng)對對性能的更高要求,PowerScale豐富的存儲協(xié)議還可以統(tǒng)一對接各種存儲資源。
戴爾大中華區(qū)非結(jié)構(gòu)化數(shù)據(jù)解決方案部高級系統(tǒng)工程師趙斌介紹了高性能數(shù)據(jù)分析(High Performance Data Analytics-HPDA)在油氣勘探場景對存儲提出的挑戰(zhàn)。
HPDA結(jié)合了高性能計(jì)算和大數(shù)據(jù)分析技術(shù),本身對于實(shí)時(shí)性要求就比較高,油氣勘探行業(yè),隨著模型精度的提升,隨著采集頻次的提升,數(shù)據(jù)量呈幾何級的激增,采集的數(shù)據(jù)進(jìn)入HPC系統(tǒng)后,需要極高的并行處理性能,而且要縮短數(shù)據(jù)處理的周期。
在油氣勘探場景中,支持多協(xié)議的PowerScale不僅能將各種數(shù)據(jù)快速導(dǎo)入,而且還能根據(jù)數(shù)據(jù)的冷熱程度進(jìn)行自動(dòng)分層,配合數(shù)據(jù)精簡功能還能提高數(shù)據(jù)存儲的效率,降低存儲的成本。
結(jié)束語
非結(jié)構(gòu)化數(shù)據(jù)的用法可謂是多種多樣,各行各業(yè)的應(yīng)用中,都是負(fù)責(zé)記錄豐富多樣的數(shù)據(jù),然后從數(shù)據(jù)中獲得洞察。
在可見的未來,數(shù)據(jù)的量會越來越大,對非結(jié)構(gòu)化存儲的要求也會越來越多,也就有越來越大的市場空間。
在巨大的市場空間中,本地存儲和公有云上的存儲都將迎來發(fā)展機(jī)遇,兩者也將相互影響,相互促進(jìn)。