中文字幕久久精品一二三区 ,中文字幕+乱码

數(shù)據(jù)、算法、算力和模型被認(rèn)為是人工智能落地的四大要素，其中，算法、算力和模型的話題熱度很高，而對(duì)數(shù)據(jù)本身的討論，似乎也并不是機(jī)器學(xué)習(xí)專家的分內(nèi)的事兒。

當(dāng)然，機(jī)器學(xué)習(xí)專家本身對(duì)于數(shù)據(jù)預(yù)處理還是很熟悉的，但通常并不了解數(shù)據(jù)存儲(chǔ)的部分，對(duì)于存儲(chǔ)系統(tǒng)在擴(kuò)展性、性能、穩(wěn)定性方面并不在意。

從許多實(shí)踐來(lái)看，AI技術(shù)的成功與否，在很大程度上取決于支持?jǐn)?shù)據(jù)科學(xué)流程的底層IT體系結(jié)構(gòu)。換句話說(shuō)，想要順暢地訓(xùn)練、測(cè)試和部署AI模型，需要靠譜的計(jì)算和存儲(chǔ)系統(tǒng)。

AI對(duì)存儲(chǔ)提出了哪些要求？

上圖來(lái)自戴爾的一份白皮書（《適用于AI的IT體系結(jié)構(gòu)：從POC直到生產(chǎn)》），企業(yè)用的商務(wù)智能只需要少量的結(jié)構(gòu)化數(shù)據(jù)，需要的算力也比較少，而深度學(xué)習(xí)則需要PB級(jí)的數(shù)據(jù)，同時(shí)，對(duì)于計(jì)算和存儲(chǔ)性能也提出了更高要求。

白皮書概括了企業(yè)AI項(xiàng)目的落地流程。首先，要搞清楚具體要解決的業(yè)務(wù)問(wèn)題，然后，就進(jìn)入到POC驗(yàn)證階段，需要將業(yè)務(wù)問(wèn)題和數(shù)據(jù)科學(xué)問(wèn)題來(lái)對(duì)應(yīng)，過(guò)程中，需要建立一套IT基礎(chǔ)架構(gòu)，IT架構(gòu)要可以重復(fù)使用、可擴(kuò)展且足夠靈活。

眾所周知，機(jī)器學(xué)習(xí)的工作過(guò)程大致分為四個(gè)階段，涵蓋數(shù)據(jù)采集、數(shù)據(jù)準(zhǔn)備（數(shù)據(jù)預(yù)處理）、模型訓(xùn)練（包含訓(xùn)練、評(píng)估、驗(yàn)證）和模型推理四個(gè)階段，每個(gè)階段對(duì)于數(shù)據(jù)存儲(chǔ)的要求都不盡相同。

在數(shù)據(jù)采集階段，數(shù)據(jù)可能會(huì)從不同來(lái)源聚攏并存儲(chǔ)起來(lái)，數(shù)據(jù)的大小和格式都存在各種差異，而且，數(shù)據(jù)類型往往是以文件存儲(chǔ)或者對(duì)象存儲(chǔ)為主，都屬于非結(jié)構(gòu)化數(shù)據(jù)。

采集過(guò)程中，首先以順序?qū)懭霝橹?，從多個(gè)數(shù)據(jù)源傳入數(shù)據(jù)，如果存儲(chǔ)寫性能跟不上，數(shù)據(jù)就可能會(huì)被丟棄，數(shù)據(jù)的完整度可能會(huì)影響模型的準(zhǔn)確度。采集完成后，通常還要將收集來(lái)的數(shù)據(jù)放入更大的存儲(chǔ)池來(lái)進(jìn)行統(tǒng)一管理，對(duì)讀性能要求也很高。

在數(shù)據(jù)準(zhǔn)備階段，需要對(duì)不同格式和尺寸的數(shù)據(jù)進(jìn)行規(guī)范化處理，處理的效率取決于計(jì)算以及存儲(chǔ)的性能。處理的過(guò)程中，通常會(huì)有順序讀寫、隨機(jī)讀寫等操作，在最極端的情形下，甚至可能是各占一半的讀寫混合。

而在訓(xùn)練階段，往往需要高性能的GPU或者加速器等來(lái)執(zhí)行一系列的數(shù)學(xué)運(yùn)算，對(duì)計(jì)算和存儲(chǔ)資源要求非常高，在做特定訓(xùn)練時(shí)，AI訓(xùn)練所需的時(shí)間取決于所部署的計(jì)算與高性能存儲(chǔ)的規(guī)模。

推理階段，對(duì)于存儲(chǔ)和計(jì)算性能的要求會(huì)比較多樣化，常見(jiàn)的各種邊緣場(chǎng)景，在機(jī)場(chǎng)和火車站的閘機(jī)，在手機(jī)的人臉識(shí)別系統(tǒng)中，對(duì)能耗比較敏感，而在大型模型的推理過(guò)程，對(duì)于計(jì)算和存儲(chǔ)性能的要求都會(huì)非常高。

總結(jié)而言，AI所需要的是非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)，并且，對(duì)于存儲(chǔ)的擴(kuò)展性、綜合性能以及擴(kuò)展性都有比較更好的要求。同時(shí)，由于涉及的數(shù)據(jù)量會(huì)越來(lái)越多，對(duì)于數(shù)據(jù)存儲(chǔ)和管理的要求也會(huì)越來(lái)越高。

如果存儲(chǔ)無(wú)法滿足這些要求，輕則影響機(jī)器學(xué)習(xí)訓(xùn)練的周期，影響業(yè)務(wù)迭代進(jìn)度，影響企業(yè)對(duì)于AI戰(zhàn)略的信心。重則訓(xùn)練出的模型可能無(wú)法用于生產(chǎn)環(huán)境，AI計(jì)劃宣告失敗。

戴爾幫助企業(yè)將AI落地

戴爾能為企業(yè)的AI體系結(jié)構(gòu)構(gòu)建從邊緣到核心再到云的數(shù)據(jù)環(huán)境，計(jì)算部分有Precision工作站、PowerEdge服務(wù)器和NVIDIA DGX服務(wù)器，而存儲(chǔ)部分則有PowerScale橫向擴(kuò)展存儲(chǔ)和ECS對(duì)象存儲(chǔ)，其中，PowerScale還可在云端部署。

PowerScale非常適合存儲(chǔ)用于AI/ML/DL的大型數(shù)據(jù)集，服務(wù)于機(jī)器學(xué)習(xí)和數(shù)據(jù)分析場(chǎng)景。

PowerScale的高性能、高并發(fā)性能可滿足機(jī)器學(xué)習(xí)從數(shù)據(jù)采集、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和模型推理各階段對(duì)存儲(chǔ)性能的要求，能更快完成AI模型的訓(xùn)練和驗(yàn)證。

PowerScale的可擴(kuò)展性，使得從POC驗(yàn)證到生產(chǎn)環(huán)節(jié)的所有數(shù)據(jù)都可以存放在PowerScale上，而且可以隨著數(shù)據(jù)量的增長(zhǎng)隨時(shí)添加節(jié)點(diǎn)來(lái)擴(kuò)容，從而可以避免費(fèi)時(shí)費(fèi)力進(jìn)行數(shù)據(jù)遷移。

PowerScale提供豐富的企業(yè)級(jí)特性，它能將數(shù)據(jù)管理、性能管理、數(shù)據(jù)保護(hù)和數(shù)據(jù)安全有機(jī)地整合，從而提高數(shù)據(jù)存儲(chǔ)的經(jīng)濟(jì)性，降低擁有成本并減少風(fēng)險(xiǎn)。

PowerScale還提供了高效的管理能力，借助PowerScale自帶的數(shù)據(jù)管理工具 Dell EMC DataIQ，任何人都可以輕松地在跨本地和異地部署的，文件和對(duì)象數(shù)據(jù)平臺(tái)上查找和管理數(shù)據(jù)。

PowerScale既有全閃存配置，也有混合存儲(chǔ)和歸檔存儲(chǔ)配置，滿足用戶在性能、容量和成本之間的平衡，還與谷歌云、亞馬遜云以及微軟Azure合作將數(shù)據(jù)放到云上，利用云上的彈性資源進(jìn)行機(jī)器學(xué)習(xí)的訓(xùn)練和推理，為企業(yè)提供了豐富多樣的選擇。

此外，戴爾不僅提供了種類豐富的IT基礎(chǔ)架構(gòu)，擁有多種參考體系結(jié)構(gòu)以及經(jīng)過(guò)驗(yàn)證的計(jì)算和存儲(chǔ)解決方案，還提供了常用的AI/ML/DL工具和框架，包括大數(shù)據(jù)分析平臺(tái)Splunk、機(jī)器學(xué)習(xí)框架Caffe2、TensorFlow、PyTorch等，讓機(jī)器學(xué)習(xí)的流程更順暢。

結(jié)束語(yǔ)

可以說(shuō)，戴爾存儲(chǔ)不僅能滿足機(jī)器學(xué)習(xí)各個(gè)階段，對(duì)存儲(chǔ)在性能和擴(kuò)展性方面的要求。而且，還有可用于構(gòu)建服務(wù)于AI工作流的一整套IT基礎(chǔ)設(shè)施，更能將企業(yè)所需的安全、高效數(shù)據(jù)管理能力帶給企業(yè)，是企業(yè)構(gòu)建AI能力的理想之選。

分享到

AI存儲(chǔ)ObjectScale PowerStore 數(shù)據(jù)存儲(chǔ)

zhupb

相關(guān)推薦

近期文章

熱門標(biāo)簽