AWS首席數(shù)據(jù)科學(xué)家Matt Wood

如今,數(shù)據(jù)存儲和處理資源已經(jīng)極大豐富和廉價(jià),這使得大數(shù)據(jù)的概念成為可能。而云計(jì)算則進(jìn)一步降低了數(shù)據(jù)存儲和處理資源的成本,容量也更大。這意味著數(shù)據(jù)分析的觀念正在經(jīng)歷一次重大的范型轉(zhuǎn)移,從過去資源優(yōu)先轉(zhuǎn)向以企業(yè)需求為先。

如果他們能夠突破傳統(tǒng)的數(shù)據(jù)采樣和處理模式,一個人就能專注于要做的事情,因?yàn)橘Y源太多了。例如,點(diǎn)評網(wǎng)站Yelp允許開發(fā)者無限制使用Elastic MapReduce,這樣開發(fā)者就不必為了測試某個瘋狂想法而走繁瑣的資源申請流程。Yelp能夠在一年前發(fā)現(xiàn)網(wǎng)站流量的移動化趨勢并及時開展移動業(yè)務(wù)都得益于此。

數(shù)據(jù)的問題不都是規(guī)模

總的來說,客戶的數(shù)據(jù)問題并不都是如何更低的成本存儲更多的數(shù)據(jù),你不一定需要1PB的數(shù)據(jù)才能分析出誰是你社交游戲的用戶。

實(shí)際上,能夠無限制的存儲和處理數(shù)據(jù)本身會產(chǎn)生新的問題。公司希望能夠保存所有產(chǎn)生的數(shù)據(jù),這會導(dǎo)致復(fù)雜性增加。從亞馬遜的S3和DynamoDB服務(wù)到企業(yè)數(shù)據(jù)中心的物理服務(wù)器,當(dāng)數(shù)據(jù)在所有的庫中都堆積如山時,數(shù)據(jù)轉(zhuǎn)移和復(fù)用的難度也會變得很大。

AWS新推出的數(shù)據(jù)管道服務(wù)(Data Pipeline Service)就是為了解決這個問題。管道非常復(fù)雜,從運(yùn)行一個簡單的數(shù)據(jù)業(yè)務(wù)邏輯到在Elastic MapReduce上運(yùn)行所有的批任務(wù),數(shù)據(jù)管道服務(wù)的目的就是將數(shù)據(jù)的移動和處理自動化,用戶無需自己建立這些工作流程并手動運(yùn)行。

aws_data_pipeline_console

AWS數(shù)據(jù)管道服務(wù)控制臺

把大數(shù)據(jù)快遞給云計(jì)算

人們有時候會質(zhì)疑云計(jì)算與大數(shù)據(jù)任務(wù)之間的相關(guān)度,因?yàn)槿绻麑⑵髽I(yè)內(nèi)部系統(tǒng)產(chǎn)生的數(shù)據(jù)都上傳到云端,由于受到網(wǎng)速限制,數(shù)據(jù)規(guī)模越大,上傳的時間就越長。為了解決這個問題,亞馬遜想盡各種辦法,包括與Aspera合作,甚至與那些研究在互聯(lián)網(wǎng)上快速轉(zhuǎn)移大文件(Wood說見過700MB/秒的技術(shù))的開源項(xiàng)目合作。此外,亞馬遜還取消了傳入數(shù)據(jù)的收費(fèi),并開啟了并行上傳功能。此外亞馬遜還與數(shù)據(jù)中心運(yùn)營者合作啟動了直連項(xiàng)目(Direct Connect Program),為亞馬遜AWS設(shè)施提供專線連接。

最后,如果客戶的數(shù)據(jù)量實(shí)在太大,網(wǎng)速又不夠快,還可以直接將存有數(shù)據(jù)的硬盤快遞給亞馬遜。

協(xié)作是未來趨勢

當(dāng)數(shù)據(jù)遷移到云端后,就開啟了一種全興的協(xié)作方式,研究人員,乃至整個行業(yè)都能訪問和分享這些過去因體量太大而無法移動的數(shù)據(jù)。一些產(chǎn)生海量數(shù)據(jù)的行業(yè)已經(jīng)開始在云端分享數(shù)據(jù),例如AWS上已經(jīng)托管的1000個基因組項(xiàng)目。

dnanexus

DNAnexus的云架構(gòu)

遺傳學(xué)項(xiàng)目從云計(jì)算中受益匪淺,雖然AWS上的1000個基因組項(xiàng)目的數(shù)據(jù)庫只有200TB,但是單個項(xiàng)目很少有足夠的預(yù)算存儲這么多數(shù)據(jù)并與同事分享。即使在資金充裕的醫(yī)藥領(lǐng)域,亞馬遜CTO Werner Vogels曾說過,醫(yī)藥企業(yè)正在使用云計(jì)算分享數(shù)據(jù),企業(yè)們也無需花費(fèi)時間和金錢"重新發(fā)明車輪"。

不再需要超級計(jì)算機(jī)?

Wood對亞馬遜高性能計(jì)算客戶在AWS平臺上的工作印象深刻 這些工作過去必須依賴超級計(jì)算機(jī)才能完成。這要感謝AWS的合作伙伴Cycle Computing,維斯康辛大學(xué)如今在AWS上能夠一周內(nèi)完成過去需要116年的計(jì)算任務(wù)。AWS正在不斷增加實(shí)例的配置和性能,從最大的250GB內(nèi)存到GPU集群計(jì)算實(shí)例,AWS都將提供。出于成本的考慮,AWS目前僅在一部分市場提供集群計(jì)算實(shí)例和Elastic MapReduce。

如今很多運(yùn)行數(shù)據(jù)密集型工作負(fù)載的企業(yè)都開始將目光投向云計(jì)算。大數(shù)據(jù)(尤其是Hadoop)和云計(jì)算年紀(jì)相仿,相輔相成,可謂天作之合。

分享到

zhoumaosheng

相關(guān)推薦