公開信中表示:工業(yè)革命后的200多年里,人類對(duì)物理資源的利用登峰造極,對(duì)數(shù)據(jù)資源的利用卻仍處于起步階段。Google、Facebook、阿里巴巴等互聯(lián)網(wǎng)公司先行一步,觸碰到了大數(shù)據(jù)的魅力。然而,人類擁有的絕大部分?jǐn)?shù)據(jù)還無(wú)法產(chǎn)生價(jià)值。

采用傳統(tǒng)方案處理大規(guī)模數(shù)據(jù),一般得耗資數(shù)千萬(wàn)自建數(shù)據(jù)中心,請(qǐng)專業(yè)技術(shù)人員維護(hù)運(yùn)作。一旦數(shù)據(jù)總量超過100TB,技術(shù)挑戰(zhàn)會(huì)非常大。Hadoop開源運(yùn)動(dòng)降低了這一成本,不過自建一個(gè)像樣的Hadoop集群,仍然需要上百萬(wàn)的起步資金。專業(yè)的Hadoop人才則更加稀缺。

相比而言,使用ODPS的成本和門檻則低得多。ODPS采取按量收費(fèi)的模式,目前定價(jià)0.3元/GB,即開即用,一個(gè)月內(nèi)免費(fèi)。根據(jù)大部分公司的數(shù)據(jù)量來(lái)測(cè)算,一般每月只需花費(fèi)數(shù)百元。

在對(duì)外商用之前,ODPS一直是阿里巴巴內(nèi)部的秘密武器。阿里小貸最先將ODPS應(yīng)用到商業(yè)領(lǐng)域。如今,超過36萬(wàn)人從阿里小貸借款,最小貸款額為1元,并實(shí)現(xiàn)3分鐘申請(qǐng)、1秒放款、0人工干預(yù)。要做到這一點(diǎn),阿里小貸每天得處理30PB數(shù)據(jù),包括店鋪等級(jí)、收藏、評(píng)價(jià)等800億個(gè)信息項(xiàng),運(yùn)算100多個(gè)數(shù)據(jù)模型,甚至得測(cè)評(píng)小企業(yè)主對(duì)假設(shè)情景的掩飾和撒謊程度。阿里小貸每筆貸款成本3毛錢,不到普通銀行的1/1000。

據(jù)悉,淘寶、支付寶等阿里巴巴最核心的數(shù)據(jù)業(yè)務(wù),都運(yùn)行在ODPS平臺(tái)。比如阿里媽媽廣告的核心算法,點(diǎn)擊預(yù)測(cè)模型的訓(xùn)練等。ODPS商用,意味著阿里云將這種大數(shù)據(jù)處理能力對(duì)外開放,此舉將大幅降低社會(huì)創(chuàng)新成本。

在公共領(lǐng)域,ODPS也具備廣泛應(yīng)用的潛力:華大基因利用ODPS進(jìn)行基因測(cè)序,耗時(shí)不到傳統(tǒng)方式的十分之一,未來(lái)一旦爆發(fā)生物危機(jī),可以為人類贏得寶貴的破譯時(shí)間;藥監(jiān)部門利用ODPS,全程監(jiān)管藥品流向,解決假藥問題。“我們期待未來(lái)每一桶油、每一道菜的數(shù)據(jù)都跑在ODPS上,食品安全問題需要通過創(chuàng)新的方式來(lái)解決。”

目前,全球提供類似服務(wù)的僅有Google和亞馬遜,國(guó)內(nèi)尚無(wú)同類產(chǎn)品可供比較。阿里云方面表示,ODPS將比Google BigQuery更強(qiáng)大,不僅支持更豐富的SQL語(yǔ)法,還將提供MapReduce編程模型和機(jī)器學(xué)習(xí)建模能力,可以服務(wù)更多應(yīng)用場(chǎng)景。

阿里云計(jì)算最重要的一款產(chǎn)品——ODPS,正式開放商用。從今天起,花個(gè)幾百塊錢,人人都能來(lái)玩大數(shù)據(jù)。

簡(jiǎn)單來(lái)說,ODPS(Open Data Processing Service)是一項(xiàng)Web服務(wù),大家不用花大錢建數(shù)據(jù)中心,就能分析海量數(shù)據(jù)。我們測(cè)過,100PB的數(shù)據(jù)任務(wù)可在6小時(shí)內(nèi)跑完。這個(gè)數(shù)據(jù)量相當(dāng)于1億部高清電影。

工業(yè)革命后的200多年里,人類對(duì)物理資源的利用登峰造極。第一次信息革命過去70年了,我們對(duì)數(shù)據(jù)資源的利用卻只是剛開了頭。Google、Facebook、阿里巴巴等先行一步,摸到了大數(shù)據(jù)的冰山一角。然而,人類擁有的大部分?jǐn)?shù)據(jù),還無(wú)法產(chǎn)生價(jià)值。

如何讓數(shù)據(jù)產(chǎn)生價(jià)值?先得擁有大規(guī)模處理能力,然后才是挖掘、算法和分析。傳統(tǒng)的做法是這樣的:租個(gè)機(jī)房,買一堆昂貴的設(shè)備搭建數(shù)據(jù)倉(cāng)庫(kù),再請(qǐng)一幫技術(shù)人員來(lái)維護(hù)運(yùn)轉(zhuǎn)。一旦觸發(fā)bug,或者當(dāng)數(shù)據(jù)總量超過100TB時(shí),你的工程師們可能會(huì)被這些麻煩搞崩潰。

Hadoop開源系統(tǒng)很偉大,大大降低了成本。阿里是中國(guó)玩Hadoop玩得最好的幾家公司之一,Hadoop支撐了淘寶、支付寶早期業(yè)務(wù)的快速發(fā)展。不過,自建一個(gè)像樣的Hadoop集群,得百萬(wàn)起步資金,專業(yè)的Hadoop人才更是稀缺。門檻還是太高。

有沒有更好的方案?從2009年初,寫下“飛天”第一行代碼時(shí),我們就堅(jiān)信這一方案存在。我們用了五年時(shí)間,寫下250萬(wàn)行代碼,終于在自主研發(fā)的“飛天”平臺(tái)上成功搭建ODPS。我們把數(shù)據(jù)海洋里的“水”灌進(jìn)ODPS,設(shè)定好一套參數(shù),擰開水龍頭,出來(lái)的就是“鮮榨果汁”!

100年前,福特推出了全球第一條流水生產(chǎn)線。一個(gè)個(gè)零部件扔進(jìn)流水線,90分鐘后,一輛嶄新的汽車擺在面前。不知道福特工程師們當(dāng)時(shí)是怎樣的心情。當(dāng)我們擰開ODPS的水龍頭時(shí),感受大抵如此。這個(gè)比喻還不完全恰當(dāng),福特生產(chǎn)線只為福特服務(wù),一條生產(chǎn)線也只能生產(chǎn)一種車型。而ODPS任何人都可以來(lái)用,水龍頭里流出來(lái)的“果汁”,隨著原始數(shù)據(jù)和算法的改變可以千變?nèi)f化。

我們來(lái)看看ODPS都可以榨哪些“果汁”吧。

ODPS之前一直在阿里內(nèi)部試用。第一個(gè)“小白鼠”是阿里小貸。你見過敢貸1塊錢給你的銀行嗎?如今,超過36萬(wàn)人從阿里小貸借款,最小貸款額1塊錢,并實(shí)現(xiàn)3分鐘申請(qǐng)、1秒放款、0人工干預(yù)。要做到這一點(diǎn),阿里小貸每天得處理30PB數(shù)據(jù),包括店鋪等級(jí)、收藏、評(píng)價(jià)等800億個(gè)信息項(xiàng),運(yùn)算100多個(gè)數(shù)據(jù)模型,甚至得測(cè)評(píng)小企業(yè)主對(duì)假設(shè)情景的掩飾和撒謊程度。另外,阿里小貸每筆貸款成本3毛錢。什么?你問普通銀行的貸款成本?先乘個(gè)1000再說。

華大基因,2003年國(guó)內(nèi)抗SARS研究的主力軍。去年,我們邀請(qǐng)華大在ODPS上試了下基因測(cè)序,耗時(shí)不到傳統(tǒng)方式的十分之一。2010年,歐洲E.coli污染危機(jī),測(cè)序和組裝耗時(shí)兩天以上。如果用ODPS,只要幾個(gè)小時(shí)甚至幾十分鐘。一旦未來(lái)真有生物危機(jī)爆發(fā),人類可以贏得寶貴的破譯時(shí)間。

這么高精尖的領(lǐng)域你可能覺得太遙遠(yuǎn)。說說當(dāng)前最火的世界杯吧。Google拿英國(guó)體育數(shù)據(jù)提供商Opta Sports的數(shù)據(jù),在BigQuery上跑了跑,成功預(yù)測(cè)了本屆世界杯8強(qiáng)名單。ODPS是一款跟Google BigQuery類似的產(chǎn)品,如果哪位有數(shù)據(jù),也可以來(lái)算一算接下來(lái)的比賽。

公共領(lǐng)域的數(shù)據(jù)挖掘,可以用ODPS嗎?當(dāng)然!結(jié)合中國(guó)氣象局的精準(zhǔn)預(yù)報(bào)數(shù)據(jù),高德地圖不久后就能告訴你:“前方道路已嚴(yán)重積水,您的車輛駛?cè)肟赡軙?huì)遭水淹,建議繞道行駛。”如今,每盒藥品上都有一張電子身份證,從生產(chǎn)、流通、儲(chǔ)存、配送、銷售到使用,全過程的數(shù)據(jù)都跑在ODPS上,一旦發(fā)現(xiàn)問題藥品,監(jiān)管部門可以立即采取措施。我們期待未來(lái)每一桶油、每一道菜的數(shù)據(jù)都跑在ODPS上,食品安全問題需要通過創(chuàng)新的方式來(lái)解決。

生產(chǎn)電飯煲的工廠,應(yīng)該跟ODPS沒什么關(guān)系吧?別說,未來(lái)還真可能有關(guān)系。手機(jī)、電視、手表、汽車、空調(diào)……這些工業(yè)時(shí)代的經(jīng)典產(chǎn)品,現(xiàn)在都變成了互聯(lián)網(wǎng)終端。誰(shuí)說電飯煲、鞋子、衣服不會(huì)呢?如果未來(lái)的制造工廠都變成互聯(lián)網(wǎng)公司,數(shù)據(jù)將成為最基本的生產(chǎn)要素。你不懂算法、不會(huì)建模、不會(huì)分析,沒關(guān)系,那些有數(shù)據(jù)分析能力的公司會(huì)幫你做。

眼下,阿里巴巴各項(xiàng)數(shù)據(jù)業(yè)務(wù)都在用ODPS“榨果汁”,比如淘寶在算你最中意哪個(gè)淘女郎,天貓?jiān)谒隳闶裁磿r(shí)候想吃車?yán)遄?,菜鳥在算卡車走哪條路可能會(huì)被雷劈,支付寶在算你何時(shí)會(huì)從屌絲變成高富帥。如果大家也想“榨果汁”,歡迎來(lái)試。ODPS的水龍頭就裝在阿里云官網(wǎng)aliyun.com上,一個(gè)月內(nèi)免費(fèi)。

The World Is Flat. 從某種意義上而言,人人都可以成為BAT,哪怕你的公司只有幾號(hào)人。我們希望,在技術(shù)這件事情上,大家變得更加平等!

阿里云ODPS團(tuán)隊(duì)

2014年7月8日

分享到

zhoujianding

相關(guān)推薦