朱金生提到雅虎的使命有三點(diǎn):首先是怎么能夠讓檢查郵件、共享文件信息、照片或者是郵件等,怎么能夠讓大家的活動(dòng)變得越來越有趣。第二,這些日常的習(xí)慣怎么能夠從基于網(wǎng)站轉(zhuǎn)換到基于移動(dòng)設(shè)備。所以在雅虎上我們認(rèn)為自己是全面的移動(dòng)技術(shù)的供應(yīng)商。另外,除了雅虎提供的資產(chǎn)還有內(nèi)容,我們?nèi)绾螢榭蛻籼峁└玫姆?wù),而且找到合適的方式提高用戶的體驗(yàn)。第三,雅虎廣告業(yè)。雅虎怎么能提供計(jì)算廣告和數(shù)碼的合作伙伴,雅虎怎么能更好地服務(wù)。這一點(diǎn)是非常重要的。Hadoop是雅虎的核心所在,所以你每在門戶上點(diǎn)擊一下都會(huì)通過Hadoop知道,Hadoop的云端部署也是全球最大的。他想強(qiáng)調(diào)了雅虎在Hadoop社區(qū)的定位,完全開放地?fù)肀н@個(gè)社區(qū),同時(shí)支持Hadoop的工作,除了站之外還包括核心。另外,雅虎也會(huì)最好地支持整個(gè)的社區(qū),更好地利用高性能計(jì)算。

就云端而言雅虎每個(gè)月有10億訪問量,7億的常規(guī)的用戶,但一定要需要建立一個(gè)架構(gòu),這個(gè)架構(gòu)處理數(shù)據(jù)一定要效率高,包括了線下的以及線上的搜索,這個(gè)規(guī)模是巨大的。怎么把這個(gè)核心拓展,這也是和計(jì)算相關(guān)的問題,雅虎也看到的確是存在問題,但雅虎也會(huì)提供解決方案,這樣的解決方案是我們可以遇到的,這樣的問題我們每天都會(huì)遇到。最后是怎么能找到一個(gè)最好的社區(qū)比如說我們不僅僅為Hadoop做貢獻(xiàn),同時(shí)也有繼續(xù)在未來努力做進(jìn)一步貢獻(xiàn)的項(xiàng)目。所以完全歡迎開源社區(qū),同時(shí)Hadoop會(huì)繼續(xù)作出承諾,而且在未來看到會(huì)有更多的可能性。

所以這些是比較有趣的數(shù)字,現(xiàn)在雅虎有42000個(gè)節(jié)點(diǎn),在全球生產(chǎn)的最大的服務(wù)器就是Hadoop的部署。另外,我們也要推出一些新的版本看問題存在于哪兒,同時(shí)來增加數(shù)據(jù)的價(jià)值。在研究里面有各方面的創(chuàng)新,在各個(gè)階段集群中都會(huì)有一些研究,所以這個(gè)工作流是這樣的,開發(fā)者先進(jìn)行研究之后進(jìn)行數(shù)據(jù)分析找到一個(gè)模型,最后會(huì)做口袋測試之后進(jìn)行完全的推出,這是整個(gè)的流程,現(xiàn)在我們的集群大概還是有4萬多個(gè)節(jié)點(diǎn),接下來還希望再增加一萬個(gè)節(jié)點(diǎn)。這些都是用戶的數(shù)字每天有300多個(gè)增加,基本上是1000萬個(gè)jobs/h。所以大家在互聯(lián)網(wǎng)行業(yè)對(duì)此都比較熟悉,Hadoop能做什么。雅虎用Hadoop做搜索和行為分析。Hadoop在雅虎中是無處不在的,這是由于搜索的,雅虎有很多的E-mail用戶,Hadoop可以幫助雅虎更好地使用避免網(wǎng)絡(luò)釣魚和垃圾郵件。

雅虎怎么能提供更有效而且更個(gè)性化的體驗(yàn),不僅僅是內(nèi)容也包括了廣告無論是個(gè)人還是社會(huì)客戶的體驗(yàn)來說都是非常相關(guān)的,比如說電視、網(wǎng)站或者說是平板電腦或者是在手機(jī)上都是如此。

這更多是關(guān)于Hadoop未來架構(gòu)的介紹了,有怎樣潛在的工作負(fù)載。今天談到的是HPC,朱金生用案例來比較一下Hadoop計(jì)算的差異。我們現(xiàn)在有這樣的趨勢,這樣的趨勢都知道存在海量的數(shù)據(jù),而且數(shù)據(jù)量在不斷地增加。所以,數(shù)據(jù)基本上是每18個(gè)月就以成倍的速度增加,我們?cè)趺刺幚磉@些數(shù)據(jù)呢?尤其是很多的數(shù)據(jù)是通過各個(gè)設(shè)備來搜集起來的。所以Hadoop是有非常好的生態(tài)系統(tǒng)的,因?yàn)橛泻芏嗟钠髽I(yè)或者是公司都對(duì)Hadoop開始逐漸地產(chǎn)生了興趣。所以說,現(xiàn)在是非常好的生態(tài)環(huán)境。從雅虎的定位角度來說,我們也是希望能夠作出貢獻(xiàn),而且我們也希望能夠投入之后有回報(bào),所以這是一個(gè)互惠的投入和產(chǎn)出。另外我們也希望整個(gè)行業(yè)也是從中獲益,雅虎也可以從中獲益。

另外關(guān)于和線下批量的工作流或者是工作負(fù)荷相比而言,我們也看到越來越多的數(shù)學(xué)或者是戰(zhàn)略性的工作流和負(fù)荷越來越多了,因此我們可以做更為精確、更為數(shù)據(jù)分析型的用戶行為的分析,所以我也看到了在未來,會(huì)看到越來越多的計(jì)算密集型的負(fù)荷會(huì)出現(xiàn)。HPC的角度也是如此的,他們也完全擁抱在Hadoop的高性能計(jì)算。所以有的時(shí)候會(huì)存在困惑,采用拓展還是另外一種方式,所以這也是很多企業(yè)目前在面臨的問題,不管是基于網(wǎng)絡(luò)的企業(yè)還是說基于普通的企業(yè)都是如此。

對(duì)雅虎來說為了能夠更好地找到相關(guān)性強(qiáng)的而且是個(gè)性化的客戶體驗(yàn)的話,我們都知道數(shù)據(jù)是要經(jīng)過周期的,所以怎么能夠利用這些數(shù)據(jù)來幫助客戶找到他們 想要的,這個(gè)變得越來越復(fù)雜,因?yàn)橹苓叺那闆r變得越來越復(fù)雜,我們看到有很多的、實(shí)時(shí)的流、納入到整個(gè)的行業(yè)和架構(gòu)中,實(shí)時(shí)的因素越來越強(qiáng)。

朱金生介紹三個(gè)思維范式的轉(zhuǎn)換,第一是關(guān)于技術(shù)方面的。第二是關(guān)于經(jīng)濟(jì)性和成本的,第三是關(guān)于行為上的范式的轉(zhuǎn)變。在未來處理器的變化越來越快。新 的業(yè)務(wù)模式成本也需要考慮,比如說獲取數(shù)據(jù)的成本在未來是希望能夠把它減少為0?,F(xiàn)在的數(shù)據(jù)越來越多了,成本怎么能降下去呢?如果有比較好的業(yè)務(wù)模式,數(shù) 據(jù)的獲取基本上是可以減少為0的。第三,用戶的傾向是愿意分享數(shù)據(jù),他們自己的數(shù)據(jù),把他們的數(shù)據(jù)從自己的PC、自己的手機(jī)推送到網(wǎng)絡(luò)。同時(shí),他們也希望 能夠在任何時(shí)候都能夠訪問自己個(gè)人的數(shù)據(jù),所以這點(diǎn)變得越來越復(fù)雜,不單單對(duì)雅虎對(duì)整個(gè)行業(yè)來說都是如此。

這意味著什么?對(duì)我來說是三件事,首先從架構(gòu)的角度來說。對(duì)計(jì)算會(huì)產(chǎn)生一定的影響,對(duì)數(shù)據(jù)也會(huì)產(chǎn)生一定的影響,對(duì)滯后率也會(huì)產(chǎn)生影響。從計(jì)算的角度 上可以做四件事,如果是一個(gè)程序員有關(guān)鍵資源UI,在一個(gè)特定的情況下來運(yùn)行自己的UI,所以說有一些東西在訪問的時(shí)候是排他性的,但對(duì)大多數(shù)人來說,有 HR的資源,也許是在節(jié)點(diǎn),這就要看我們談?wù)摰氖鞘裁礃拥姆妒搅?。所以有這樣的能力讓怎么能夠?qū)﹃P(guān)鍵的資源來說保護(hù)事實(shí)上也是非常重要的。比如說你不想做 UI的接口。另外,現(xiàn)在有越來越多的能力來處理更大的數(shù)據(jù)集。在所有的節(jié)點(diǎn)上即便是在同樣的節(jié)點(diǎn)上,也可以看到CPU也是以同樣的方式來運(yùn)行。當(dāng)然了,你 也可以做安排,也可以工作負(fù)荷的平衡。另外還有批處理?,F(xiàn)在來說怎么做批的處理呢?即便是在單個(gè)節(jié)點(diǎn)上或者是跨節(jié)點(diǎn)上CPU的利用率相對(duì)而言還是比較低 的。所以所有的額外的帶寬意味著什么?也許我們可以做其他的工作可以預(yù)測用戶下一步想要什么之后來使用。

接下來看數(shù)據(jù),數(shù)據(jù)是比較有趣的它會(huì)以周期的形式來運(yùn)行,首先是數(shù)據(jù)搜集和采集之后,如果是原始數(shù)據(jù)的話可能要對(duì)它進(jìn)行處理,之后再計(jì)算。之后可以 減少數(shù)據(jù)之后再集合這些數(shù)據(jù)。有的時(shí)候可以非常容易地來進(jìn)行模擬,當(dāng)然了有的時(shí)候有不同版本的數(shù)據(jù),尤其是在計(jì)算完之后有不同版本的數(shù)據(jù),這些都是和數(shù)據(jù) 相關(guān)的。

最后一塊是latency,它可以用最快的速度來訪問數(shù)據(jù),所以地點(diǎn)是非常重要的,你也希望不管數(shù)據(jù)在哪兒都可以做計(jì)算。另外不同的階段Latency也是非常重要的,你在部署的時(shí)候也是希望有戰(zhàn)略性的,這樣能夠得到最大的效果。所以這基本上是和分布相關(guān)的。

最后企業(yè)也許有不同的數(shù)據(jù)資源,你希望能夠利用這些數(shù)據(jù)做交易,同時(shí)在交易中保證它的完整性,這一點(diǎn)也變得非常地重要。這些是我們新的教學(xué)主張了。和數(shù)據(jù)密集型的工作負(fù)荷相比,可以看到越來越多的負(fù)荷處理變得越來越計(jì)算密集型了。

HPC有超性能計(jì)算,有幾個(gè)NPI相關(guān)的workload,也許數(shù)據(jù)并不是很多,但數(shù)據(jù)之間的計(jì)算是非常密集的。我們之間的互動(dòng)越多結(jié)果就越好,所 以這基本上是對(duì)整個(gè)的計(jì)算的工作負(fù)荷來做計(jì)算。在HPC這邊會(huì)用NPI。所以Hadoop這方面是很相似的。那在Hadoop你可以用高級(jí)別的語言,數(shù)據(jù) 密集型等等。這些都是HPC的工作量和Hadoop的工作量的基本的區(qū)別。

看一下數(shù)據(jù), HPC在他們可以處理的合法數(shù)據(jù),可以數(shù)據(jù)的類別也會(huì)有區(qū)別,HPC部分特別是對(duì)企業(yè)客戶、結(jié)構(gòu)性數(shù)據(jù)、關(guān)系的數(shù)據(jù)庫Hadoop有很多都可以用,所以這 是一個(gè)非結(jié)構(gòu)性的。在架構(gòu)這方面HPC和Hadoop是很近似的,節(jié)點(diǎn)之間有很多的交互。這是有效率運(yùn)行的很重要的一點(diǎn)。而在Hadoop方面是沒有這個(gè) 需要的。

如果建立一個(gè)模型可以慢慢地建,可以把它們用在一些小的數(shù)據(jù)庫上,所以這是一個(gè)很互動(dòng)性的。那么Hadoop是不一樣的,它是時(shí)間很長的而且需要消 耗很長的東西,所以它能夠極大地補(bǔ)充HPC中的很多的功能。HPC是由企業(yè)來推動(dòng)的,也是由科學(xué)來推動(dòng)的,特別是企業(yè)。所以對(duì)華爾街來說經(jīng)常用到HPC的 集群來進(jìn)行金融建模。我早上來到以后看到?jīng)]有進(jìn)展可能就需要再做一次工作,它能夠解決這樣的問題。這是Hadoop目前做的。作為一個(gè)行業(yè)和社區(qū),我們確 實(shí)也在很多的地方用到了HA。當(dāng)然如果你是一個(gè)企業(yè)就需要服務(wù)和集群需要進(jìn)行升級(jí)和打安全補(bǔ)丁。因此我們有很多代碼的要求。Hadoop這方面確實(shí)可以做 很多的工作。但我確實(shí)認(rèn)為有兩個(gè)不同的使用架構(gòu)和使用的情境,我確實(shí)看到HPC和Hadoop可以彼此學(xué)習(xí),而且我確實(shí)認(rèn)為這兩個(gè)是彼此重疊的,未來會(huì)有 很多共同運(yùn)營的機(jī)會(huì)。

HPC能夠幫助減少工作量,而且也能夠訪問大云中的很多數(shù)據(jù),而且還可以有GPGPU的支持,Hadoop也是如此,可以加入fine screen的安排。HPC可以跟Hadoop結(jié)合,而且可以增加HGPGPU的支持。

在HPC的工作量方面朱金生認(rèn)為這里有三個(gè)重要的趨勢,就是在數(shù)據(jù)類別,我們?cè)谶@里談的是什么。這里的L顯示出采用云計(jì)算的可適用性方面使得我們?cè)?來越尷尬,一開始我們有這樣的交易,這并不是一個(gè)數(shù)據(jù)平行化的很好的情況。在下面包括基因的匹配還有一些應(yīng)用,特別是在PCA的領(lǐng)域里,這些都有很多的平 行數(shù)據(jù)可以進(jìn)行,可以分別在不同的地方,最后再來取,這可以稱作是一個(gè)很高程度的數(shù)據(jù)的平行性。在右側(cè)Hadoop可能不會(huì)發(fā)揮作用,但如果看看其他的方 面就可以知道了可以運(yùn)行Hadoop,操作HPC的一些工作,在這種修改之后。

放在一起可以分析HPC和Hadoop之間的區(qū)別。我們談到了三個(gè)重要的類別就是數(shù)據(jù),特別是在數(shù)據(jù)采購這方面,對(duì)互聯(lián)網(wǎng)企業(yè)來說特別市對(duì)一些企業(yè) 的情景等等,都會(huì)有很多的匹配工作需要來分析一下金融模型。在明天開盤之前需要把這些做好,那么潛在性談的是多少的用戶,是一個(gè)用戶或者是幾百萬的用戶都 在同時(shí)用,這里還可以增加一個(gè)架構(gòu)上需要考慮的問題。

但除此之外還有使用的情境,數(shù)據(jù)是有周期性的,有采集的形式和周期,其中包括了一些錯(cuò)誤,我們必須要把它放在一個(gè)適當(dāng)正確形式之中,可以告訴大家數(shù) 據(jù)是沒有問題的,一旦拿到了數(shù)據(jù)可以進(jìn)行集群和不同組織的形式提供不同的組織和觀點(diǎn),而且我們要把數(shù)據(jù)放在不同的地方,這樣才可以用到,比如說可以看到數(shù) 據(jù)的呈現(xiàn),還需要環(huán)境的呈現(xiàn),比如說實(shí)時(shí)的環(huán)境和流的環(huán)境,或者是實(shí)時(shí)的處理是比較好的一種方法。如果我們有全球的用戶在各個(gè)地方都有可能又要考慮到數(shù)據(jù) 的分布,如果說你做的是電子商務(wù)交易的完好性是沒有問題的,我們要確保這其中是沒有問題可以得到很好的執(zhí)行。一旦有商業(yè)執(zhí)行的話,這是非常重要的。

分享到

huanghui

相關(guān)推薦