首先他認(rèn)為 今天大數(shù)據(jù)和云結(jié)合在一起了,而且這是非常合理的一個(gè)結(jié)合。
自己的電腦和一些存儲(chǔ),以及一些計(jì)算的能夠或者是內(nèi)存或者是硬盤存儲(chǔ)和網(wǎng)絡(luò)。將所有的電腦放到一起,尤其是在一個(gè)典型的大數(shù)據(jù)的群集里面,你需要考慮所有的矢量,把所有矢量的資源放在一起需要有一個(gè)架構(gòu),這就是所謂的云框架。
Hadoop的數(shù)據(jù)是非常重要的一點(diǎn)。一般來說有三種方法來應(yīng)對(duì)處理和存儲(chǔ),一種方法是實(shí)時(shí)的分析工具,同時(shí)還有一些數(shù)據(jù)的操作性的工作。也就是說得到了什么到底怎么做?同時(shí)還需要進(jìn)行對(duì)數(shù)據(jù)的操作,這需要處理多種不同的數(shù)據(jù)得到一個(gè)結(jié)果,這就是Hadoop在早期的時(shí)候超越其他工具的地方。而且我們必須要處理數(shù)據(jù),用這個(gè)數(shù)據(jù)來在培訓(xùn)過程中引用到,或者引用來進(jìn)行一些可視化,幫助來使用一些??赡茉诖髷?shù)據(jù)的時(shí)代我們確實(shí)有這個(gè)機(jī)會(huì)來把一些工作的負(fù)擔(dān)和一些傳統(tǒng)的數(shù)據(jù)處理從傳感器這方面進(jìn)行轉(zhuǎn)換,不僅僅只是在實(shí)時(shí)地互動(dòng)的方式來處理,我們必須進(jìn)行可視化的工作,這就是VMware工作的背景。
有基礎(chǔ)設(shè)施的層面還有云的基礎(chǔ)設(shè)施,中間的這層叫數(shù)據(jù)層,我們?cè)谶@里有很多的分布式的文件的系統(tǒng)還有很多的大數(shù)據(jù)存在在里面,而且還會(huì)有一些彼此纏繞在一起的數(shù)據(jù),而且還有計(jì)算機(jī)層。在左側(cè)可以有實(shí)時(shí)處理數(shù)據(jù)的能力。這些都是Hadoop、英特爾等范圍以內(nèi)的。基礎(chǔ)結(jié)構(gòu)方面可以有多個(gè)不同的部分,包括本地的和一些共享的存儲(chǔ)的能力。還有一些分布式的管理的系統(tǒng)。所以我們可以看到這里有多個(gè)不同的管理。如果我們來看一下,這種實(shí)時(shí)的虛擬的基礎(chǔ)設(shè)施的架構(gòu)首先可以看到有人談到了美國(guó)的應(yīng)用我們對(duì)數(shù)據(jù)庫(kù)進(jìn)行了安裝,我們可以看到有很多不同的集群建立起來了,它是遍布整個(gè)的公司和組織的。有時(shí)候可以用,有時(shí)候并不是可以充分地利用。所以它們需要更多的空間,因?yàn)樗麄円鎯?chǔ)更多的數(shù)據(jù),也是因?yàn)閿?shù)據(jù)計(jì)算的能力在增加。所以資源并沒有完全地用到,因此虛擬的架構(gòu)是非常重要的。
一個(gè)單一的性能環(huán)境可能是運(yùn)行的是NPP的運(yùn)營(yíng)或者是Hadoop的集群或者是其他的集群,而且它還能夠?qū)⒋鎯?chǔ)和計(jì)算的能力獨(dú)立進(jìn)行。其中一個(gè)集群運(yùn)行得比其他的更長(zhǎng)更熱,就可以進(jìn)行應(yīng)用,這是云的基礎(chǔ)架構(gòu)能夠,特別是在私有的運(yùn)行情況下可以運(yùn)行得更好。而且在某一個(gè)APP的環(huán)境Hadoop是一個(gè)獨(dú)立的集群,也許它管理起來并不是那么容易,雖然效率并不是很高,但它是獨(dú)立運(yùn)行的,把它放在一起可以看到是單一數(shù)據(jù)的分享。但是如果彼此在一起運(yùn)行的話是做得很好的,首先如果我做的是很復(fù)雜的計(jì)算我不希望有人進(jìn)入我只是希望有人做這個(gè)動(dòng)作,控制這個(gè)過程,避免產(chǎn)生一些噪音和雜音,如果問一個(gè)問題可能后面的人要等很久,這樣要用到不同的集群,這樣要把整個(gè)的虛擬化應(yīng)用起來可以幫助我們解決很好的問題。
最重要的是安全的優(yōu)化,要運(yùn)行各種不同的運(yùn)行,但這并不意味著我們有一些私有的信息,當(dāng)然我們還要遵守信息的隱秘性,如果客戶有要求的話。如果我們?cè)谔摂M的系統(tǒng)中可能也有這樣的問題,所以這也是在虛擬環(huán)境中解決的問題,這樣的一些元素和問題包括了其可視化,這是可以幫助我們解決的,但確實(shí)也需要從資源的分享中獲得更好的益處。而且我們也看到了很多的數(shù)據(jù),把它放到了云的計(jì)算中,比如說基礎(chǔ)設(shè)施可能是同一個(gè)基礎(chǔ)架構(gòu)對(duì)資源進(jìn)行分享。但在分享存儲(chǔ)這方面可以看到有一些大數(shù)據(jù)都可以有一些優(yōu)勢(shì),但問題并不是完全需要這樣的。資源的分享、存儲(chǔ)的分享確實(shí)是可以的,你可以用SAN或者是NAS進(jìn)行分享,你可以對(duì)集群進(jìn)行評(píng)論的工作,還可以幫助你不斷地改善虛擬的架構(gòu)。但是,并不是完全地需要這么做,還可以用本地的存儲(chǔ),可以用本地的磁盤。
對(duì)Hadoop來說它可以給你更多的可擴(kuò)展的帶寬,所以有很重要的選項(xiàng)。最重要的是把資源進(jìn)行簡(jiǎn)化,并不把它對(duì)某種方式進(jìn)行鎖定才能進(jìn)行這種工作。
在這個(gè)行程中我們也看到了一些合作的人,如何對(duì)他們進(jìn)行可視化,所以我們確實(shí)非常相信計(jì)算中有很多大數(shù)據(jù)的應(yīng)用。第一,能夠運(yùn)行簡(jiǎn)化,可以幫助我們做很好的準(zhǔn)備。也可以幫助我們很好地進(jìn)行生命周期的管理,如果是一個(gè)生命周期的管理可以很好地對(duì)其進(jìn)行管理,而且可以很好地確定把一個(gè)集群進(jìn)行整合,而且需要進(jìn)行一些重新配置,所以并不一定是有虛擬的需求,它們都是虛擬的。因此這是一個(gè)集合資源的過程,運(yùn)行起來更簡(jiǎn)單。第二,可運(yùn)行性、可用性很高。這樣的話可以運(yùn)行一些基礎(chǔ)設(shè)施進(jìn)行優(yōu)化,而且我們可以看到在技術(shù)這方面虛擬技術(shù)可以幫助你達(dá)到很高的容忍度,而且并不需要人類的處理。放在潛在的平臺(tái)中,所以能夠用到這樣的系統(tǒng)。用現(xiàn)有的Hadoop的版本把它放在其他的版本之上,我并不需要對(duì)它進(jìn)行改變,只需要對(duì)潛在的架構(gòu)進(jìn)行運(yùn)行就可以了。這也是很高的可是度的優(yōu)勢(shì)。另外計(jì)算中很重要的概念是,一個(gè)多功能性。
在中國(guó)的新年期間我們會(huì)做更多的工作,而且可以同時(shí)做更多的工作,不一定是我在用還有其他的人在用,可以很彈性地把能力進(jìn)行收縮或者是增大。而且我們可以通過現(xiàn)有的數(shù)據(jù)知道這里有很多VMDisk,可以把資源集成在云資源中,而且可以把Hadoop的能力運(yùn)行多個(gè)集群,這種能力是非常重要的一個(gè)因素,也是為什么我們這么多的投資于Hadoop的開發(fā)之中的原因。再談一些經(jīng)驗(yàn),我們用了典型的Hadoop的25節(jié)點(diǎn)的集群,有20個(gè)磁盤,這在一個(gè)Hadoop的集群中是很典型的應(yīng)用,它是非常經(jīng)典的Hadoop的應(yīng)用。我們還測(cè)量了有多長(zhǎng)的時(shí)間,我們運(yùn)行了這樣的一些系統(tǒng),而且進(jìn)行了測(cè)試。這樣一個(gè)虛擬的點(diǎn)。我們?cè)谕瑯拥南到y(tǒng)中消耗同樣的資源來運(yùn)行的。
可能它要超過一點(diǎn),那么看一下它有不同的特點(diǎn),例如說它是虛擬的,好像是24個(gè)機(jī)器,但實(shí)際上可能會(huì)有48個(gè)是同樣的配置嗎?我們?cè)賹?duì)它進(jìn)行測(cè)試,它沒有改變?nèi)魏蔚臇|西為什么會(huì)這樣?為什么會(huì)得到的結(jié)果更好呢?但發(fā)生的事情是對(duì)資源的安排,有時(shí)候會(huì)把情況變得更好,更好的簡(jiǎn)化和可視化。它沒有改變?nèi)魏我恍蠬adoop的代碼,這是第一個(gè)需要看到的問題。
VMware把所有的暫時(shí)的文件放在本地的磁盤中,之后在輸出這方面放在了分享磁盤上,所以極大地增加了工作的效率,同時(shí)也可以很好的支持可擴(kuò)展的帶寬,同時(shí)也可以把你的成本控制在一個(gè)很合理的水平上,使你的股東可以接受,所以你并不一定選擇一個(gè),但可以從這方面獲益幫助提高運(yùn)行的效率。