Serengeti項(xiàng)目結(jié)構(gòu)圖

Serengeti項(xiàng)目不僅了解如何對核心Hadoop服務(wù)器進(jìn)行虛擬化及復(fù)制,在處理HDFS之上的HBase數(shù)據(jù)庫倉儲系統(tǒng)方面同樣得心應(yīng)手。它能以主動(dòng)及熱備份副本方式處理HMaster節(jié)點(diǎn)的數(shù)據(jù)倉儲內(nèi)容,更能在數(shù)據(jù)倉儲與HDFS相結(jié)合時(shí)實(shí)現(xiàn)HBase RegionaServer的向外擴(kuò)展。這些功能都已經(jīng)在今年四月Serengeti 0.8.0版本中出現(xiàn)。

現(xiàn)在,VMware正加緊時(shí)間將Serengeti投付生產(chǎn)。在今天于圣何塞舉辦的Hadoop峰會上,虛擬化巨頭將公布一套ESXi管理程序子集的測試版本以及名為Big Data Extensions的vSphere插件(這是第一款針對Serengeti的商用支持方案)。VMware公司產(chǎn)品管理高級主管Fausto Ibarra在接受El Reg網(wǎng)站采訪時(shí)指出,Big Data Extensions將以免費(fèi)形式出現(xiàn)在vSphere的下一個(gè)版本中——“免費(fèi)”這個(gè)詞從VMware嘴里說出來可有點(diǎn)新鮮。預(yù)計(jì)vSphere新版本(可能是5.2)將在8月底的VMworld大會上亮相,并于秋末正式上市。

大家可以點(diǎn)擊此處下載該插件,并將其與ESXi及vSphere 5.1配合使用。

根據(jù)Ibarra的說明,商用Serengeti軟件無需VMware的分布式資源調(diào)度(簡稱DRS)插件的支持即可直接與ESXi或者vCenter控制機(jī)制協(xié)作,從而在HDFS及HBase上實(shí)現(xiàn)彈性功能。但配合DRS,“它將可以更好地發(fā)揮作用。”其中含義目前尚不明確。

Big Data Extensions已經(jīng)確定可與開源Apache Hadoop 1.2堆棧、Cloudera CDH 3.X與4.2、MapR 2.1.3、Hortonworks Data Platform 1.3以及Pivotal 1.3全系列并行協(xié)作。

零售商、高科技客戶以及金融機(jī)構(gòu)已經(jīng)開始使用該項(xiàng)目

Ibarra同時(shí)指出,有趣的是客戶們已經(jīng)開始通過兩種途徑接納Serengeti。那些對ESXi較為熟悉的客戶利用它對服務(wù)器進(jìn)行虛擬化,從而將Hadoop引入虛擬存儲池。而另一些擁有物理Hadoop集群的客戶則開始嘗試?yán)肰Mware的管理程序及工具對Hadoop及其它工作負(fù)載進(jìn)行虛擬化。

Ibarra并未透露將Serengeti作為原型方案或引入生產(chǎn)系統(tǒng)的企業(yè)客戶的具體數(shù)量,但大型零售商、高科技產(chǎn)品制造商、金融服務(wù)企業(yè)以及新興企業(yè)已經(jīng)開始在商業(yè)版本推出之前著手嘗試。

鑒于Hadoop的開源特性,Serengeti在起步階段的表現(xiàn)至關(guān)重要。開源項(xiàng)目對于客戶往往具備強(qiáng)大的吸引力,而Hadoop發(fā)行商Hortonworks、Linux發(fā)行商紅帽以及OpenStack云控制器發(fā)行商Mirantis已經(jīng)準(zhǔn)備聯(lián)手推出Svanna項(xiàng)目,旨在以O(shè)penStack及KVM管理程序?yàn)榛A(chǔ)實(shí)現(xiàn)Hadoop虛擬化。

除了帶來生產(chǎn)級Serengeti工具前瞻之外,VMware還將在今天公布大型大數(shù)據(jù)處理方案Pivotal HD 1.0發(fā)行版,這是VMware開發(fā)的首個(gè)支持Hadoop Virtual Extensions(簡稱HVE)代碼的商用版本,可以算作贈(zèng)予Apache Hadoop項(xiàng)目的一份厚禮。HVE不僅能使Hadoop模塊實(shí)現(xiàn)虛擬化識別能力,更是Serengeti良好起效的必要前提。

下面我們通過實(shí)例看看HVE的工作機(jī)制。如果大家在Hadoop集群中擁有兩個(gè)虛擬數(shù)據(jù)節(jié)點(diǎn),且二者處于同一臺物理服務(wù)器當(dāng)中,那么它們彼此能夠識別出對方的存在;這意味著它們可以通過內(nèi)存總線進(jìn)行通信,從而獲得比傳統(tǒng)虛擬化網(wǎng)絡(luò)端口更快的溝通速度。

再來看另一個(gè)例子。Hadoop習(xí)慣為數(shù)據(jù)塊保留三份副本,這主要是出于性能及可靠性的考量。HVE會將其中兩份數(shù)據(jù)副本保存在同一臺物理服務(wù)器當(dāng)中,但對于第三份副本則會刻意保存在另一臺位于其它機(jī)架中的服務(wù)器端。

Ibarra表示,HVE代碼是Apache Hadoop項(xiàng)目的一部分,所有發(fā)行版都將在未來幾個(gè)月內(nèi)將其納為自身方案的組成部分。我們還不清楚HVE會對Savanna項(xiàng)目造成何種影響,但它也許能夠以相同的方式與KVM及OpenStack相對接。

通過上周MapR Hadoop發(fā)行版及數(shù)周前Cloudera的認(rèn)證,Pivotal HD 1.0已經(jīng)確定能夠運(yùn)行在ESXi環(huán)境下。目前Hortonworks發(fā)行版是否受到支持還沒有定論,但鑒于Savanna項(xiàng)目與Serengeti/BDE的競爭關(guān)系,二者之間恐怕很難攜起手來。

分享到

zhenglei

相關(guān)推薦