選擇混合分析環(huán)境
美國(guó)《InfoWorld》 發(fā)表于:13年02月27日 09:12 [轉(zhuǎn)載] DOIT.com.cn
Evernote最終選擇了由Hadoop和ParAccel組成的混合解決方案。目前,一個(gè)10個(gè)節(jié)點(diǎn)的Hadoop集群能夠存儲(chǔ)所有的歷史數(shù)據(jù),以及處理用于分析的數(shù)據(jù)預(yù)處理工作。預(yù)算方面,Hadoop是一個(gè)他們能夠負(fù)擔(dān)得起的解決方案,這要?dú)w功于 Hadoop的開源許可證,及其能夠使用商業(yè)硬件進(jìn)行擴(kuò)展的優(yōu)勢(shì)。
作為一個(gè)MPP分析數(shù)據(jù)庫(kù),ParAccel電子表格能夠以超高的速度進(jìn)行查詢。在Evernote公司中,3個(gè)節(jié)點(diǎn)的ParAccel列式分析數(shù)據(jù)庫(kù)能夠處理對(duì)大量派生表的查詢。作為節(jié)點(diǎn)的SuperMicro服務(wù)器,每個(gè)都配備有兩個(gè)L5630四核處理器、192GB內(nèi)存、10Gbps網(wǎng)絡(luò),以及一個(gè)能夠與Red Hat Enterprise Linux進(jìn)行手動(dòng)配置與設(shè)置的RAID5固態(tài)硬盤。
最后,與主流開源報(bào)告的解決方案一樣,JasperReports也一個(gè)簡(jiǎn)單易用的解決方案。為了查詢 ParAccel服務(wù)器以及生成的多種格式的日?qǐng)?bào),Evernote的團(tuán)隊(duì)選擇了Jaspersoft的開源JasperReports服務(wù)器。(近期 ParAccel和JasperReports服務(wù)器混合環(huán)境也得到了亞馬遜的支持。亞馬遜正使用這兩款工具強(qiáng)化其Redshift托管分析環(huán)境。)
Evernote每天使用JasperReports服務(wù)器生成10多份圖表與報(bào)告
出于安全原因,這一分析環(huán)境被放在了一個(gè)獨(dú)立的網(wǎng)絡(luò)上,并不與生產(chǎn)應(yīng)用服務(wù)器相連。日常在線數(shù)據(jù)通過(guò)一個(gè)單向的網(wǎng)絡(luò)連接被安全地推送到報(bào)告環(huán)境中。
部署Hadoop并協(xié)同工作
全部的原始數(shù)據(jù)首先將發(fā)送至Hadoop。在這里,數(shù)據(jù)將被歸檔并為輸入至ParAccel進(jìn)行日?qǐng)?bào)和分析做好準(zhǔn)備。隨后,Evernote將使用Cloudera Hadoop進(jìn)行分發(fā),并使用Puppet進(jìn)行配置管理。 Hadoop集群包括有6個(gè)配置了8個(gè)500GB硬盤的數(shù)據(jù)節(jié)點(diǎn),總計(jì)可以存儲(chǔ)24TB的原始數(shù)據(jù)。2個(gè)8核處理器和64GB內(nèi)存在跨集群中運(yùn)行132個(gè) MapReduce任務(wù),每個(gè)任務(wù)可擁有超過(guò)2GB的內(nèi)存。
此外,作為冗余,Evernote還在兩個(gè)服務(wù)器上運(yùn)行了一個(gè)單獨(dú)的Hadoop Job Tracker,在一個(gè)客戶端節(jié)點(diǎn)運(yùn)行Hive與Hue,這是兩個(gè)針對(duì)Hadoop的關(guān)鍵開源工具。Hadoop集群可通過(guò)Hive抽象層被訪問(wèn),后者提供了一個(gè)用于查詢的類SQL接口。Hue是一個(gè)針對(duì)Hadoop的基于Web接口,其中包含了大量的實(shí)用應(yīng)用,例如文件瀏覽器、工作追蹤接口、集群健康監(jiān)視器,以及一個(gè)創(chuàng)建個(gè)性化Hadoop應(yīng)用的環(huán)境。
由Hive采集的用戶活動(dòng)數(shù)據(jù)與來(lái)自在線生產(chǎn)數(shù)據(jù)庫(kù)的參照表每晚會(huì)被加載在ParAccel上。通過(guò)Hive所創(chuàng)建的派生表包含有針對(duì)常見報(bào)告中最佳表述的預(yù)切片信息。例如,除了某一時(shí)期以來(lái)每天、每周和每月的活動(dòng)用戶數(shù)量外,國(guó)家一覽表每天每個(gè)國(guó)家只有一行。
由于ParAccel數(shù)據(jù)庫(kù)和表單會(huì)針對(duì)快速數(shù)據(jù)聚合進(jìn)行調(diào)整,因此與單獨(dú)使用Hive相比,Evernote能夠進(jìn)行多類問(wèn)題的查詢。例如,查看某周內(nèi)在德國(guó)哪個(gè)Windows版本的Evernote軟件使用最為頻繁,只需要3秒鐘的時(shí)間。
Evernote如今擁有了一個(gè)現(xiàn)代化的分析環(huán)境,并且這個(gè)環(huán)境擁有足夠的增長(zhǎng)空間。由于有了 Hadoop,Evernote的團(tuán)隊(duì)擁有了將海量數(shù)據(jù)運(yùn)營(yíng)與日志數(shù)據(jù)歸檔的能力。更重要的是,它們可以在兩個(gè)小時(shí)內(nèi)加載和轉(zhuǎn)換數(shù)百萬(wàn)條記錄,而以往做這些工作需要花費(fèi)10個(gè)小時(shí)或是更長(zhǎng)的時(shí)間。同時(shí)得益于ParAccel,Evernote的團(tuán)隊(duì)能夠執(zhí)行更為復(fù)雜的用戶趨勢(shì)分析操作,并通過(guò) JasperReports服務(wù)器提供最終結(jié)果。
由于能夠存儲(chǔ)所有的歷史數(shù)據(jù)、進(jìn)行更快速的查詢,以及每日自動(dòng)生成質(zhì)量報(bào)告,Evernote能夠從更深的層次觀察客戶使用其產(chǎn)品的方式,持續(xù)提升和優(yōu)化自己的產(chǎn)品。
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.