Oracle Exadata數(shù)據(jù)庫云服務(wù)器硬件架構(gòu)
除了Oracle大數(shù)據(jù)機,按照高低配置,Oracle Exadata數(shù)據(jù)庫云服務(wù)器分別采用英特爾六核或八核處理器,并整合了Oracle 11g R2數(shù)據(jù)庫及其它軟件系統(tǒng);而Oracle Exalytics商務(wù)智能云服務(wù)器配置了40個英特爾x86處理器內(nèi)核,1TB內(nèi)存和TimesTen實時分析軟件。
事實上,Oracle一直是一家關(guān)鍵的數(shù)據(jù)庫軟件供應(yīng)商,在收購了SUN之后,SUN的RISC架構(gòu)處理器SPARC也使Oracle在高端服務(wù)器市場占有一席之地,但對于最新推出的數(shù)據(jù)庫一體機,Oracle無一例外地選擇了英特爾x86平臺,除了性價比的考慮,背后的原因當(dāng)然與英特爾x86性能不斷提升有關(guān),在處理諸如數(shù)據(jù)庫、OLTP等關(guān)鍵應(yīng)用業(yè)務(wù)中,英特爾至強處理器的性能已經(jīng)能夠勝任,在這些關(guān)鍵領(lǐng)域中x86服務(wù)器已開始博得更多原本采用RISC處理器的用戶的青睞。此外,近幾年x86市場不斷壯大,并成為業(yè)界的開放標(biāo)準(zhǔn),在用戶接受度上,x86無疑更有優(yōu)勢,對供應(yīng)商而言,要想讓其新系統(tǒng)迅速獲得用戶認(rèn)可,基于x86平臺無疑是最好的選擇。
這一點在惠普AppSystem for Hadoop系統(tǒng)上同樣得到體現(xiàn),AppSystem for Hadoop是惠普面向大數(shù)據(jù)分析領(lǐng)域的最新集成解決方案,目前支持主流的三大Hadoop版本:Cloudera、Hortonworks、MapR,方便用戶根據(jù)自己的需要來部署相應(yīng)的版本。
關(guān)于Hadoop,本文在后半部分將會有更詳盡的介紹,這里就不做詳述。單從硬件角度來說,Hadoop的誕生與x86 系統(tǒng)就有著非常密切的關(guān)系,它的出現(xiàn)使得在基于x86這種要求較低的硬件系統(tǒng)上運行復(fù)雜的分布式集群運算成為可能,從這種意義上來說,Hadoop本身就是為x86系統(tǒng)而量身定制的平臺。
在處理器方面,這些系統(tǒng)無一例外的,全部都基于英特爾至強平臺?;萜誂ppSystem for Hadoop采用最新至強E5-2600處理器平臺,以獲得最佳的性能表現(xiàn)。此外,在AppSystem for HANA的集成系統(tǒng)中,也是全面采用英特爾至強E7處理器平臺(ProLiant DL580 G7)來提供最高的內(nèi)存計算性能。
以AppSystem for Hadoop的Cloudera部署版本為例,AppSystem for Hadoop的Cloudera部署版本的計算節(jié)點包括HP ProLiant 360p Gen8與380p Gen8兩款服務(wù)器,分別配備了E5-2600處理器。
如圖,一個單機柜的AppSystem for Hadoop的Cloudera部署中,標(biāo)配采用2臺DL360p Gen8作為NameNode,1臺DL360p Gen8作為Management Node,18臺DL380p Gen8為WorkNode。
在Terasort基準(zhǔn)測試中,18節(jié)點的DL380p Gen8的10TB數(shù)據(jù)排序用時為5128秒(約1個半小時),合1.99GB/s,對于100GB數(shù)據(jù)量,排序時間為55秒,合1.82GB/s。而 16節(jié)點至強X5670服務(wù)器集群的100GB排序速度是236.3秒,合433.3MB/s,20節(jié)點至強E5650服務(wù)器集群的100GB數(shù)據(jù)排序速度為130秒,合787.7MB/s。由此可見,基于新一代至強E5-2600平臺的Hadoop集群的威力。
除了Oracle和惠普,還有一家廠商我們不得不提,那就是IBM,在今年4月份IBM發(fā)布了全新的專家集成系統(tǒng)(Pure Systems),其中即將在中國發(fā)布的PureData System就是針對數(shù)據(jù)庫應(yīng)用的一體化系統(tǒng)。
從計算節(jié)點來看,PureData System配備了IBM全新的服務(wù)器x240,x240是一款基于Intel處理器、針對虛擬化的可擴(kuò)展服務(wù)器,在配置方面,x240最多可配備兩路Intel E5-2600處理器,內(nèi)存容量最高可達(dá)768GB。
以上主流的大數(shù)據(jù)處理集成系統(tǒng)中,英特爾x86架構(gòu)正在成為一種新的標(biāo)準(zhǔn)平臺,英特爾至強處理器這一堅實基石也使眾多的軟硬集成解決方案如虎添翼,并得以彰顯最大的威力。另一方面,除了已經(jīng)成為傳統(tǒng)計算領(lǐng)域中的開放標(biāo)準(zhǔn),英特爾也正在大數(shù)據(jù)這股新浪潮中打造一個新的標(biāo)準(zhǔn)化硬件生態(tài)系統(tǒng)。
Hadoop標(biāo)準(zhǔn)優(yōu)化和擴(kuò)充
以上介紹了業(yè)界主流大數(shù)據(jù)一體機的硬件平臺,x86平臺成為首選,在大數(shù)據(jù)處理的軟件方面則離不另一個軟件框架標(biāo)準(zhǔn),那就是分布式運算系統(tǒng)Hadoop,它使用簡單的編程模型即能支持在計算機集群中分布式處理大數(shù)據(jù)集。
完 整Hadoop的技術(shù)堆棧包括常用設(shè)施、分布式文件系統(tǒng)、分析和數(shù)據(jù)存儲平臺,以及管理分布式處理、并行計算、工作流程和配置管理的應(yīng)用層。除了提供高可 用性之外,與傳統(tǒng)方法相比,Hadoop是一種更加經(jīng)濟(jì)高效的大型非結(jié)構(gòu)化數(shù)據(jù)集處理方法,同時提供極大的可擴(kuò)展性和速度。
Hadoop 最早來源于Google的MapReduce和文件系統(tǒng)(GFS),后由Yahoo完成絕大部分初始設(shè)計和開發(fā)。短短幾年時間,Hadoop從互聯(lián)網(wǎng)行業(yè) 開始興起,如今已經(jīng)成為重要的并行處理架構(gòu)標(biāo)準(zhǔn),并被公認(rèn)為分析存儲大數(shù)據(jù)的關(guān)鍵平臺。但不得不提的是,因為基于普通的英特爾x86架構(gòu)運行,也是促成 Hadoop快速發(fā)展并廣泛接受的重要原因。
當(dāng)然,除了處理器,存儲和網(wǎng)絡(luò)也是Hadoop集群性能的重要保 證。在Hadoop集群中,萬兆位以太網(wǎng)(10GbE)帶來的帶寬增長是導(dǎo)入和復(fù)制(在多臺服務(wù)器之間)大型數(shù)據(jù)集的關(guān)鍵,英特爾Ethernet 10 Gigabit融合網(wǎng)絡(luò)適配器提供了高吞吐量連接,同時英特爾SATA固態(tài)硬盤為原始存儲提供了高性能、高吞吐量存儲選擇。為提高效率,存儲往往需要支持 其它高級能力,如壓縮、加密、自動數(shù)據(jù)分層、重復(fù)數(shù)據(jù)刪除、糾刪碼和自動精簡配置,現(xiàn)有的英特爾至強處理器都已經(jīng)支持這些功能。
眾 所周知,Hadoop是一個開源的框架,Apache在2012年1月推出了Apache Hadoop 1.0的首個完整生產(chǎn)版本。但在對開源版本Hadoop的使用過程中,企業(yè)通常需要自己去解決系統(tǒng)一致性、安裝維護(hù)以及管理監(jiān)控的問題,并且需要自己解決 和修補開源版本的軟件缺陷,盡管在Hadoop初期部署中具備成本的優(yōu)勢,但是對后期的技術(shù)維護(hù)將提出更高的要求,并且從長遠(yuǎn)的角度來看,企業(yè)付出的技術(shù) 維護(hù)成本將更加高昂。
隨著大量IT廠商的加入,Hadoop的商用版本正呈增長趨勢,眾多廠商都推出了自己的Hadoop版本,并集合了其他Hadoop項目的基本堆棧,可與數(shù)據(jù)倉庫、數(shù)據(jù)庫和其他數(shù)據(jù)管理產(chǎn)品集成。
針 對企業(yè)對Hadoop平臺的需要,英特爾已經(jīng)推出Hadoop發(fā)行版,英特爾提供的Hadoop發(fā)行版提供了一個穩(wěn)定高效可管理的Hadoop版本,經(jīng)過 大量的實際項目在線驗證,英特爾將最佳的Hadoop實踐提供給企業(yè),包含Hadoop分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、分布式計算框架 MapReduce、數(shù)據(jù)倉庫Hive、數(shù)據(jù)處理Pig、機器學(xué)習(xí)Mahout商業(yè)套件。此外,英特爾還提供全面的產(chǎn)品技術(shù)支持和顧問服務(wù),使得企業(yè)在系 統(tǒng)規(guī)劃、設(shè)計和實施運行中能得到專業(yè)及時的專業(yè)服務(wù),為企業(yè)解除后顧之憂。
除了在性能和管理方面有了大幅提升,英特爾Hadoop發(fā)行版基于底層的大量優(yōu)化算法也使應(yīng)用效率更高,而且計算存儲分布更均衡,通過與英特爾硬件技術(shù)相結(jié)合,全面提升數(shù)據(jù)處理平臺性能。
在Hadoop的大規(guī)模分布式架構(gòu)中,關(guān)聯(lián)系統(tǒng)并發(fā)性能往往是一大難題,英特爾Hadoop發(fā)行版提供獨有的基于瀏覽器的集群安裝和管理界面,解決開源版本管理困難的問題,同時可通過網(wǎng)頁、郵件及短信的方式發(fā)送系統(tǒng)異常告警。
除了在大數(shù)據(jù)基礎(chǔ)設(shè)施和分析處理平臺發(fā)揮作用,在數(shù)據(jù)交付和應(yīng)用層面,英特爾也不斷加強基于英特爾架構(gòu)的客戶端與服務(wù)器算法開發(fā),提高分析計算的性能和規(guī)模,為應(yīng)用層和可視化層提供最佳應(yīng)用展示環(huán)境,提供決策支持。
綜上,在傳統(tǒng)的印象中,英特爾是一家為數(shù)據(jù)中心提供基礎(chǔ)設(shè)施和技術(shù)的供應(yīng)商,但是隨著對Hadoop功能的優(yōu)化和擴(kuò)充,在應(yīng)用層優(yōu)化可視化環(huán)境,英特爾在大數(shù)據(jù)分析處理領(lǐng)域技術(shù)實力可謂更加全面,毫無疑問,英特爾在大數(shù)據(jù)時代將扮演更加重要的角色。