圖一:暴風影音基于Hadoop和X86開放基礎架構的數(shù)據(jù)平臺架構示意圖,暴風影音公司先通過X86服務器構建數(shù)據(jù)采集集群,數(shù)據(jù)采集之后通過匯集服務器將加載到X86服務器構建的Hadoop集群,利用Hadoop集群處理與分析數(shù)據(jù),最終得出統(tǒng)計與分析結果。

暴風影音Hadoop技術專家趙修湘表示:“Hadoop集群可用性非常高,能夠輕松處理TB級的數(shù)據(jù)量,通過X86服務器構建的集群能夠隨時根據(jù)業(yè)務需求以增加集群節(jié)點的方式來增加集群能力,超大集群能力使得Hadoop的數(shù)據(jù)處理能力非常高。同時采用開放基礎架構而言,構建Hadoop在硬件上要求并不高,多點數(shù)據(jù)備份機制和計算容錯功能使得構建和使用集群變得非常容易?!?/p>

同時,趙修湘還補充道:“Hadoop集群具有豐富的編程接口,能夠支持幾乎所有現(xiàn)在流行的編程語言,使得大家能夠通過主流編程語言來使用Hadoop;更加關鍵的是HadoopMapred編程模型使得分析人員能夠方便快捷地分析超大數(shù)據(jù)量;而且,Hadoop目前支持多種數(shù)據(jù)倉庫,在使用過程中非常方便。”

圖二:圖中顯示了暴風影音數(shù)據(jù)平臺中的X86服務器在內存和CPU上的使用率。暴風影音大數(shù)據(jù)平臺建立之后,充分發(fā)揮了集群的威力,大幅提升了公司基礎架構中各種X86服務器的資源利用率。

暴風影音通過部署基于Hadoop和開放基礎架構的數(shù)據(jù)平臺,告別了過去傳統(tǒng)方式在大數(shù)據(jù)量的分析能力不足、存在大量重復性工作、無法分析長時間的數(shù)據(jù)、數(shù)據(jù)分析工具匱乏、服務器硬件資源利用不足等缺點,最為直接的結果就是大幅提升了數(shù)據(jù)統(tǒng)計與分析的效果,趙修湘表示:“通過Hadoop數(shù)據(jù)平臺,有些過去需要花費幾個小時的業(yè)務數(shù)據(jù)統(tǒng)計工作現(xiàn)在往往只需要幾分鐘就能夠完成?!?/p>

暴風影音通過自身在Hadoop集群平臺的構建、測試與應用也摸索出Hadoop集群構建和使用需要注意的要點:構建Hadoop集群需要在應用、軟件和硬件三個方面注意,需要公司IT人員加強對Hadoop軟件組件Hive、Pig的了解和使用;需要注意Hadoop集群進程崩潰的風險等。趙修湘還認為在硬件層面也不能夠忽視,他表示:“Hadoop由于是處理大數(shù)據(jù),因此不僅僅要求計算能力,在數(shù)據(jù)傳輸?shù)木W絡上也要求較高。Hadoop集群需要較多的X86服務器,其實隨著數(shù)據(jù)量增大和數(shù)據(jù)分析業(yè)務增加,集群節(jié)點越多處理能力也越強。與此同時,建議集群節(jié)點采用配置價高的服務器,暴風影音這邊采用較多的是英特爾8核至強服務器,并配置了較高的內存?!?/p>

最后,暴風影音Hadoop技術專家趙修湘表示隨著Hadoop數(shù)據(jù)平臺的建立,暴風影音的業(yè)務在大數(shù)據(jù)時代下會更加從容。

分享到

wangguang

相關推薦