Youtube存儲了31PB的流媒體數(shù)據(jù)。Cisco公司預計:到2012年每個月網絡上視頻流大約為5Exabytes(5000PB)。除互聯(lián)網,呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫(yī)療記錄,攝影檔案館視頻檔案和大規(guī)模的電子商務都需要面對急劇增長的大量數(shù)據(jù)。

這些海量的數(shù)據(jù)蘊藏了大量給企業(yè)帶來價值的信息。在它的幫助下,人們可以發(fā)現(xiàn)重復的商業(yè)模式,更準確地預測商業(yè)活動趨勢;發(fā)現(xiàn)疾病發(fā)作的原因和傳染的規(guī)律,有效地預防疾病的爆發(fā);掌握嫌疑犯人的活動軌跡,有效地打擊和違法犯罪活動等。企業(yè)用以分析的數(shù)據(jù)越全面,分析的結果就越接近于真實。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務的各個細節(jié)相融合。

急劇增長的數(shù)據(jù)集合也給企業(yè)和數(shù)據(jù)管理能力提出了前所未有的挑戰(zhàn),不再適宜于用當前管理數(shù)據(jù)庫的工具來進行分析處理。這些難點包括:數(shù)據(jù)的抓取,存儲,檢索,共享,分析以及可視化等。這種好處和獲得的困難的矛盾直接催生了“大數(shù)據(jù)”這一概念的提出和被快速認同。根據(jù)維基本科的定義,大數(shù)據(jù)是指無法在一定時間內用常規(guī)軟件工具對其內容進行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)來自方方面面,從搜集天氣情況的感測器,接入社交媒體網站的指令,數(shù)碼圖片,在線的視頻資料,到網絡購物的交易記錄,手機的全球定位系統(tǒng)信號。

由于大數(shù)據(jù)問題被業(yè)界廣泛認識并得到充分關注,目前已出現(xiàn)了相對成熟的大數(shù)據(jù)平臺。這些解決方案中基本分為兩大類:互聯(lián)網企業(yè)自建的大數(shù)據(jù)平臺和創(chuàng)新型企業(yè)提供的新型的大數(shù)據(jù)產品。前者代表公司主要有Google、Yahoo、Amazon、Facebook,以及國內的百度、淘寶等,后者則有EMC、IBM、HP(Verica)、Teradata(AsterData)等。這其中深受矚目的是Hadoop平臺,由于它的開源性質和完善的平臺方案,吸引了包括Facebook、百度、淘寶在內的國內外互聯(lián)網廠商來使用這一生態(tài)系統(tǒng)構建自己的大數(shù)據(jù)平臺,并參與了這一系統(tǒng)的完善過程。

二、解決方案
2.1.基于大數(shù)據(jù)平臺的大型門戶網站

基礎設施面臨的問題

在互聯(lián)網大行其道的今天,內容和用戶是互聯(lián)網公司關注的焦點。成功的企業(yè)無一不是擁有大量穩(wěn)定的用戶,并以此建立自己的商業(yè)模式。而擁有內容,特別是大量原創(chuàng)、優(yōu)勢內容的企業(yè)或組織具備了贏得大量、忠實用戶的先決條件。

但內容和用戶的增多給企業(yè)帶來了高效基礎設施和巨大訪問能力的挑戰(zhàn)。為了支撐未來不斷擴大的業(yè)務,基礎設施必須預先籌劃,充分考慮到擴展性。一方面要求系統(tǒng)保存內容要具備橫向擴展的能力,適應不斷增多的系統(tǒng)規(guī)模和更大的訪問量。另一方面,系統(tǒng)中相互關聯(lián)的業(yè)務模塊也要求基礎設施提供統(tǒng)一、共享的服務能力。從Google、Amazon、淘寶等成功互聯(lián)網企業(yè)披露的事實看,基礎設施成為決定互聯(lián)網企業(yè)能否做大做強的重要因素。

典型的大型門戶網站的業(yè)務類型復雜多樣,新聞、圖片、論壇、社區(qū)、博客,以及音視頻分享等都是有相當成熟度的業(yè)務。有效支撐這種大型門戶網站的基礎設施需要解決三方面的問題:數(shù)據(jù)存儲、在線服務和數(shù)據(jù)分析。具體看來,它符合大數(shù)據(jù)的V4的標準。但是單一的大數(shù)據(jù)平臺只能解決某一方面的問題,必須綜合使用多種技術才能高效實現(xiàn)統(tǒng)一的大數(shù)據(jù)平臺,支撐門戶網站的發(fā)展要求。舉例來看,圖片是MB級的文件,F(xiàn)acebook和淘寶的私有系統(tǒng)采用不同的技術手段實現(xiàn)了圖片文件的高效存取,但不加修改的HDFS則很難有效管理巨量的小文件。

大數(shù)據(jù)平臺架構

下圖給出了支撐大型門戶網站的大數(shù)據(jù)平臺架構。它從邏輯上分為硬件層、存儲層和計算層,對上支持各種業(yè)務模型。

硬件平臺統(tǒng)一為整合計算和存儲能力的存儲服務器,服務器之間通過以太網絡互相連接。這種不再需要門類繁多的存儲設備和服務器類型的設計可以大大簡化管理和建設的復雜程度。

存儲層解決各種類型數(shù)據(jù)的存儲問題。上層業(yè)務的數(shù)據(jù)可以分解為:結構化數(shù)據(jù)、文本(包括網頁)、圖片、音頻、視頻、以及索引文件等。結構化程度高、事務性強、需要反復操作的數(shù)據(jù)仍然保存在關系數(shù)據(jù)庫里,網頁信息等可以Key-Value的形式保存在NoSQL存儲系統(tǒng)中。大量小圖片、音頻文件等可以保存在分布式存儲系統(tǒng)中。為了提高檢索效率,各種索引以特有的格式分散保存。

 
圖 支撐大型門戶網站的大數(shù)據(jù)平臺

計算層負責將存儲層中管理的數(shù)據(jù)轉化成上層應用所需要的數(shù)據(jù)集。這些轉化包括基本的數(shù)據(jù)存取,如基于唯一性的關鍵字獲取屬性值或內容;通過關鍵字快速檢索某一應用的數(shù)據(jù),或者整合多個系統(tǒng)的檢索結果呈現(xiàn)給用戶;使用Map-Reduce和并行查詢分別快速從大規(guī)模的文件數(shù)據(jù)或數(shù)據(jù)庫中分析出感興趣的信息。

從技術選擇上來看,數(shù)據(jù)庫存儲可以選擇橫向擴展、支持復雜并行處理模式的MPP數(shù)據(jù)庫系統(tǒng),NoSQL key-Value存儲可以選擇Hadoop-HBase系統(tǒng),分布式存儲可以選擇業(yè)界優(yōu)秀的集群存儲系統(tǒng),選擇支持可以插件形式擴展各種應用的檢索系統(tǒng)。

業(yè)務實現(xiàn)

大數(shù)據(jù)平臺提供的存儲和計算資源都可以實現(xiàn)資源池,以多租戶的形式提供給上層應用使用。

以新聞為代表的網頁需要將各種文字、圖片等信息組織起來呈現(xiàn)給瀏覽者。Web Server可以快速地以URL為關鍵字,從HBase中取出對象的內容。進一步將內容標識的圖片從分布式文件系統(tǒng)中提取出來。當用戶點擊音視頻時,再從分布式存儲中將這些信息提取出來,傳給用戶。社區(qū)、博客、論壇的頁面展示都可以采用這種方式生成。

相對于一般的頁面、論壇、博客信息更新,或者用戶評論、互動更加活躍。例如評論會以較短的文本形式來體現(xiàn)。采用HBase的Key-Value來存取就特別合適。

只要提供類似Key-Value方式的創(chuàng)建索引和檢索算法,每個子系統(tǒng)都可以向公共的大數(shù)據(jù)平臺申請專有的檢索服務。例如圖片可以根據(jù)標簽進行檢索,而文本則根據(jù)內容進行模糊檢索。系統(tǒng)同時提供跨應用的全局檢索,它將關鍵字按規(guī)則轉化成各應用的搜索請求,并合并中間結果。

大數(shù)據(jù)平臺還提供通過分析,不斷改進業(yè)務水平的能力。通過用戶行為分析,可以得到用戶的使用喜好,向某些人群推送特定內容,提高用戶粘性。另外對系統(tǒng)負載、不同國家和區(qū)域的特征分析,都可以改進服務質量,也可以對系統(tǒng)的升級、維護提出預警。這些分析一般是通過記錄用戶訪問的日志,以及系統(tǒng)運行、維護過程中產生的日志??梢圆捎肕PP數(shù)據(jù)庫的方式,也可以采用Hadoop-Hive,結合Mahout的分析功能實現(xiàn)信息的抽取。

分享到

renxinbo

相關推薦