那么,到底什么是大數據呢?根據IDC的定義,大數據是指為了更經濟的從高頻率獲取的、大容量的、不同結構和類型的數據中獲取價值而設計的新一代架構和技術。
大數據現象描述(點擊查看大圖)
快速發(fā)展的大數據市場(圖片來自IDC)
最為重要的是,大數據對整個基礎架構和軟件、服務帶來巨大商機。根據IDC對全球大數據市場規(guī)模預測,截止2015 年,整個市值將達180億美元。Gartner發(fā)布的數據則顯示,預計到2015年大數據技術將在全球增加440萬個就業(yè)崗位。可以說,“大數據”是繼 “云計算”之后搶占市場制高點的又一領地。如果說云計算是“平臺+服務”的全新商業(yè)模式內容和技術環(huán)境帶來的市場價值的話,那么大數據就是實實在在的價值核心——數據。它將直接決定著企業(yè)決策、產業(yè)政策、市場動態(tài)、應用導向,本身就是一個價值體。
一句話:大數據已經讓人美得窒息!這種窒息來自數據帶來的無限價值,也來自對未來市場的你爭我搶……
大數據既是社會經濟高度發(fā)展的結果,也是信息技術發(fā)展的必然。數據是人類行為過程中產生的符號和特征標識,大數據已經突破了原有的數據范疇,從傳統(tǒng)的關系型數據已經發(fā)展到了更為復雜而又海量的結構和非結構化數據。
也正是如此,大數據給企業(yè)的差異化發(fā)展帶來了歷史性機遇。在基礎設施平臺上,涌現出了新一輪的基礎架構和平臺資源爭奪戰(zhàn)。
眾所周知,大數據的挖掘和分析雖然更有賴于上層的分布式系統(tǒng)和應用軟件,但在最底層的硬件設施層面,還是扮演著中流砥柱的作用。那么,在大數據面前我們需要何種硬件設施呢?它們與傳統(tǒng)的有何區(qū)別?
大數據的特征
Hadoop和MapReduce等專門針對大數據的技術,要求基礎設施能夠實現:
1、靈活擴展。支持大型、分布式數據密集型工作負載,工作負載在服務器集群中進行處理和分析;
2、存儲經濟高效。經濟高效地方式滿足海量數據存儲,而且還需要支持數據壓縮、自動數據分層和重復數據刪除等智能功能;
3、更快帶寬。大數據的傳輸和處理,對帶寬提出了更高要求;
4、更高的安全性和管理性。
英特爾Hadoop發(fā)行版能在x86平臺上提供進一步優(yōu)化
就目前來說,基礎設施還是以開放而又標準的x86平臺為主。在該平臺上,我們可以著重從計算設備、存儲和網絡三大層面來進行分析。計算有賴于服務器設施,包括服務器性能、能效和擴展。具體來說,就是指服務器所采用的CPU架構和內存頻率及容量、I/O帶寬和集群或者分布式計算體現出來的整體能效。存儲方面,大數據對存儲架構提出挑戰(zhàn)。并要求擁有更高的數據傳輸通道和更低的網絡延遲。萬兆和Infiniband網絡互聯也將得到更多應用。
英特爾在大數據時代的角色定位
在這方面,我們尤為關注服務器廠商之間的競爭。比如百年老店IBM、甲骨文、EMC、NetApp、戴爾,當然,也包括我們國內華為、曙光、浪潮等優(yōu)秀企業(yè)推出的完整解決方案。不過我們需要了解的是,由于在前兩次的IT技術革命中,我們國家并未掌握核心自主的東西,相比之下,更應該注重生態(tài)系統(tǒng)和應用軟件的投入。
由于IT基礎架構在高性能計算、大規(guī)模數據中心、乃至近年興起的云計算發(fā)展熱潮中,都能提供靈活高效的彈性平臺支撐。技術上的成熟、產品上的多樣化,在這片市場上的競爭已經陷入了白熾化的程度。因此,平臺競爭,已容不下其他新角色,唯有誰強、誰弱的問題,而沒有誰先誰后的擔憂。
前面介紹的是傳統(tǒng)意義上的基礎架構平臺之爭,各個競爭對手都來自老牌的服務器、存儲廠商。然而,大數據帶來的市場更多的還是來自應用和軟件層面。因此,不少傳統(tǒng)的硬件設備廠商,在提供服務器、存儲設備的同時,還專門推出面向海量數據處理、存儲的一體化解決方案。
比如藍色巨人IBM,曾在去年5月推出了InfoSphere大數據分析平臺。該平臺主要由BigInsights和Streams構成,前者基于Hadoop分布式文件系統(tǒng),可對大規(guī)模靜態(tài)數據進行分析,利用多節(jié)點進行分布式計算;后者利用內存計算技術對實時數據進行分析。
而甲骨文則推出了集成了硬件、存儲和軟件的大數據一體機Exadata X3。該產品被設計為能夠與甲骨文Database 11g、Oracle Exadata數據庫云服務器,以及針對商業(yè)智能應用的新的Oracle Exalytics商業(yè)智能云服務器一起協同工作。
甲骨文 Exadata X3大數據一體機(圖片來自互聯網,下同)
存儲巨頭EMC, 推出大數據Greenplum統(tǒng)一分析平臺(UAP)。它與甲骨文和IBM一體機或者一體化解決方案不同的是,它可對大數據的認知和分享貫穿整個分析過程,實現比以往更高的商業(yè)價值。
同時,我們還注意到該領域出現一種專有化的解決方案,專門針對大數據進行分析的創(chuàng)新產品。最具代表性比如有 Sybase IQ,它是一款面向大數據的高級分析平臺,使用了列式存儲方式對數據進行分析和查詢。另外,隨著大數據而出現的“內存 計算”也逐漸進入了人們的視野。這方面頗具代表性的要數HANA和甲骨文的Exalytics,通過將大量數據裝載在內存模塊中,以更高的內存壓縮技術和更快的實時處理,實現對海量數據的更高性能支撐。
內存數據倉庫Exalytics結構示意圖
從這里我們可以看出,不妨將大數據的解決方案看成是“一體化”和“專有化”兩個維度,這兩個維度又分別體現著廠商所各自代表的產業(yè)生態(tài)鏈:一體化往往蘊含著廠商在服務器、存儲、網絡硬件層面的技術實力和成熟產品的基礎上,通過與合作伙伴或者整合基于該硬件平臺之上的數據分析工具,實現大數據的“打包式”解決方案。專有化延續(xù)著數據庫廠商在該領域的獨特優(yōu)勢,并通過對海量非結構化數據的智能分析,通過授權硬件平臺或者單獨以數據倉庫形式呈現給用戶。
“一體化”和“專有化”互相補充相得益彰,也是當今大數據市場競爭中,表現最為激烈也是最為直接的領域。相比之前談論過的硬件平臺領域,專門針對大數據的解決方案在影響力上來的更加直接。而我們也發(fā)現,這種解決方案在目前國內也涌現出了包括聯想和華為等一批優(yōu)秀廠商的產品,尤其是華為今年最新推出的UDS海量存儲系統(tǒng)、HVS高端存儲以及一體機等系列產品,專門針對大數據應用特點提供解決方案。
大數據,顧名思義其核心是“數據”,如果說基礎架構和解決方案是針對大數據的“大”而提出的,那么“數據”則直接體現著的是大數據的精髓和價值所在。
利用“數據”包裹并進行有價值的投送,就成為了目前我們最為常見的各種應用和服務。君不見“天氣預報”、“行為分析”、“銷售統(tǒng)計”等等,都是利用海量數據進行處理、分析、提煉并以服務打包的形式呈現給用戶。圍繞數據做文章,在產業(yè)鏈中是直接面向用戶并最終產生價值的一環(huán),在大數據的整個生態(tài)系統(tǒng)中,也可以說是屬于“金字塔”的頂層。
在大數據具體應用和服務提供商方面,就目前來說,主要有亞馬遜、谷歌、阿里巴巴、沃爾瑪等巨頭和大數據服務公司。尤其是亞馬遜,它在2009年的時候就開始推出了亞馬遜彈性MapReduce(Amazon Elastic MapReduce)。這是一項能夠迅速擴展的Web服務,運行在亞馬遜彈性計算云(Amazon EC2)和亞馬遜簡單存儲服務(Amazon S3)上大數據服務平臺。與此同時,亞馬遜還提供了數據分析的服務,通過Karmasphere Analyst可視化工作區(qū)模塊,可實現數據分析和提取。
亞馬遜Amazon Elastic MapReduce服務套餐(圖片截自亞馬遜)
搜索引擎巨擘谷歌,則更是與海量數據打交道的“老手”了。谷歌針對大數據推出了BigQuery的Web服務,可實現在云端就對大數據進行處理。該服務可為用戶提供高達70TP未經壓縮的數據掃描,并快速提交分析結果。從而實現在沒有數據中心和數據倉庫的情況下,用戶也可以通過該平臺來實現對海量數據的處理和分析。
谷歌BigQuery支持一鍵分析TB級數據(圖片截自谷歌)
作為中國最大的電子商務公司阿里巴巴,其實也在利用大數據為用戶提供各種服務,其服務內容主要包括阿里信用貸款與淘寶數據魔方這兩部分業(yè)務。淘寶數據魔方是淘寶平臺的大數據應用方案。通過這一服務,商家可以了解淘寶平臺上的行業(yè)宏觀情況、品牌市場狀況、消費者行為情況等,并可以據此作出經營決策。
類別 |
服務內容 |
|
數據存儲 | 0.12美元(GB/月) | 2TB以下 |
交互式查詢 | 0.035美元(每GB) | 2萬條查詢/天;20TB/天,下同 |
批查詢 | 0.02美元(每GB) | 同上 |
除此之外,華為、聯想、沃爾瑪也是或者即將是大數據的服務提供商。尤其是對于華為來說,近幾年迅猛發(fā)展,已經構筑起完整的IT架構平臺,推出了專門針對海量數據的存儲系統(tǒng)和高端存儲系統(tǒng),也有一體機和IT網絡通信產品、方案。在不久的將來,華為勢必能擔當起大數據服務商的重擔。
相比前面介紹的大數據解決方案,這里的服務內容或者說大數據方案,其實更是一種定制化、甚至可在云端提供大數據處理、分析并最終以視覺化界面呈現最終結果,從而為用戶的決策提供參考的一個服務流程。
在這個層面的競爭,更多的是基于對市場需求進行服務的競爭,不過這種服務多以現有的架構來執(zhí)行。雖然目前國內涌現出不少基于大數據服務內容的企業(yè),但相比整個市場而言,大部分還是由國外的幾大巨頭和一些極具成長活力的初創(chuàng)企業(yè)構成。在我們欣喜地看到大數據這塊巨大蛋糕的同時,我們也要認識到自己的差距,并充分以市場為導向,挖掘大數據的各種應用需求,并抓住這些需求點搶占商機。
前面我們分別介紹了從底層的硬件平臺、基于軟硬件的解決方案和面向最終需求的應用服務,其實我們回過頭來整體來看,大數據的出現并不是偶然的——大數據是因為人在經濟社會中的各種行為特征和基于對世界的認識和改造而產生的各式各類的符號。
然而,信息技術越發(fā)達,利用智能設備的人也越來越多,也就是有越來越多的PC、平板、手機等智能設備,而通過這些設備產生的數據和處理的數據,在整個經濟社會中的比例會隨之增長。根據統(tǒng)計數據,2015年的互聯設備數量將達到驚人的150億臺!也就是說,全球平均人手2個智能互聯設備。而在這150億臺設備中,人機交互式的(比如PC、平板電腦、筆記本電腦、超極本等等)僅有30億臺,更多的是(120億臺)機對機連接。
2015年將有150億臺互聯設備
在這種情況下,人機“大戰(zhàn)”的規(guī)模就更為客觀了。交通信號的對各個路道信息的采集、智能城市和社區(qū)的視頻監(jiān)控收集的信息、物流、氣象、科研等等海量數據,都在通過RFID電子標簽和氣象衛(wèi)星、傳感器來收集數據,這些數據最終通過數據中心進行數據分析、處理,將結果呈現給不同用戶。
大數據來源
而作為用戶來說,在大數據的產生方面,主要體現在社交應用(包括博客、微博、社交站點等等)。進一步的,在人們的業(yè)務應用中,也會涌現出一批批海量數據集,這些數據集有來自于商業(yè)目的的行為本身,也有來自教育、科研、公益等行為。因此,從大數據來源的角度來看,人、機、業(yè)務都是大數據的重要源頭。
自然而然的,人們很早就擔心的一個問題“人機大戰(zhàn)”不可避免。當然,這種“人機大戰(zhàn)”并不是人與機器設備之間的生死較量,而是在未來大數據市場上,誰更占據主體、誰對大數據的影響更大的問題。這種問題,勢必會導致“眼球經濟”和注意力資源更加稀缺的出現。這樣下去的結果就是,全球的人類和互聯設備,都被淹沒在“大數據的海洋”中,“大數據的海洋”上方的“天氣”,并不是取決于“大數據”,而是取決于解決大數據問題的“設備”——基于底層架構和大數據分析處理平臺的設備。而“人機”PK將直接演變成大數據與這種“設備”的PK。它們之間力量和地位的對比,直接體現著人類社會的智能化程度的高與低。這種對比走向,儼然成為了一個時代的命脈。而目前來看,時代命脈之爭正不斷升級……
大數據與誰共舞?你,準備好了嗎?