圖 Informatica核心技術部資深產品管理總監(jiān)鄭瑋
那么,什么是大數據?鄭瑋則一針見血地指出:什么是大數據:大交易數據、大交互數據和大數據處理的總稱。相對于業(yè)界提出大數據的規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)和真實性(Veracity)的“4V理論”,鄭瑋更加推崇大數據的三個特征(3V:Volume、Variety、Velocity),除了數據總量之外,還有數據的速度和種類。
第三方市場調研IDC公司預測,未來10年,數據總量將增長44倍,達到35ZB(Zettabyte)。這些龐大的數據量、80%的混合結構數據,以及考驗CIO神經的數據分析處理能力,都對企業(yè)應對大數據綜合實力提出了高質量的要求。
Informatica鄭瑋定義大數據
當然,我們看到有很多行業(yè)仍然顯得風平浪靜,遠不像互聯網、金融、制造業(yè)等競行業(yè)競爭那么激烈,但是從行業(yè)競爭的角度來說也是“暗流涌動”。 Gartner研究表明,全球500強中85%的企業(yè)將無法利用他們的大數據,而且,如果沒有得到正確的管理,大數據也可能代表了巨大的成本和法規(guī)遵從風險。
Informatica鄭瑋解讀大數據三大特征
對處理數據的平臺帶來新的壓力。采用昂貴的設備進行數據處理當然好,但巨大的成本壓力已成為很多企業(yè)難以承受的負重。用戶希望能夠以更經濟的方式、更好的性能來處理數據,從而能夠經濟有效地利用快速增長的數據推動業(yè)務創(chuàng)新。在這樣的背景下,Hadoop獲得了快速發(fā)展。
Hadoop的魅力在哪里?
2008年,作為Apache開源項目發(fā)布的Hadoop,自問世以來幾乎成為了大數據的救世主。Hadoop的兩個重要特性:經濟性和可擴展性,讓其一時間紅遍全球IT界。一些開路先鋒已經投入很大精力來開發(fā)Hadoop,Hadoop取得的成功同時也促使主流市場對其穩(wěn)定性、成熟的管理等更高的需求。這個群體中有影響力的主要廠商包括Cloudera、亞馬遜、MapR、Hortonworks、DataStax、EMC、IBM、Informatica、微軟和甲骨文等。
Hadoop的魅力到底在哪里?鄭瑋指出其中原因,Hadoop結合了成本低、可擴展性、無需構建預定義模式(predefined schema),而且能夠靈活地處理任何數據等優(yōu)點。
當然,能夠讓Hadoop幾乎一夜成名的原因還在于Hadoop能夠真正提高大數據的價值。精益原則在大數據時代比以往任何時候都有效,并且是使大數據不成為大債務的關鍵。Hadoop使企業(yè)能夠使用精益數據管理,以降低數據成本,這包括:業(yè)務成本、硬件成本、人工成本、軟件成本、存儲成本。此外,通過易訪問性、可操作性、權威性、整體性、相關性、安全性、及時性、可信性等特性,Hadoop還能幫助客戶增加數據的價值。
第2頁:Informatica釋放Hadoop的潛能
Informatica釋放Hadoop的潛能
“沒有數據集成,大數據就僅僅是許多海量數據的孤島” 鄭瑋表示。
在IT環(huán)境中,Hadoop不能作為一個孤島存在。為了讓Hadoop可以跨越不同平臺并成為一種主流技術,用戶需要將Hadoop作為他們IT大環(huán)境中的一部分來管理,通過Hadoop重復使用他們的開發(fā)技巧、資產及數據,并統(tǒng)籌管理全部數據。而在大數據時代,許多人寄希望于Hadoop廠商們能夠開發(fā)出成熟可靠的工具、功能和技術創(chuàng)新,以更經濟的方式、更好的性能實現數據處理和分析。
一直以來,Informatica公司都立足于提供一款單一的平臺,借助統(tǒng)一的環(huán)境和方法,全面滿足數據管理和數據集成方面的要求。特別是,Informatica 9.5的推出為企業(yè)用戶帶來了他們所需的交互性、生產力以及可管理性,以便快速采用Hadoop并最大化他們的大數據投資回報。
其實,早在2011年6月份,Informatica就推出了Informatica 9.1 for Big Data,打造一個專門針對大數據分析而創(chuàng)建的統(tǒng)一數據集成平臺。如果說Informatica 9.1 for Big Data還是對大數據功能的一種嘗試,那么Informatica 9.5則完全以大數據為核心的新一代大數據平臺。
已經擁有近20年數據集成創(chuàng)新經驗和領導才能的Informatica,擴展了其數據集成平臺以支持Hadoop,最新發(fā)布的Informatica 9.5提供了全新及擴展功能,極好的釋放了Hadoop潛能,幫助客戶實現大數據最大投資回報。
Informatica 9.5釋放Hadoop的強大潛能
那么,具體Informatica怎樣來釋放Hadoop的潛能的呢?鄭瑋通過數據處理的六大步驟給予說明。
第一步,是將數據攝入到Hadoop;
第二步,發(fā)現Hadoop數據的異常、關系和域類型;
第三步,在 Hadoop中解析和準備數據,這對于Informatica來講是非常獨特和重要的,現在數據類型非常多,要對其進行分析,首先要解析,將其變成可以工作的結構型數據;
第四步,在Hadoop中轉換和清洗/標準化數據,數據一旦格式化后就可以進行轉換、過濾、集成、分類等等;
第五步,在Hadoop上調用自定義業(yè)務分析;
第六步,從Hadoop上讀取數據,目前一些大的報告工具,還不能夠直接在很多平臺上運行,因此需要把計算結果提取出來放到傳統(tǒng)數據庫中。當然,在一到六步的實現過程中,企業(yè)還需要管理整個過程,需要監(jiān)督、監(jiān)視系統(tǒng)發(fā)生情況。
目前,Informatica 9.5已經實現了上述提到的一、三、六步的功能,而二、四、五步功能則將在2012年底推出的Informatica 9.5.1版本中實現。
編者按:
當前,IT巨頭都在通過自己獨立的方式化解“大數據”難題,雖然極力避免,但是受到某些IT廠商霸道“綁架”行徑卻是屢見不鮮。如果廠商提供公開的API還好,如果廠商有意封閉,那么最抓狂的還是企業(yè)用戶,就等著“一條道走到黑”吧。第三方大數據平臺的出現,將在一定程度上打破企業(yè)用戶擔心的“捆綁”危機。