周建丁 發(fā)表于:14年08月29日 14:58 [原創(chuàng)] DOIT.com.cn
針對中國企業(yè)的大數(shù)據(jù)需求旺盛與應用落后之間的矛盾,Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān)孔宇華日前對話DOIT記者,基于Teradata在數(shù)據(jù)倉庫、數(shù)據(jù)分析領域經(jīng)營30多年的領先經(jīng)驗,分享了釋放大數(shù)據(jù)大價值的最佳實踐,為中國企業(yè)的大數(shù)據(jù)之路提供了可以借鑒的選擇。
孔宇華表示,隨著非結構化數(shù)據(jù)的引入,把有價值的東西提煉出來變成一個難題,通過一個能夠囊括不同數(shù)據(jù)源、數(shù)據(jù)類型和不同分析方法的數(shù)據(jù)探索平臺,快速整理一些“小數(shù)據(jù)”進行分析,不斷試錯找到價值點,能夠以最少的開支,讓企業(yè)業(yè)務人員快速、有效地獲得數(shù)據(jù)的精髓,從而實現(xiàn)業(yè)務的創(chuàng)新。
Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān)孔宇華
中國企業(yè)的迷失
大數(shù)據(jù)似乎已成為中國企業(yè)超越同行或者打翻身仗的秘密武器。湘鄂情毅然決然剝離經(jīng)營已久的餐飲業(yè)務,試圖在陌生的大數(shù)據(jù)領域東山再起;美的空調(diào)揚言要斥資150億元,基于云、大數(shù)據(jù)和物聯(lián)網(wǎng)技術打造智能家居業(yè)務;王健林宣布豪賭50億元,指望借助大數(shù)據(jù)將萬達電商打造成新的帝國;康師傅也希望耗費巨資構建大數(shù)據(jù)平臺實現(xiàn)集團食品業(yè)務的升級……
這一串名單還可以列得更長,但喧囂的背后,卻是大數(shù)據(jù)應用的落后。除了互聯(lián)網(wǎng)公司出于自身特質具有立足于數(shù)據(jù)價值運營的思維和技術,更多的中國傳統(tǒng)企業(yè)在數(shù)據(jù)的運用方面可謂一塌糊涂,國外的《經(jīng)濟學人》聲稱:中國的企業(yè)目前遠沒有實現(xiàn)網(wǎng)絡化和數(shù)字化,更沒有參與云計算和大數(shù)據(jù)分析等趨勢。
客觀地說,傳統(tǒng)企業(yè)經(jīng)過多年的信息化摸索,確實有了一些數(shù)據(jù)的積累,部分企業(yè)也已經(jīng)開始基于數(shù)據(jù)展開營銷工作,但數(shù)據(jù)開放程度低、數(shù)據(jù)共享難、數(shù)據(jù)處理技術基礎薄弱、大數(shù)據(jù)人才稀缺等,也是不爭的事實,這些制約了國內(nèi)大數(shù)據(jù)的發(fā)展。據(jù)中央財經(jīng)大學中國經(jīng)濟管理研究院博士張永力估算,國外大數(shù)據(jù)行業(yè)約有1000億美元的市場,而且每年都以10%的速度在增長;我國2012年大數(shù)據(jù)市場規(guī)模大約4.7億元,2013年達到11.2億元,更是處在初級階段的初階階段。
Teradata的行業(yè)應用
作為一家全球大數(shù)據(jù)分析和數(shù)據(jù)倉庫解決方案廠商,Teradata已經(jīng)贏得了超過2,500家客戶的信任,在多個行業(yè)表現(xiàn)卓越,廣為人知的沃爾瑪“啤酒加尿布”的案例,背后其實就是得益于Teradata分析工具的驅動。Teradata希望將其國外的實踐經(jīng)驗引入中國,幫助中國企業(yè)更好地利用大數(shù)據(jù)創(chuàng)新業(yè)務,同時實現(xiàn)自身的價值。孔宇華介紹了Teradata在國外電商、醫(yī)療、高科技制造、零售供應鏈等不同行業(yè)的應用案例。
在電商領域,Teradata基于收集的電商客戶行為的半結構化數(shù)據(jù)、非結構化數(shù)據(jù),包括客戶的瀏覽、搜索和購買記錄等,以及產(chǎn)品的關聯(lián)分析,在客戶最喜歡瀏覽的頁面做產(chǎn)品推薦,以實現(xiàn)更好的交易量。這樣的分析過程,傳統(tǒng)的分析方法很難實現(xiàn)。孔宇華表示,其中的一些路徑分析、關聯(lián)分析,需要用到新的分析方法來實現(xiàn),Teradata Aster平臺里已經(jīng)集成了這個分析方法和展現(xiàn)的工具。
在醫(yī)療行業(yè),Teradata通過數(shù)據(jù)分析幫助美國醫(yī)院實現(xiàn)更好的治療效果。針對同一疾病的不同客戶,按照他們的住院時間、接受的治療、他們所在的地區(qū)等不同參數(shù)進行細致的分區(qū),去驗證最有效的藥物和療程。這樣的分析,讓醫(yī)生可以有效、更好地調(diào)整自己的治療方法,讓不同地區(qū)的醫(yī)院在醫(yī)療方式、醫(yī)保的方法、護理的流程等方面相互借鑒,從而讓醫(yī)療系統(tǒng)更加有效地運作。
在高科技制造業(yè),如高精度芯片的制造,可用比受到不同步驟的不同參數(shù)變動的影響,如氣溫、濕度、不同的物理元素等。Teradata做了一個理想的方案,通過一些統(tǒng)計方式,用根源識別方式的自動化,針對整個流程進行可擴展性大數(shù)據(jù)的分析。通過一些程序自動化,把大量的時間序列進行數(shù)據(jù)簡化,最終簡化到一個數(shù)字代碼,然后進行對比。通過這樣的分析,可以把大量的芯片制造的數(shù)據(jù)放在Teradata的平臺里,去做監(jiān)控、優(yōu)化,然后找出關鍵的參數(shù),反饋給生產(chǎn)部門去做監(jiān)控。
針對零售行業(yè)供應鏈,Teradata通過對全局供應鏈數(shù)據(jù)及不同門店客戶消費記錄的整合與分析,配合氣候、天氣等相關數(shù)據(jù),去預測每一個商店的產(chǎn)品需求,據(jù)此調(diào)度整個供應鏈,以減輕庫存和盈利的壓力,不必要的促銷活動因此得到減少。
Teradata的技術特色
如前所述,這些應用場景都是在一個平臺上實現(xiàn)的,這就要求Teradata不斷改進其技術,以適應不同客戶的更多需求。事實上,Teradata正在通過加強自主研發(fā)、吸納開源技術、并購、在離客戶最近的地方設立研發(fā)中心和吸引互聯(lián)網(wǎng)人才等方式,加強大數(shù)據(jù)平臺和服務的實力。
孔宇華介紹,Teradata Aster探索平臺可以匯集不同的數(shù)據(jù)源、結構化的數(shù)據(jù)、非結構化的數(shù)據(jù),并匯集很多不同的分析方法,如SQL分析方法、MapReduce、關聯(lián)分析、路徑分析、文字文本的分析,全部結合在一起,讓數(shù)據(jù)的價值更加容易把控,并且能夠很快地完成數(shù)據(jù)分析的流程,從數(shù)據(jù)獲取、數(shù)據(jù)準備、分析、大數(shù)據(jù)展現(xiàn),都很快地做迭代。
Teradata Aster大數(shù)據(jù)探索平臺
能夠做到這一點,得益于Aster與Hadoop不同的架構。Hadoop在HDFS 文件系統(tǒng)之上用MapReduce/YARN做運算引擎,決定了它的局限。而Aster獨特的底層數(shù)據(jù)庫存儲,上面有不同的運算引擎,包括SQL、MapReduce、文本、關聯(lián)分析、圖分析等,再上面是SQL接口,這使得Aster成為一個分析的“瑞士軍刀”,能以一個SQL界面支持不同的分析工作?子钊A強調(diào),真正分析的時候,50%-60%會用到SQL,這就提高了編程速度和運算速度。要知道,傳統(tǒng)企業(yè)不可能像互聯(lián)網(wǎng)企業(yè)那樣,有很多既懂編程又懂數(shù)據(jù)的人。
Teradata Aster新增的一些特性,主要包括一個SNAP Framework框架,Aster File Store文件存儲系統(tǒng)和Teradata Aster R。其中,SNAP可以理解成存儲的存儲系統(tǒng)和分析系統(tǒng)之間的一個框架,上層提供一個統(tǒng)一的SQL接口,用戶可以統(tǒng)一用SQL去訪問。下層除了以前數(shù)據(jù)庫的行存儲之外,加上列存儲,以及一些文件存儲的方式。這就要說Aster File Store,它支持根據(jù)不同文件、不同數(shù)據(jù)的模板的需求而分配,需要分析的時候還可以直接從Hadoop里面去拿數(shù)據(jù)。
最后是Aster和R的整合,增強了Aster的應用方式,也規(guī)避了越來越流行的R的一些缺陷。R原本是一個單機的算法,Aster把R的運算引擎壓進去,然后把數(shù)據(jù)整合也壓到Aster平臺里面,把它變成了并行式演算算法。因為Aster本來有一個機制,能把一些R里面的需要并行的算法自動并行。
此外,Teradata最近還收購了兩家公司——Revelytix和Hadapt,旨在在Hadoop上面去更好地做整個大數(shù)據(jù)架構。Revelytix有很好的源數(shù)據(jù)管理的技術,在Hadoop上面做R分析的時候,會做很多數(shù)據(jù)的抽樣,這會產(chǎn)生很多版本的數(shù)據(jù),一個數(shù)據(jù)抽樣可能只能做一樣的分析,每次的抽樣都要管理,而Revelytix能夠減少數(shù)據(jù)的重復。Hadapt則是在Hadoop上面建立一個數(shù)據(jù)倉庫,利用他們的技術來完善可以Aster上面的一些功能,包括和Hadoop的一些結合。
事實上,Teradata的統(tǒng)一數(shù)據(jù)架構,就是會用到Hadoop最實用、最成熟的一些模塊,去做大數(shù)據(jù)的處理平臺,做數(shù)據(jù)的一些轉換和收集,通過一個叫做QueryGrid的工具,可以從Teradata或者Aster里面訪問其他的平臺,從而讓客戶可以更好地利用Hadoop和其他的大數(shù)據(jù)平臺更好地整合起來,打破數(shù)據(jù)孤島,做到更好的數(shù)據(jù)共享?子钊A還透露,隨著Storm和Spark開始成熟,實現(xiàn)一些流分析的應用,目前Teradata也在做相關的研究和應用。
Teradata的實施心得
CIO們都知道,好的技術也需要好的實施路徑,才能幫助企業(yè)更好、更快地實現(xiàn)創(chuàng)收。然而企業(yè)的具體業(yè)務千差萬別,通用的路徑并不存在。“在大數(shù)據(jù)要做創(chuàng)新的時候,很難說我這個題目肯定出一個結果,創(chuàng)新是一個試錯的過程。”孔宇華指出,大數(shù)據(jù)的分布,極少數(shù)有大價值,大部分有一定的價值,還有一部分沒有價值。
不斷試錯找到大價值,這必然要涉及到系統(tǒng)的搭建、時間的耗費和平臺的投資等。Teradata的出發(fā)點,就是通過平臺、咨詢團隊的經(jīng)驗,從一開始的大數(shù)據(jù)、非結構化的數(shù)據(jù),通過淘金的方式把金子淘出來,做一些分析,做數(shù)據(jù)分享。Teradata想要做到的,是在Aster平臺和Hadoop平臺上面,實現(xiàn)“大數(shù)據(jù)從小做起”這個概念,怎么用小量的投資、用很短的時間,去呈現(xiàn)數(shù)據(jù)里面的價值。
除了平臺之外,Teradata認為,大數(shù)據(jù)項目也需要適當?shù)娜藛T技能和流程制度。技能其實也和平臺有關,例如Teradata Aster,客戶如果本來有一些SQL或者R的分析人員,可以給他們建立一個比較小的Aster平臺,然后用Hadoop做一些比較簡單的數(shù)據(jù)收集、數(shù)據(jù)存儲的工作,大部分的數(shù)據(jù)挖掘、數(shù)據(jù)價值的發(fā)現(xiàn),在他們比較熟悉的平臺里面去做,不需要另行引進新的專業(yè)人才。
從整個流程方面,Teradata建議,要從業(yè)務部門開始,定一個哪怕比較模糊的目標,而不是脫離業(yè)務去搭一個平臺?子钊A表示,有了目標,雖然不知道中間的路怎么走,但能夠大概知道所需要的數(shù)據(jù),這就可以從分析層面不斷試錯,從簡單的數(shù)據(jù)分析、到路徑分析、關聯(lián)分析,將成果展示給業(yè)務部門,一般不可能一蹴而就,但把框架搭建起來以后,就可以很快地去調(diào)整每一個部分的內(nèi)容,從而更快地把一個大數(shù)據(jù)項目做好。