大數(shù)據(jù)的定義是什么?
“昨天網上搜集了一組數(shù)據(jù),第一個是我們的實體商店,第一百貨王府井銷售額是150億,我們再來看一下天貓商城2011年的交易額,不是一個數(shù)量級的。一千個億,這一組數(shù)據(jù)表明了從我們的維度來講的話,就是說他的量,我們大數(shù)據(jù)首先大家肯定要考慮建一個量。我們看一下天貓商城2012年11月11日的,這個數(shù)據(jù)大家都比我清楚,大概是191億,當天的銷售額超過了實體店一年的銷售額。” 顏陽講到。這說明什么問題呢?網上購物基本上是單筆金額不太多。但是如果說達到190億的銷售額,實際上處理速度是比較快的。從這個維度上來講的話大數(shù)據(jù)是體現(xiàn)了速度,這個案例實際上是說明我們大數(shù)據(jù)是比較關鍵的,它是不同類別的,包括結構化和非結構化的數(shù)據(jù)。
大數(shù)據(jù)里面,我們覺得這三個維度是同樣重要的。既有速度,又有數(shù)量,還有類別,集合在一起,就變成了中間復雜度更高的這樣一種情景出來。這種情景出來以后我們怎么樣去解決呢?由于消費者和生產者的概念融合,使得我們終端用戶的角色也發(fā)生了變化,也就是使我們終端用戶,既可以消費數(shù)據(jù),也可以產生數(shù)據(jù)。
這里面是有幾個觀點給大家分享一下。現(xiàn)在大家說大數(shù)據(jù)是新時代的石油,有些方面是正確的,因為說大數(shù)據(jù)是新時代的石油,說明它還有很多價值沒有挖掘出來。比如說石油是需要勘測的,這里跟我們大數(shù)據(jù)應用是關聯(lián)的,我們數(shù)據(jù)一定要找到有用的數(shù)據(jù),才能夠放到應用空間去。第二個是我們的數(shù)據(jù)需要挖掘的,挖掘需要相應的處理模型跟我們數(shù)據(jù)做關聯(lián),我們的數(shù)據(jù)是越挖價值越大的。所以我們說大數(shù)據(jù)是新時代的石油,應該是有某些方面是正確的。
大數(shù)據(jù)為存儲廠商帶來的機遇
存儲廠商提出很多應用方案,需要和用戶進行對接。但是對用戶來講,要考慮投入和產出比,這些時候,數(shù)據(jù)需要有良好的架構來處理真正的大數(shù)據(jù),這種比較復雜的應用?,F(xiàn)有的解決大數(shù)據(jù)的問題,一個企業(yè)如果數(shù)據(jù)都是信息孤島,你要處理大數(shù)據(jù)基本上是無法實現(xiàn)的。因為大數(shù)據(jù)處理的話,一個量大,一個是效率比較高。
最后一個數(shù)據(jù)是安全,特別是提到了大數(shù)據(jù),我們特別關注的是安全。因為金融行業(yè)在做大數(shù)據(jù),包括云計算的推進的話,是相對比較低調的。正是因為安全的問題的話,他困擾著不管是我們的用戶,困擾著我們的廠商,也困擾著我們的使用者。那么怎么解決現(xiàn)在大數(shù)據(jù)遇到的這些問題呢?第一個,我們的應用要進行切分,OLTP和OLAP放在一起傳統(tǒng)的解決的話,要做數(shù)據(jù)分析效率提不高,為什么?這兩種應用是有很大的質的區(qū)別。
比如說在線的事務處理,很多有操作,分析上處理的話,主要是查詢,查詢是對磁盤的數(shù)據(jù)的交換,這里面是差別比較大的。
第二個是解決磁盤的寫盤的效率有很多方式。第一個是提高轉數(shù),提高轉數(shù)也不能完全解決問題。于是現(xiàn)在有很多的技術,包括SSD的技術,隨著生產成本降低,可能應用得比較多,但是現(xiàn)在來講的話,成本還是比較高。于是我們用戶在解決的時候,可以采取一種混合的模式來解決我們的應用問題。
另外,第三個是分布式存儲和共享式。我們在一些OLTP中多半是采用共享式的,但是在做OLAP的時候,很多用分布式的方式來解決,這里尤其是對大數(shù)據(jù)的應用非常重要。
大數(shù)據(jù)的安全很重要
那么,在安全的問題上,如果說我們將來的大數(shù)據(jù)放在云上面的話,一定要考慮安全,安全有兩個方面,一個是把公共的數(shù)據(jù)放在公有云上面。但是客戶的數(shù)據(jù),私有的數(shù)據(jù),客戶的資金情況,我們的股票的余額等等商業(yè)機密的話,應該放在自己的私有云上面,現(xiàn)在做得越來越多的是混合云的方式來實現(xiàn)的。
這里簡單說一下網絡存儲里面有很多的數(shù)據(jù)方式,包括網格的存儲也是有比較好的應用的前景。當然還有其他的存儲模式。隨著我們大數(shù)據(jù)的應用落地越來越多,我們會有很多的解決方案。
在行業(yè)里面,在應用我們的新的技術和架構,進行相關的服務,那么,現(xiàn)在的行業(yè)應用說到這么幾個特點,不知道大家有沒有關注。前兩天在開中央的金融工作會議,估計那邊可能會有一些相關的人士的變化。但是,整個的大金融里面,包括證券、銀行和保險,接下來的從2013年開始發(fā)生了創(chuàng)新,跟我們的想象,遠遠超出我們的想象接下來我們會簡單說一下證券行業(yè)是怎么樣變化的。
另外一個是新媒體和社交網絡的應用,在我們的行業(yè)里面也越來越多了。大家最早從微博,然后再從網站上獲取相關的大數(shù)據(jù),垂直應用到我們的金融里面,現(xiàn)在的案例是逐漸的多起來了第二個,金融業(yè)格局的變化,“我九月份在一個雜志上發(fā)表了我的觀點,就是說不管我們承認與否,從某個角度來講,信息化在整個金融企業(yè)中的地位是改變了金融企業(yè)生態(tài)。怎么來講,就是說金融企業(yè)肯定是要有IT來支撐的就是說金融企業(yè)必須有IT屬性的。但是企業(yè)的IT屬性達到了一定的程度,這個企業(yè)就具備了金融的特質,也就說具備了金融的特征。”
實際上的話,我們行業(yè)發(fā)生了很大的變化,我們的行業(yè)創(chuàng)新是以大家想不到的速度在發(fā)展,現(xiàn)在的行業(yè)馬上要推出,包括虛擬股權的交易,這種帶來的變化,我們很多中小企業(yè)都是比較容易的涉足到資本市場的。以前是要上上交所,或者是深交所的。以后有很多的渠道了。
探測石油要講到好的數(shù)據(jù)源,要使用我們應用的數(shù)據(jù)源。在這個大數(shù)據(jù)的前提下,一定要找到一個好的處理架構。第三個我們的處理流程是可以固化的。第四個,我們的處理的主題一定是不能太泛,太泛的話到了后面是不能收斂的。第五個我們設計的算法一定要簡單,要快捷。第六個,我們可以通過各種手段進行發(fā)布,使得我們的客戶比較容易想到這樣的一些服務。“我這里具體講,比如說現(xiàn)在我們利用大數(shù)據(jù)的數(shù)據(jù)源來解決現(xiàn)有的,大家在網上的分析和我們的綜合指數(shù)的一個對比。這里的話,我們可以通過我們相關金融性網站和微博進行相關的信息采集。第三個是一定要做一些預處理,比如說廣告和垃圾信息,這些信息的處理都有相關的原則。”
然后要建模和分析,這是比較難的,大家知道中文的處理和英文的處理是有很大的區(qū)別的,相關的拆分字詞的話,含義是不一樣的。這有一個歷史積累的問題。我們可以選擇三級和五級,最后我們利用標準發(fā)差,剛才講了很簡單的算法,都可以得出大家對我們股市的研判的分析程度。第五個通過我們的方式把用戶提供給客戶。這個做出來以后有什么用處呢?
第一個,我們的可混拿著這樣一個信息的話,多了一種給我們提供決策的信息源,以便他可以進行資產配制。如果比如說前不久有一些白酒出現(xiàn)了一些問題,如果說我們在第一時間能夠知道這樣的信息的話,我們可以對我們的手上資產配制做一些調整。這樣的話只要比人家快五分鐘和八分鐘。我們的損失就會減少到最低的程度。第二個是我們可以引導自己或者是客戶做一些交易的篩選。第三個,我們的客戶也可以用這些數(shù)據(jù)來做一些診斷。比如說360在電腦上面可以提供一些基本數(shù)據(jù),客戶可以進行分析和診斷,也可以進行一對一的服務和診斷。最后一個我們可以把這些數(shù)據(jù)定制成一種產品,進行一對一的服務。
所以說這樣的一個簡單的應用,當然還有很多的路要走,因為我們在網上的數(shù)據(jù)源受到一些因素,比如說人為的因素和其他的不可預料的因素的影響,使得我們的數(shù)據(jù)源不太穩(wěn)定,或者是產生誤導,這需要時間的積累,國外已經有案例,中國的輿論導向。大家的市場化程度不高的情況下,通過這種應用的話,它的效率可能會更高。
大數(shù)據(jù)機遇和挑戰(zhàn)
第一個是金融行業(yè)要進行產業(yè)升級,金融行業(yè)學習了工業(yè)的自動化,使得我們的產品生產線也是在進行產業(yè)的升級。不同的原料可以產生不同的生產產品。于是包括產品的生命周期的控制,我們的客戶的生命周期的控制,以及我們的服務的生命周期的控制都要體現(xiàn)出來。
第二個是敏捷化的服務,前面講了,要真正做好數(shù)據(jù)化的服務,必須要有我們懂得IT技術,懂得業(yè)務的人進行主動的服務。所以說這種敏捷化的服務,就給我們提出了很多的要求。
第三個,運維發(fā)生變化,以前的我們的應用系統(tǒng)都是屬于通過項目管理完了就結束了,所有的運維的周期的話,都是和業(yè)務來做,以后的數(shù)據(jù)必須要運營的。所以說我們的IT也要主動的站出來服務。
第四個是傳統(tǒng)的,哪怕企業(yè)建成數(shù)據(jù)中心以后,到了一定的時間拐點,一定要上升到數(shù)據(jù)化的數(shù)據(jù)中心,也就是說要和互聯(lián)網打通,這樣的一打通就是我們所說的大數(shù)據(jù)的落地時候到了。
第五個是大數(shù)據(jù)的商業(yè)智能,實際上這是現(xiàn)在有很多的實戰(zhàn),客戶的流失分析必須有相關的支持。這種數(shù)據(jù)拿過來以后我們要進行挖掘,挖掘完了以后找到可以影響它的相關因子再分析,分析完了以后就分解到我們業(yè)務方面,改變我們的業(yè)務模式。
顏陽最后講到大數(shù)據(jù)的出現(xiàn),有機遇也有挑戰(zhàn)。可能在將來的時候的話,我們在大數(shù)據(jù)的應用的話,一定是跟云計算的應用是結合起來的。當前云計算的推進遇到的一些瓶頸經過大家的努力,未來一定會融合會越來越好。