有了這個數(shù)據(jù)庫去進行數(shù)據(jù)挖掘,或者在建立數(shù)據(jù)的過程中,企業(yè)需要從什么方向去探索,也不是漫無目的的。首先應該跟著你的業(yè)務,業(yè)務現(xiàn)在有哪些問題,或者說這個行業(yè)里面主要的競爭點在哪里,這是很關鍵的。有了這個業(yè)務關系以后,再形成假設,也就是說未來的競爭點可能在哪里,大到未來的戰(zhàn)略競爭,小到哪些方面。然后下一步要怎么做,這些形成一個假設,其次做一些小樣本的測試。很多企業(yè)一看大數(shù)據(jù)就很恐怖,說我也買不起那些大數(shù)據(jù),也雇不起那么專業(yè)的團隊,怎么辦?自己做一些小樣本的測試,甚至通過電子表格Excel都可以做數(shù)據(jù)挖掘。不一定非要那么龐大、那么貴的數(shù)據(jù)。然后再做大樣本的驗證,驗證出來的結(jié)果就可以應用到現(xiàn)實中去。
在大數(shù)據(jù)尤其是互聯(lián)網(wǎng)時代還有一個最重要的點,就是失效預警。即你發(fā)現(xiàn)一個規(guī)律,在現(xiàn)實中應用了,但是你一定要設立一些預警指標。就是當指標達到什么程度的時候,之前發(fā)現(xiàn)的規(guī)律失效,那你就必須發(fā)現(xiàn)新的、相關的,否則也會造成一種浪費。筆者看到一篇文章,其中有一個重要結(jié)論。大家都在說大數(shù)據(jù)的價值很有用的時候,很多企業(yè)說我積累了多少TB,多少PB,但是你基于老的數(shù)據(jù)得出的很多結(jié)論實際是在浪費你的資源。你挖掘出來很多數(shù)據(jù)、很多規(guī)律,如果錯了,明天按這個去做,就是浪費。因此需要有一個失效預警。在這樣的過程中,最終你需要對應建立起內(nèi)部團隊,他們對數(shù)據(jù)的敏感度也才能培養(yǎng)起來。這時候你再去買大數(shù)據(jù)服務的時候才是有價值的。
所有這些工作作為企業(yè)來說是需要內(nèi)部去做的,最終才能開花結(jié)果,有一些收獲。企業(yè)大數(shù)據(jù)起步,要從小數(shù)據(jù)開始。
注1:關于數(shù)據(jù)挖掘過程中是直接上來就大數(shù)據(jù)、全數(shù)據(jù),還是可以從一些小數(shù)據(jù)、小樣本入手,這方面目前存在一些爭論。本文為復旦大學主辦的“大數(shù)據(jù)與營銷傳播”高峰論壇的演講稿整理,僅代表作者觀點,供參考。