范喆 發(fā)表于:14年12月02日 19:24 [原創(chuàng)] DOIT.com.cn
2014年12月2日DOIT編輯北京報道:2014(第十屆)中國存儲峰會今天在北京召開,大會以“掌控數(shù)據(jù)經(jīng)濟(jì),重塑商業(yè)價值”為主題,詮釋在IT走向DT時代下,如何通過數(shù)據(jù)重塑商業(yè)價值。大會共邀請了 16位頂尖第三方嘉賓,數(shù)十位專家,帶來了35場前瞻性演講+2場圓桌討論,并首次推出硅谷創(chuàng)始人訪談和存儲夜宴活動!
在當(dāng)天下午的大數(shù)據(jù)分論壇上,來自大數(shù)據(jù)商策聯(lián)盟創(chuàng)始人俞楠與大家一同分享了《如何愉快的和別人討論大數(shù)據(jù)》。
以下是演講實錄:
俞楠:大家好,我原來也是在存儲行業(yè)做了差不多快15年。在15年前,我在集成廠商做過,剛才他們講的一些歐美的企業(yè)廠商我也工作過,我自己本身從技術(shù)開始,一直跟著DOIT,在行業(yè)當(dāng)中也看到很多問題,今天跟各位分享一下我們的經(jīng)驗和觀點。
為了搞笑一點,我把我的抬頭改成無證數(shù)據(jù)科學(xué)家。上午有一位做科學(xué)數(shù)據(jù),我叫數(shù)據(jù)科學(xué),其實這個沒有什么太大區(qū)別,本身還是在于對數(shù)據(jù)的使用。前面很多專家,同行都講各自的方案,其實這里面會有一個問題。我們實際上發(fā)現(xiàn)業(yè)界所做的這些技術(shù)已經(jīng)遠(yuǎn)遠(yuǎn)超過了產(chǎn)業(yè)界的需要跟發(fā)展。事實上我們假設(shè)它在處理數(shù)據(jù)的時候會碰到各種各樣的問題。比如處理新聞的慢,帶寬不足,事實上他們還沒有到這個階段,在這個階段之前有一個更前端的問題,就是他們怎么用的。所以,在這個角度,我們可以從商業(yè)的角度談一下我們怎么看待大數(shù)據(jù)這件事情,你跟別人聊天是怎么聊的。
所以,今天我的議題大概也是從三個方面開始進(jìn)行著手。第一、跟大家進(jìn)行一些簡單的交流,把我對大數(shù)據(jù)的看法跟認(rèn)識跟大家做一些討論。第二、剛才聽了很多技術(shù),我分享一些案例,這個案例產(chǎn)生的時候,那時候沒有大數(shù)據(jù)。但是,你竟然的發(fā)現(xiàn)這家公司所做的就是大數(shù)據(jù),而且是非常成功的大數(shù)據(jù)。最后給大家做一點小小的科普,雖然來的都是專家,但是這個科普會給大家講一些可能大家以為很熟悉,其實你發(fā)現(xiàn)完全不是那么回事的技術(shù)。
從交流開始,大家定一下什么是大數(shù)據(jù)。如果把每個人對于大數(shù)據(jù)的定義比作盲人摸象,其實每個人對大數(shù)據(jù)的定義都不一樣。你們認(rèn)為大數(shù)據(jù)可能是一種思維,是一種武器,有些人甚至認(rèn)為它是一種技術(shù),像今天我們會偏重大數(shù)據(jù)的技術(shù)角度。還有些人認(rèn)為大數(shù)據(jù)是將來競爭的手段,我們從IT轉(zhuǎn)到DT,轉(zhuǎn)的就是資產(chǎn)。還有人認(rèn)為大數(shù)據(jù)代表商業(yè)的環(huán)境,其實這些概念都對。所以,我們可以這么想,大數(shù)據(jù)是一個整體的產(chǎn)品,不能脫離任何的一個層面。你跟別人談大數(shù)據(jù),怎么把這個話題真正切入到大數(shù)據(jù)范疇。
這是一個悖論,維克托·邁爾-舍恩伯格的《大數(shù)據(jù)時代》里面談到他的一些觀點,我認(rèn)為也對,也不對,他說數(shù)據(jù)越多越好,其實多是一個相對概念,多少算多。依然取決于你取得數(shù)據(jù)的能力。數(shù)據(jù)量的增大會帶有原有規(guī)律的嚴(yán)重失真。今天中午吃飯跟幾個專家在聊天,他們說其實業(yè)界對大數(shù)據(jù)的定義都認(rèn)為Excel做透視表。數(shù)據(jù)量的增大只會造成結(jié)果的不準(zhǔn)確,所以我們剛才談了很多,如何處理它,如何處理瓶頸,其實前面還有很多,構(gòu)造怎么清晰,怎么過濾,這才是大數(shù)據(jù)之前要做的事情,完全才會到我們底層,你用Hadhoop,還是用類似數(shù)據(jù)庫。我們今天這個論壇的主題叫做用大數(shù)據(jù)挖掘商業(yè)價值,其實應(yīng)該把商業(yè)放在第一位。
樣本=全量,根本不存在全量就算有,你也得不到,任何企業(yè)只能拿到相當(dāng)有限的數(shù)據(jù)。在國內(nèi)P2P音容非;穑幸患遗琶叭腜2P,他怎么做P2P的風(fēng)險審核,找了200多人的風(fēng)控團(tuán)隊拿著Excel為表看,分初控、中控跟終審,這樣的一家公司,公司發(fā)展規(guī)模這么大,每天處理200筆P2P貸款業(yè)務(wù)。如果把200筆想象成IO,7200轉(zhuǎn)一秒鐘過了IO可能都達(dá)不到峰值。
第二、放棄精準(zhǔn)性,接受混雜性,因為你要的并不是趨勢,而是根據(jù)在座每一位的特點定制出一個產(chǎn)品,這才是將來商業(yè)需要做的。有一些人是投資者,還有一些初創(chuàng)的,其實就算初創(chuàng)型的公司也分不同的行業(yè)。
第三、知道“是什么”就夠了,沒有必要知道“為什么”數(shù)據(jù)最終為個人服務(wù),這個為什么談到個人隱私,就是這個,如果個人只是作為一個ID,或者基于這個ID一系列數(shù)據(jù)分析匯總統(tǒng)計,你知道數(shù)據(jù)不代表什么。所以,這里其實每一個話都要設(shè)一個前提條件,如果沒有這個前提條件,你跟別人聊,我是大數(shù)據(jù),大數(shù)據(jù)就是樣本等于全量,這個其實是開玩笑的,很典型你不是甲方的人,你也沒有做過甲方。
這里有一個迷思,是大,我們這里講了Google、或者百度,或者Bing。上午一個專家講,如果你在阿里上搜索一樣?xùn)|西,然后你把瀏覽器關(guān)掉,你這個時候打開優(yōu)酷,或者打開別的什么網(wǎng)站,你會發(fā)現(xiàn)旁觀有一個你剛才瀏覽過的東西的推薦,這是基于Cookie做的。如果你在阿里上瀏覽一個冰箱,你發(fā)現(xiàn)這個東西價格差的太大,我轉(zhuǎn)到京東上看一下,然后到京東上看完,京東不錯,我又到蘇寧網(wǎng)站看了一下,最終在京東下了訂單,這時候你再打開瀏覽器,還是會有,因為阿里不可能知道你在京東上已經(jīng)買完個東西,談何精準(zhǔn)營銷呢?所以,事實證明光“大”是不行的,真正的指標(biāo)是什么?這個值得大家思考。
還有一些迷思是統(tǒng)計算法,上午談到過了雙十一以后,哪個地區(qū)的女生會買什么Size的內(nèi)衣,會給你一個統(tǒng)計,因為這個統(tǒng)計非常簡單,一看湖南省發(fā)貨量C Size多少個,這些數(shù)據(jù)未必百分之百準(zhǔn),但是它代表一定的趨勢。還有一個他不關(guān)心原因,而關(guān)心相關(guān)性,但是核心的問題不在于相關(guān)性。你看一下,其實基于數(shù)據(jù)科學(xué),或者我們一直強(qiáng)調(diào)數(shù)據(jù)科學(xué),如果大家關(guān)心這幾年趨勢的峰值服務(wù),你發(fā)現(xiàn)大數(shù)據(jù)在前兩年屬于頂峰期,今年已經(jīng)很下降了,跟前幾年的云計算是一樣的。今年取而代之在大數(shù)據(jù)的就是數(shù)據(jù)科學(xué),因為它不是由數(shù)據(jù)出發(fā),而是由業(yè)務(wù)作為出發(fā)點。所以,它之間的相關(guān)很可能不具有價值,所以這是一個英文的職業(yè),所以說,這個我們所說的數(shù)據(jù)科學(xué)家不應(yīng)該是一個人,它應(yīng)該是一個團(tuán)隊,是業(yè)界專家,優(yōu)秀的數(shù)據(jù)科學(xué)家。如果我們做團(tuán)隊,怎么從業(yè)務(wù)出發(fā),從里面挖掘數(shù)據(jù)呢?
目前來講,我認(rèn)為現(xiàn)在很多大數(shù)據(jù)分析都是偽大數(shù)據(jù),我都會從幾個可操作成本考慮,目前大數(shù)據(jù)在商業(yè)方面的用途主要集中在三個方面。第一、Social-CRM。第二、推薦系統(tǒng)。第二、營銷系統(tǒng)。因為這兩個系統(tǒng)的容錯空間比較大,推薦給你錯了,大不了再推薦一次。如果你把大數(shù)據(jù)用在一個商業(yè)指標(biāo)上,讓今年的股票上升一塊錢,你看看敢不敢這樣做,因為它不準(zhǔn)。所以,我們今天看到營銷,這也是為什么你拿樣本,拿全量,不如拿到一個人小規(guī)模的樣本,因為你不了解他。
所以,這個里面特一些我覺得稍微比較老土,或者學(xué)術(shù)化的觀點。大家都是做IT的,可能有一天都會變成一個創(chuàng)業(yè)者,你任何思考角度不應(yīng)該從底層角度思考。比如要學(xué)會量化事物,大數(shù)據(jù)主要做量化分析,如果妹子們將來跟男朋友說,你不愛我,我建議你這樣講,上周你陪了我七天,每周1個小時,本周你陪了我3天,每次25分鐘,從數(shù)據(jù)表明,你對我的關(guān)心在下降。第二、不要現(xiàn)象分析及要做預(yù)測。大部分時間,其實這個商業(yè)應(yīng)用是市場或營銷人員。對于技術(shù)人員,更多考慮實現(xiàn)的手段和效率,大數(shù)據(jù)其實應(yīng)該是怎么去實現(xiàn)?比如你有大量的文本文件,有大量的語音語義的分析系統(tǒng),比如剛才講了一個叫輿情分析系統(tǒng),就是評價這個人的傾向。上海一個汽車廠說,有了這樣一個東西真好,微博,我可以在上面做民意調(diào)查,有一款樣車要投產(chǎn),他發(fā)現(xiàn)轉(zhuǎn)發(fā)率非常高,結(jié)果虧了幾千萬。再仔細(xì)一看,發(fā)現(xiàn)很多人在底下轉(zhuǎn)的是說從來沒有見過這么難看的車。還有一句,重音放在哪個字節(jié)上,這句話完全有不同的含義,但是重音在大字上是看不出來的,比如這句話?我沒有說你不好,把重音放在“說”上,或者把重音放在“你”上,我沒有說你不好,我說小明不好。所以,這個方面科大訊飛走的非常領(lǐng)先,可以根據(jù)你的語音得到你的情感。還有不單是互聯(lián)網(wǎng)思維,更要移動互聯(lián)網(wǎng)思維。手機(jī)可以作為你器官的一個延伸。數(shù)據(jù)要獲取,前提是要被量化,然后是情景化,這個采集好,才能做后面的分析乃至于挖掘,所以第一步非常重要。
我問過很多人,關(guān)于量化是什么意思?我做過小測試,如何量化湖里魚的總數(shù),答案非常多。其實這里混淆了一個概念,就是量化跟精確技術(shù)是不一樣的,你要做的只是把這件事情量化,但是不是精確的使用這數(shù)據(jù),比如今天來了76個人,我看了一下今天大概來了70多個人,這是量化。海外科學(xué)家怎么做的?它先抓一批魚,假設(shè)1000條,然后把魚打了標(biāo)記再放回去,過一段時間,再打一批魚,發(fā)現(xiàn)有多少打了標(biāo)記,如果還有50%,這說明有1000條左右。這其實才是我們今天要討論的,就是要設(shè)定情境,情境在學(xué)術(shù)當(dāng)中叫基于上下文。如果你要獲取大數(shù)據(jù)資源,從哪里采集數(shù)據(jù),一定要設(shè)定一個情境,情境構(gòu)造一個特定的環(huán)境,情境是屬于每個人在這個情境當(dāng)中所做的事情是完全不一樣,會根據(jù)環(huán)境進(jìn)行區(qū)分,而不是你這個人進(jìn)行區(qū)分,這是大數(shù)據(jù)獲取的第一步。
我們可以看到,如果把情境的影響因子解釋成X,當(dāng)情境變化的時候,這件事情會發(fā)生改變,比如同樣今天坐在這里,假設(shè)今天換一個情境,假設(shè)是復(fù)旦的校友會,情境完全不一樣。比如這些情境,流失模型、購物籃分析、推薦系統(tǒng),比如有一個客戶畫像系統(tǒng),基本上通過手機(jī)號可以知道你年齡是多少,因為手機(jī)號碼不會告訴你性別,平時買過什么東西,大概可能住在哪里?這怎么可能?當(dāng)然有可能。
如果在一個大數(shù)據(jù)的系統(tǒng)當(dāng)中,可能涉及到的東西非常多,在樹干上可以延展出這么多枝丫,宏觀的、微觀的,做洞察的,我們上個星期給車聯(lián)網(wǎng)的做了一個畫像,這是宏觀的,另外有一個微觀的。另外這群人,它的社交頻度都不一樣,有一個挺有意思的現(xiàn)象,就是車友會,你覺得你開寶馬能不能加入馬薩拉迪的車,這是不可能的,但是誰規(guī)定開包車的人不可以認(rèn)識馬薩拉迪的人,是人為的畫了一些界限。還有一個做完這些分析以后,你最終要做汽車后市場,舉個例子,怎么做汽車后市場,如果我知道你開的是別克,2012款,紅色,2.0T排量,當(dāng)時買車預(yù)估28萬,經(jīng)過兩年,假設(shè)沒有任何大的碰撞,現(xiàn)在車假跌到18萬,F(xiàn)在要對接一個金融,就是要推一輛奧迪A1車,這輛車30萬,我為什么要推給你,因為你在別的網(wǎng)站經(jīng)?催@輛車。所以,這就是我說,他知道真正精準(zhǔn)的了解你,才能做真正精準(zhǔn)的匹配,這才是大數(shù)據(jù)將來做營銷的意義。所以,一定要看到微觀和宏觀的畫像。
這個人的社交、活躍度,這個比較簡單,它只是代表他不同的緯度而已。從平臺角度來看,排除掉剛才我們所講的任何的公司,產(chǎn)品,所以公司的大數(shù)據(jù)架構(gòu)幾乎都是這個樣子。在前面少了什么東西?我們把采集系統(tǒng)跟清洗系統(tǒng),有人知道ETL,ETL其實很難,因為你要新打標(biāo)簽,再做清洗,再做過濾。上海有一個實時的抓套牌車,如果你車停在紅綠燈這邊,首先有一個攝象頭,把你的車牌拿到,OCR掃描出來,放到庫里做碰撞比對,庫里大概10億多,原來碰一次到半個多月,等你車開到安徽,它在里面還沒有,現(xiàn)在要求5秒鐘之內(nèi),你想這個難度有多高,這就是實時的,而且還沒完,分析出你這輛車是套牌車,要通知刑警在下一個可能的路口布控把他逮到。交通警跟刑警沒有關(guān)系,你怎么調(diào)配它的系統(tǒng)。還有要實時相應(yīng)的是12306,買火車票,你說你按一下查詢,結(jié)果它半個月以后告訴你沒有票了,這簡直是開玩笑,你不用回家了。所以說,不同的反映對于大數(shù)據(jù)的架構(gòu)不一樣。比如金融,上海有一家公司叫大智慧,做股票分析行情的,它的就是把所有數(shù)據(jù)拿回來,清洗以后給你一個新聞,幾千億。所以,其實不同的大數(shù)據(jù)下,應(yīng)該選擇不同的應(yīng)用,這是我們在前端看到的更大的問題。
講一下算法,算法要做什么東西?你想解決什么問題,你就后面有什么算法,我等一下會跟大家講一個算法,這個算法在我的公眾號上也有這個例子,這個例子非常經(jīng)典,它里面就用一個算法,我的想法,希望不管用不用IT技術(shù),這個算法可以在一分鐘之內(nèi)學(xué)會。這是其他的一些常用算法。
今天重點想跟大家分享一個案例,這個案例是2009、2010年做的,在當(dāng)年沒有大數(shù)據(jù),但是這個案例非常經(jīng)典。這是一個啤酒廠。這家啤酒廠本來要倒閉了,廠里有5000多人,在中國的南部,一個本地的小啤酒廠。他發(fā)現(xiàn)原來啤酒產(chǎn)能要靠代理商下訂單計算出來,下10萬箱,生產(chǎn)10萬箱,總有淡季、旺季。所以,廠長找到我們,我每天就想三件事兒。第一、產(chǎn)能怎么調(diào)整的準(zhǔn)一點。第二、怎么知道別人愛不愛喝我的啤酒。第三、我每天養(yǎng)5000多人,他沒有說Hadhoop怎么做,廠長不關(guān)心這個東西,廠長關(guān)心這個東西,這個是做商業(yè)。所以,你一定要把一把手拉進(jìn)來。
其實我們想了一個業(yè)務(wù)目標(biāo)的轉(zhuǎn)化過程,廠長提了三個問題,中國人開會,一群人開會,說怎么才能調(diào)整,我需要知道市場上真實的數(shù)據(jù),不是代理商給我10萬箱,8萬箱。第二、需要市場調(diào)研,原來沒有做。第三、根據(jù)上面的兩點制定新的銷售目標(biāo),這時候生成了一些最終的他可能要生產(chǎn)的東西。
當(dāng)時廠長說,第一、每個產(chǎn)線工人都去給我干銷售。第二、每個人配一臺智能那個什么東西。第三、工人的工資根據(jù)銷售量來決定。工人有固定工資,產(chǎn)能多少跟你沒關(guān)系,銷售的工資才是根據(jù)銷售量的。這是一個很大的創(chuàng)新。然后他做了這樣的業(yè)務(wù),大家對這個LoGo有沒有了解,當(dāng)年的Windows系統(tǒng)。他說你們明天不要來上班了,中間給我一家一家問,只問兩個問題,你昨天買了多少箱啤酒,今天你還進(jìn)多少箱,所以第二天可以精確到瓶。然后又延伸出幾個非常有意義的東西。第一、電子簽到,你不要來我們這兒,直接從街上小河邊簽到。第二、終端情況,他最后做到多細(xì),娃哈哈送水站,要多少箱啤酒。簽約情況。第三、GPS拜訪路徑,這個非常恨,這個東西才是最好玩的,本來當(dāng)時工人就差那啤酒砸我了,后來說我怎么知道你在不在,原來一小時上報一次地理位置,現(xiàn)在你每多出一家,給你一塊錢。后來工人提出能不能把上報時間改稱一分鐘,因為我跑的很快。后來他說為什么我去過那家,你沒有我的路徑,他會求你把他的路徑報上去。這時候你跟他說,這張圖出來,為什么河那邊沒有人買我們的啤酒,這是每天都會有,派一批人,你承包這一片,你承包那一片。到最后達(dá)到一個反效果,本來要開除5000工人,結(jié)果發(fā)現(xiàn)工人不愿意回來上班,產(chǎn)線上沒有工人。
他做了什么呢?第一、移動營銷新平臺。第二、精準(zhǔn)考核。第三、數(shù)據(jù)上報準(zhǔn)確率提高。第四、對競爭對手的掌握了如指掌。第五、經(jīng)銷商的服務(wù)質(zhì)量監(jiān)控。第六、市場動態(tài)精準(zhǔn)化。第七、及時提供決策依據(jù)。這家啤酒廠在廣西那邊。
講完啤酒,跟大家科普一下啤酒這個東西。大家知道啤酒與尿布這個案例嗎?這個故事我先重復(fù)一遍,就是美國一家超市沃爾瑪,發(fā)現(xiàn)啤酒和尿布的銷售是呈正關(guān)聯(lián),所以把尿布放在啤酒邊的位置可以帶動銷售。他怎么知道這兩個東西有正相關(guān)。這個故事有兩個意思,第一、大家對大數(shù)據(jù)實際的使用機(jī)制不了解,只知道Hadhoop,還是在內(nèi)存應(yīng)用,其實企業(yè)主關(guān)心這個,他想問你,如何用數(shù)據(jù)和算法給我?guī)韺崒嵲谠诘睦麧,所謂價值就是利潤,不然你怎么叫商業(yè)價值?談到賺錢,談到利潤,大體就兩個思路。第一、提高門檻。第二、發(fā)現(xiàn)一些規(guī)則。你怎么發(fā)現(xiàn)?其實啤酒和尿布的關(guān)聯(lián)性只為了提高銷量。什么叫關(guān)聯(lián)呢?假設(shè)你買了牙膏,你會發(fā)現(xiàn)旁邊還有一個柜子賣牙刷,這是最基本的嘗試。啤酒和尿布為什么深入人心呢?是因為你發(fā)現(xiàn)這個組合很有想象力。因為它超越了種族,竟然能關(guān)聯(lián)起來,你說尿布,或者不同品牌的尿布它可能有關(guān)聯(lián)性,或者嬰兒用品,或者奶粉,怎么跟啤酒有關(guān)聯(lián)性呢?所以說,這個最大的問題在于它是怎么超越種族進(jìn)行關(guān)聯(lián)?給大家隆重介紹一下這個算法,叫Apriori。
假設(shè)現(xiàn)在有六張購物清單,現(xiàn)在開始數(shù)數(shù),每種東西出現(xiàn)在幾張購物單上,比如大家看到火腿,1345、雞蛋是125號購物單。最后火腿占4/6,雞蛋占3/6等于。第二步,假設(shè)出現(xiàn)概率在50%,這個屬于偶發(fā)事件,把3/6以下的全部去掉,這個時候發(fā)現(xiàn)只有四張。接下來把這四種兩兩組合,這樣會產(chǎn)生六種組合。第三件事情,還是數(shù)數(shù),數(shù)一下這種組合在購物單中出現(xiàn)過幾次,這是原始的購物單,這是數(shù)出來的購物單;鹜群碗u蛋出現(xiàn)了兩次,火腿加啤酒出現(xiàn)兩次,火腿加尿布出現(xiàn)了一次,后來把這個算法做到沃爾瑪POS機(jī),沃爾瑪買了裝了這個算法的POS機(jī)才有這個案例。還有一個問題,我要把這兩個東西放在一起及是買啤酒的人伸手買尿布,還是買尿布的人伸手買啤酒呢?
買尿布的購物單一共四個,在這四個購物單中出現(xiàn)的比例是1、2、4、6,而在這4個購物單中出現(xiàn)啤酒的購物單是246,因此是3/4,類似的算一下啤酒,買啤酒的購物單一共有3個,分別2、4、6,而在這3個購物單中出現(xiàn)尿布的購物單是246,因此是百分之百。所以其實尿布和啤酒,還是啤酒和尿布,這個是有順序的。
感謝大家!
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.