主持人:下一個(gè)主題大家非常關(guān)心的,我們下面有很多是來(lái)自創(chuàng)業(yè)公司。很多的創(chuàng)業(yè)公司,每一個(gè)人都要負(fù)責(zé)非常多的事,技術(shù),開(kāi)發(fā),運(yùn)維都要關(guān)心,很多的小公司,可能搜集了很多的原始的數(shù)據(jù),怎么樣把這些價(jià)值挖掘出來(lái),相信很多技術(shù)的朋友關(guān)心的話(huà)題。
這次我們的這個(gè)主題,以數(shù)據(jù)為源,分析數(shù)據(jù)的加強(qiáng),我們也特別的邀請(qǐng)了行業(yè)里面非常成熟的案例,參考他們的成熟的案例,快速的建設(shè)我們的技術(shù)體系,發(fā)揮我們技術(shù)的價(jià)值。第一個(gè)分享是來(lái)自貝貝網(wǎng)的大數(shù)據(jù)負(fù)責(zé)人,和大家分享一下在電商行業(yè)里面的典型的案例,大家歡迎。
周黃玲:大家下午好。我是周黃玲,來(lái)自貝貝網(wǎng),貝貝網(wǎng)是一家專(zhuān)注母嬰特賣(mài)的電子網(wǎng)站,很高興和大家一起分享大數(shù)據(jù)平臺(tái)和技術(shù)實(shí)踐。我就讀北京郵電大學(xué),2012年加入搜狗,2014年加入天貓,現(xiàn)在是在貝貝網(wǎng)負(fù)責(zé)大數(shù)據(jù)相關(guān)的工作,我們先看一下。母嬰特賣(mài)相對(duì)一般的電子商務(wù)網(wǎng)站有一些什么特點(diǎn),我這里總結(jié)了三個(gè),第一個(gè)特點(diǎn)是商品周期短,在我們網(wǎng)站上的商品,在線(xiàn)的時(shí)間不會(huì)超過(guò)5-7天,第二個(gè)是用戶(hù)需求的變化快,在母嬰行業(yè),可能是用戶(hù)的需求變化最快的領(lǐng)域,比如是用戶(hù)處在懷孕當(dāng)中,關(guān)心的是孕媽的一些問(wèn)題,幾個(gè)月以后,隨著寶寶的落地,就會(huì)準(zhǔn)備一些紙尿褲和奶粉,而且隨著寶寶的長(zhǎng)大,紙尿褲和奶粉的類(lèi)型也會(huì)變化。
第三個(gè)是移動(dòng)化,我們有80%的成交是來(lái)自移動(dòng)端的。手機(jī)端的屏幕非常的小,可以給客戶(hù)的信息非常的有限,所以需要我們幫助用戶(hù)找他有興趣的東西。我們希望為網(wǎng)站的活動(dòng)提供大數(shù)據(jù)的支撐,第二個(gè)是個(gè)性化的推薦,搜集用戶(hù)的行為,全面的了解用戶(hù)的購(gòu)物意圖,推薦用戶(hù)感興趣的商品。
這是我們的架構(gòu)圖,最下面的是我們的數(shù)據(jù)搜集,這一部分的話(huà),等一下會(huì)有一個(gè)介紹。我們用的是離線(xiàn)結(jié)果,時(shí)時(shí)計(jì)算,以后搜索引擎,在算法層有協(xié)同過(guò)濾,分類(lèi)產(chǎn)生一些用品的商品特征,以后排序的模型。在業(yè)務(wù)層的話(huà),業(yè)務(wù)的類(lèi)型是豐富多彩的,我們會(huì)融入一些運(yùn)營(yíng)的規(guī)則進(jìn)行調(diào)整,包括一些個(gè)性化的調(diào)整和推薦,以及營(yíng)銷(xiāo)。
右邊數(shù)據(jù)報(bào)表我們有面向運(yùn)營(yíng)的,面向商家的,我們會(huì)涉及用戶(hù)的瀏覽日志,在PC上的一些行為,比如是用戶(hù)瀏覽了一些什么商品,電極了一些什么商品,對(duì)消費(fèi)也有二種方式,一種是實(shí)時(shí)消費(fèi),另外是進(jìn)行數(shù)據(jù)的挖掘。一住是基于全面的拉取,這種方式會(huì)在每天的凌晨進(jìn)行一次統(tǒng)計(jì),但是這種方式會(huì)有一天的延時(shí),比如是今天上線(xiàn)的活動(dòng),可能明天才知道這個(gè)活動(dòng)的效果,因?yàn)槲覀冄邪l(fā)了一套實(shí)時(shí)的數(shù)據(jù)研發(fā)系統(tǒng),任何需要實(shí)時(shí)消費(fèi)的系統(tǒng),只要訂閱三個(gè)就可以了。
分布式的調(diào)度是我們的核心,在我們的大數(shù)據(jù)平臺(tái)處于一個(gè)指揮的作用,比如是任務(wù)管理,任務(wù)監(jiān)控和任務(wù)日志,我們研發(fā)了一套分布式的系統(tǒng),里面有二種角色。Master主要是負(fù)責(zé)任務(wù)的管理,任務(wù)的分配,任務(wù)的執(zhí)行,任何的Master掛掉,都不會(huì)影響我們系統(tǒng)的運(yùn)營(yíng)。
在我們的整個(gè)的平臺(tái)上,很大一部分是推薦的產(chǎn)品,第一類(lèi)是個(gè)性化的排序,個(gè)性化排序的特點(diǎn)是在侯選級(jí)的情況下,根據(jù)用戶(hù)的不同的購(gòu)物的用途,為用戶(hù)做個(gè)性化的排序,用戶(hù)到達(dá)我們網(wǎng)站的時(shí)候,我們會(huì)推薦所有在線(xiàn)的品牌特賣(mài),比如是一天500個(gè),根據(jù)用戶(hù)的購(gòu)物的意圖,做個(gè)性化的數(shù)據(jù)。
第二個(gè)是關(guān)聯(lián)推薦,比如是推薦和這個(gè)商品相似的商品,購(gòu)買(mǎi)的商品可以推薦搭配的商品。第三個(gè)是個(gè)性化推薦,給指定的用戶(hù)推薦他感興趣的商品,比如是在用戶(hù)的資料的頁(yè)面,我們會(huì)直接給用戶(hù)推薦他感興趣的商品。
除了這三種推薦的形式,包括我們會(huì)通過(guò)個(gè)性化的短信,個(gè)性化的推送,引導(dǎo)用戶(hù)到我們的平臺(tái),我們會(huì)給用戶(hù)推薦感興趣品牌,我們會(huì)對(duì)商品進(jìn)行個(gè)性化的排序,還會(huì)有相似商品的推薦,用戶(hù)交易的環(huán)節(jié),還會(huì)推薦和這個(gè)商品搭配的商品,包括周期購(gòu)買(mǎi)預(yù)測(cè)等。
為什么會(huì)有這種推薦,可以從二個(gè)方面來(lái)看,一個(gè)是我們網(wǎng)站本身是一個(gè)輕搜索重推薦的模式,在我們的網(wǎng)站上搜索的功能是非常的弱化的,我們最近的上線(xiàn)的搜索框也很不明顯,這是一個(gè)推薦商品非常重要的渠道,從推薦的本身來(lái)說(shuō),也可以看到它的三個(gè)方面價(jià)值,提升用戶(hù)的購(gòu)物的體驗(yàn)。幫助商家找到感興趣的用戶(hù),也可以提高他的銷(xiāo)售額,對(duì)整個(gè)平臺(tái)來(lái)說(shuō),只有服務(wù)好用戶(hù)和商家,才能得到一個(gè)比較好的持續(xù)的發(fā)展。
推薦這么的重要,最重要的是用戶(hù)畫(huà)像,這是我們的吉祥物貝貝,我們會(huì)對(duì)它進(jìn)行二個(gè)部分,一個(gè)是靜態(tài)的畫(huà)像,比如是性別,年齡,寶寶的年齡性別,以及一些動(dòng)態(tài)的畫(huà)像,比如品牌,購(gòu)買(mǎi)時(shí)間,購(gòu)買(mǎi)渠道等等,我們的這個(gè)行業(yè)里面,最重要的一個(gè)特征就是用戶(hù)的性別年齡,不同的寶寶的性別年齡會(huì)影響到購(gòu)物的偏好,很大的一部分的媽媽是填寫(xiě)了一些用戶(hù)的信息的,比如說(shuō)寶寶的年齡是0-1歲,可以利用這個(gè)用戶(hù)的行為特征,比如是它的瀏覽次數(shù),收藏次數(shù),有了這樣子的模型,就可以來(lái)填寫(xiě)寶寶年齡的預(yù)測(cè)。
第二套很重要的標(biāo)簽是購(gòu)物偏好,主要是提到的一些動(dòng)態(tài)標(biāo)簽,比如是品牌內(nèi)部等等,我們會(huì)統(tǒng)計(jì)用戶(hù)在我們的平臺(tái)上的一些行為,根據(jù)這些行為的成本給予不同的選中,包括瀏覽電極,啟發(fā)式的做法非常的簡(jiǎn)單,也是非常的容易理解,這些參數(shù)不好確定,這個(gè)時(shí)間的衰減應(yīng)該做如何的衰減的程度。
我們現(xiàn)在正在用機(jī)器學(xué)習(xí)的方式做用戶(hù)的偏好預(yù)測(cè),把用戶(hù)當(dāng)前的購(gòu)物的偏好做特征來(lái)進(jìn)行一些購(gòu)物的偏好。有一個(gè)很重要的推薦的類(lèi)型是個(gè)性化的排序,當(dāng)用戶(hù)到了我們的PC首頁(yè)的時(shí)候,會(huì)展現(xiàn)每天500個(gè)在線(xiàn)的專(zhuān)場(chǎng),用戶(hù)很難通過(guò)翻頁(yè)的方式來(lái)瀏覽所有的品牌,我們有一套規(guī)則的算法,模型有非常多的特征,可以考慮非常多的因子,規(guī)則往往是只有幾個(gè)關(guān)鍵的因子,比如是會(huì)把GMA往前排,規(guī)則是靠經(jīng)驗(yàn)和參數(shù)的。已經(jīng)形成了一個(gè)優(yōu)化的問(wèn)題。還有模型很方便加入用戶(hù)的特征做個(gè)性化的特征。
第一檔就提升了6%,至于怎么樣做,這個(gè)就是一個(gè)學(xué)習(xí)的流程,主要是離線(xiàn)和在線(xiàn)二個(gè)部分,在線(xiàn)系統(tǒng)搜集到了排序以后,也會(huì)根據(jù)用戶(hù)的ID和品牌的ID,構(gòu)建同樣的特征和模型進(jìn)行組合,就可以得到用戶(hù)對(duì)每一個(gè)平臺(tái)的分?jǐn)?shù)。
那特征是這里面最重要的一部分,有屬性特征,主要是各種維度的特性,還有是統(tǒng)計(jì)特征,還有偏好特征,偏好特征是我們做個(gè)性化推薦的最基本的推薦,這個(gè)是和用戶(hù)有關(guān)系的,比如是用戶(hù)的畫(huà)像。在這里面,我們做了很多的嘗試,剛開(kāi)始的時(shí)候,有點(diǎn)擊率,點(diǎn)擊率很好做,我們發(fā)現(xiàn)點(diǎn)擊率的提升和我們的GMA的提升不是完全一致的。我們用過(guò)分類(lèi)和排序的算法,排序的算法會(huì)好一點(diǎn),分線(xiàn)型的模型也會(huì)更有優(yōu)勢(shì)一點(diǎn)。
我們到了電商網(wǎng)站的時(shí)候,肯定遇到過(guò)這樣子的產(chǎn)品,你看過(guò)的商品可能是感興趣的商品,在這個(gè)行業(yè)里面有很規(guī)律的算法,但是在母嬰特賣(mài)里面,有它自己的特點(diǎn),它的商品每一行是代表了一個(gè)用戶(hù),每一列是代表的一個(gè)商品,第一周上線(xiàn)的商品第三周上線(xiàn)的時(shí)候,另外二個(gè)已經(jīng)是下線(xiàn)了,第二個(gè)特點(diǎn)是在線(xiàn)的商品比較少,就會(huì)把舉證壓縮,這樣子的話(huà),對(duì)這個(gè)舉證會(huì)變的不這么的稀疏。第三個(gè)是這個(gè)行業(yè)的特點(diǎn),比如是寶寶的性別,寶寶的年齡是否是一致的,如果是一致的話(huà),那是否有一個(gè)持續(xù)性。1-3歲的話(huà),還可以,但是如果是對(duì)一個(gè)1-3歲的商品,可能就不大合適的。
我們根據(jù)這些特點(diǎn)做了一些改進(jìn),比如是我們有做時(shí)間,熱門(mén)打壓。相同的協(xié)同過(guò)濾的算法可能會(huì)不在線(xiàn),一種是機(jī)遇標(biāo)題和描述的相似度,還會(huì)加上運(yùn)營(yíng)的規(guī)則,是否匹配,有一些地方可以推薦同品牌,有一些可能推薦其他的品牌。
雖然我們剛才說(shuō)的對(duì)算法進(jìn)行了改進(jìn),單一的算法總是有一些局限性,因此我們現(xiàn)在正在做的是把多個(gè)算法結(jié)合在一起,比如是瀏覽的CF,購(gòu)買(mǎi)的CF加上用戶(hù)的特征,進(jìn)行一個(gè)個(gè)性化的重新排序,我們正在研究這么一套新的流程。
我們第一檔上線(xiàn)以后,可以看到在各個(gè)資源上都取得了很大的提高了,部分的資源上甚至是提高了500%的提升,我相信我們新的個(gè)性化的排列上線(xiàn)以后,會(huì)有更大的提升。
如果你購(gòu)買(mǎi)了一個(gè)商品,再推薦一個(gè)相似的商品,這是不合理的推薦,用戶(hù)購(gòu)買(mǎi)了一個(gè)商品以后,比如是夠末了C1以后,購(gòu)買(mǎi)C2是一個(gè)簡(jiǎn)單的記數(shù),比如是買(mǎi)奶嘴的用戶(hù)里面,39%的用戶(hù)會(huì)買(mǎi)奶瓶,買(mǎi)了紋胸的用戶(hù)里面,有20%的會(huì)買(mǎi)內(nèi)褲,買(mǎi)了紙尿褲的用戶(hù)會(huì)有30%買(mǎi)濕巾。
還有個(gè)性化的推薦的工作,但是還不完全一樣,主要是有一個(gè)很?chē)?yán)重的痛點(diǎn),經(jīng)常會(huì)收到一些短信的推送,可能是一些打擾的工作,但是在我們的平臺(tái)上,我們的運(yùn)營(yíng)也遇到了同樣的痛點(diǎn),他們想搞活動(dòng)的時(shí)候,他們也很難確定目標(biāo)用戶(hù)是什么,所以他們確定了精準(zhǔn)營(yíng)銷(xiāo)的框架,能夠幫助運(yùn)營(yíng),選出他的目標(biāo)用戶(hù),在適合的時(shí)間發(fā)送感興趣的商品
我們首先是會(huì)對(duì)用戶(hù)打上標(biāo)簽,通過(guò)投放的請(qǐng)求,動(dòng)態(tài)生成Hive,我們會(huì)返回目標(biāo)用戶(hù)以及時(shí)間。我們?cè)谟脩?hù)的拉新方面也做了一部分的工作,我們平臺(tái)的業(yè)務(wù)的發(fā)展非常的迅速,我們吸引了一部分的用戶(hù)以后,我們希望把用戶(hù)轉(zhuǎn)化成購(gòu)買(mǎi)用戶(hù),一個(gè)是根據(jù)用戶(hù)注冊(cè)時(shí)候的靜態(tài)畫(huà)像,對(duì)用戶(hù)做個(gè)性化的配置,整體的轉(zhuǎn)化率是10%以上。雖然我們?cè)谶@一方面已經(jīng)做了一些嘗試,但是未來(lái)還有更多的可以探索的地方,一個(gè)是在數(shù)據(jù)的方面,剛才提到的個(gè)性的推薦是,首先是會(huì)更加的全面和精準(zhǔn)的把畫(huà)像做的更準(zhǔn)確。第二個(gè)是時(shí)效性的方面,需要快速的捕捉客戶(hù)的需求。在模型方面,我們也會(huì)投入更多的精力,通過(guò)在線(xiàn)的方式更新我們的模型,應(yīng)用的話(huà),雙十一也快到了,我們希望我們的個(gè)性化的算法也可以發(fā)揮一些作用,以及在商家端做一些嘗試,幫商家做一些預(yù)測(cè)等等。
說(shuō)了這么多,最后介紹一下我們公司,我們是貝貝網(wǎng),這是我們的媽媽的特賣(mài)會(huì),我們是一家專(zhuān)注于母嬰特賣(mài)的公司,成立于2014的4月,去年4月份上線(xiàn)以來(lái),今年1月份完成了C輪的融資,我們的工作地點(diǎn)在杭州,對(duì)杭州興趣的同學(xué)可以聯(lián)系我,下面是聯(lián)系方式,謝謝大家。