華為機器學習服務的特點

●?豐富的機器學習算法庫:從數(shù)據(jù)導入、預處理,到模型的訓練、評估、管理,覆蓋數(shù)據(jù)挖掘端到端業(yè)務。擁有10大類、50多個基礎機器學習算法,擁有300多個其他常用算法。覆蓋多數(shù)場景下特征工程、數(shù)據(jù)處理需要。更方便的是,它把各個算法邏輯化,統(tǒng)一封裝成圖形化的節(jié)點(Node)提供給用戶。同時,華為算法工程師已經(jīng)對各種算法進行調(diào)優(yōu),提供了一套默認工作良好的參數(shù)組合,你根本不用擔心參數(shù)如何調(diào)整。

● 直觀易用的機器學習方案:面向熟悉業(yè)務,但不熟悉相關建模語言的數(shù)據(jù)分析師通過可視化界面的,拖拽式的數(shù)據(jù)建模方式——Workflow,提供所見即所得的建模開發(fā)界面。

● 交互式建模分析:面向數(shù)據(jù)科學家提供基于交互編程方式的數(shù)據(jù)建模能力——Notebook,支持多種建模語言(Python/R等)。涵蓋數(shù)據(jù)探索、特征工程、數(shù)據(jù)建模等數(shù)據(jù)分析過程。

● 模型生命周期管理能力:支持模型的生成、預測、部署、調(diào)度等完備的模型生命周期管理能力。支持業(yè)界標準的模型PMML的導入導出,與其他機器學習軟件進行無縫集成。同時,企業(yè)用戶可以一鍵式發(fā)布創(chuàng)建好的模型到生產(chǎn)系統(tǒng)中,并通過調(diào)度完成業(yè)務的自動預測功能。

● 可視化:支持數(shù)據(jù)可視化和模型可視化功能。內(nèi)置豐富的圖表類型,數(shù)據(jù)處理過程中可根據(jù)需要選擇不同的圖表進行展示,所見即所得,提升數(shù)據(jù)探索效率。訓練的模型、評估結果可視化,提升模型的可解釋性。

● 分布式可擴展的大數(shù)據(jù)計算引擎:底層使用華為分布式大數(shù)據(jù)分析MRS服務,使用增強開發(fā)的HDFS、Spark、Hive等組件,支持大數(shù)據(jù)分析。內(nèi)置算法在分布式處理性能上進行了專項優(yōu)化,相比開源實現(xiàn)有更好的性能和線性加速表現(xiàn),支持處理更大規(guī)模的數(shù)據(jù)。

案例應用:使用MLS進行電影個性化推薦

日前,中國電影產(chǎn)業(yè)發(fā)展迅猛,規(guī)模幾乎達到世界第一,線下票房位居全球第二,觀影人次居全球首位。每天上線著各式各樣的電影,面對龐大又不斷增長的電影,人們?nèi)绾卧诤A縿熘锌焖僬业阶约合矏鄣碾娪白兊檬掷щy,此時,如何更懂用戶,快速推薦出用戶喜愛的電影,提高電影網(wǎng)站的用戶體驗,變得越來越重要。

電影網(wǎng)站面臨如下挑戰(zhàn):

● 數(shù)據(jù)量大,搭建維護集群成本高

● 分析難度大,缺乏既懂機器學習編程及建模又懂業(yè)務的專家

● 模型管理部署維護復雜

華為云MLS平臺,是構建在華為云上的一項數(shù)據(jù)挖掘分析平臺服務。只需購買服務,即可通過豐富的算法庫、高易用的建模界面、高性能的計算引擎,發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。再通過MLS具備的端到端機器學習模型的全生命周期管理,為業(yè)務數(shù)據(jù)和應用生成預測結果。

電影的歷史評分數(shù)據(jù)通常是這樣描述的:用戶A對電影B的打分為C,那么用戶A會對電影X感興趣么,感興趣的程度如何?針對這種場景,可以使用MLS里面的推薦類算法進行預測。

第1步:開通MLS平臺。(http://www.hwclouds.com/product/mls.html)

第2步:數(shù)據(jù)探索,通過可視化工具了解數(shù)據(jù)

電影數(shù)據(jù)保存在文本文件中或數(shù)據(jù)庫中供后續(xù)使用。數(shù)據(jù)主要用三張表保存,分別是用戶表、電影表、用戶電影評分表,數(shù)據(jù)格式和內(nèi)容類似如下。從表的內(nèi)容上我們可以看出,用戶電影評分表是這次分析的關鍵。

對比傳統(tǒng)的數(shù)據(jù)分析工具,MLS服務提供的可視化功能更加易用,讓數(shù)據(jù)分析師的工作更加快捷高效。

下圖為使用MLS預覽的電影數(shù)據(jù),圖中最小的點表示觀眾,較大的點表示電影,點越大表明此電影被關注的程度越多。用戶就是茫茫小點中的一個,用戶也許已經(jīng)看過某些電影了,但還有很多電影和她之間沒有建立聯(lián)系。

單擊某一具體用戶,如圖中的user500節(jié)點,用戶節(jié)點以及她看過的電影節(jié)點被高亮了出來。可以看出來還有很多電影是用戶沒看過,但是movie953、movie954、movie971是被她關注、評論過的,那么同時關注這些電影的人的觀影品味很可能和這一用戶很相似,可以利用這群人的觀影列表來給我們做推薦。

第4步,建模預測

針對建模預測過程,MLS具備如下特點,讓熟悉業(yè)務,但不熟悉相關建模語言的數(shù)據(jù)分析師,可以快速創(chuàng)建所見即所得的建模開發(fā)方案。根據(jù)協(xié)同過濾方法的分析,將用戶、電影數(shù)據(jù)上傳到華為云的對象存儲服務OBS上。機器學習服務借助MapReduce服務來提供可按需擴展的高速并行計算能力。數(shù)據(jù)可以被輕松的加載到HDFS文件系統(tǒng)進行高效建模。

●?數(shù)據(jù)分析流程可視化,提供所見即所得的應用界面。

● 豐富的算法庫,只需將算子拖拽進來即可進行建模。

運行工作流并查看輸出數(shù)據(jù),prediction表示預測的評分值,我們對它進行降序排列,可以看到用戶對ID是919的電影最感興趣。在電影數(shù)據(jù)表中,可以簡單的查到ID是919的電影名稱等信息。

MLS提供了模型的全生命周期管理能力,支持模型的生成、預測、部署、調(diào)度等完備的管理能力。將模型應用到生產(chǎn)環(huán)境中,到此,一個完整的電影推薦的機器學習分析方案就完成了。

MLS可以應用到各式各樣的領域,幫助企業(yè)快速進入人工智能時代

● 產(chǎn)品推薦:根據(jù)客戶本身屬性和行為特征等(年齡、工作類型、婚姻狀況、文化程度、是否有房貸和是否有個人貸款),預測客戶是否愿意辦理相關業(yè)務,為客戶提供個性化的業(yè)務推薦。例如金融行業(yè)的理財推薦、終端業(yè)務的應用推薦等。

● 預測性維護:為設備創(chuàng)建預測模型并提供預見性維護建議和計劃,減少故障時間和發(fā)生幾率,從而提高效率和降低成本。例如汽車行業(yè)的車輛零部件維護建議、半導體行業(yè)中流水線制造過程的失效預測等。

● 客戶挽留:客戶流失具有多種形式,如切換到競爭對手的服務,減少服務使用量或切換到較低成本的服務。通過分析客戶屬性和行為建立客戶流失模型,預測可能流失的客戶,指導企業(yè)給出挽留方案。例如電信行業(yè)、電子商務行業(yè)的客戶挽留模型等。

● 客戶分群:通過數(shù)據(jù)挖掘來給客戶做科學的分群,依據(jù)不同分群的特點制定相應的策略,從而為客戶提供適配的產(chǎn)品、制定針對性的營銷活動和管理用戶,最終提升產(chǎn)品的客戶滿意度,實現(xiàn)商業(yè)價值。例如銷售行業(yè)中根據(jù)零售商進貨的種類和數(shù)量進行的零售商分群識別、電商行業(yè)中根據(jù)客戶購買行為進行的客戶聚類分析等。

● 異常檢測:在網(wǎng)絡設備運行中,用自動化的網(wǎng)絡檢測系統(tǒng),根據(jù)流量情況實時分析,預測可疑流量或可能發(fā)生故障的設備。例如物聯(lián)網(wǎng)應用中根據(jù)網(wǎng)絡流量情況識別網(wǎng)絡攻擊、識別設備是否正常工作等。

歡迎來體驗MLS服務:http://www.hwclouds.com/product/mls.html

分享到

sunk

相關推薦