《APS一二三》

 
快隨八斗先睹為快吧!
 
 
預(yù)計(jì)到2021年,全球企業(yè)在機(jī)器學(xué)習(xí)上的支出預(yù)計(jì)將達(dá)到576億美元,復(fù)合年增長(zhǎng)率(CAGR)為50.1%。機(jī)器學(xué)習(xí)平臺(tái),一場(chǎng)新的盛宴已經(jīng)開(kāi)始。
 
BI到AI的轉(zhuǎn)變
 
伴隨著大數(shù)據(jù)時(shí)代的來(lái)臨幾乎同時(shí)吹響了AI時(shí)代的號(hào)角,傳統(tǒng)的BI正在被歷史的車輪無(wú)情的碾壓,掙扎、蛻變。由B到A兩個(gè)字母輕巧的變換卻蘊(yùn)藏著技術(shù)變革巨大的力量,很多行業(yè)的模式在演變、顛覆并潛移默化到我們生活的細(xì)微處。金融、保險(xiǎn)、醫(yī)療、汽車、交通、制造,AI已經(jīng)無(wú)處不在,發(fā)展之快應(yīng)用之深已經(jīng)快像空氣一樣讓我們感知不到它的存在了,但誰(shuí)又能離得了空氣呢?
 
說(shuō)到BI和AI永遠(yuǎn)也繞不過(guò)去的就是數(shù)據(jù)挖掘機(jī)器學(xué)習(xí),這幾乎可以是兩個(gè)領(lǐng)域的代名詞。我們就從這兩個(gè)詞說(shuō)起。
 
在《數(shù)據(jù)挖掘與預(yù)測(cè)分析》一書(shū)中定義,“數(shù)據(jù)挖掘是從數(shù)據(jù)集中發(fā)現(xiàn)有用的模式和趨勢(shì)的過(guò)程”,主要圍繞著數(shù)據(jù)探索、數(shù)據(jù)統(tǒng)計(jì)、關(guān)聯(lián)分析、離群分析這些任務(wù)開(kāi)展,當(dāng)然也包含了聚類、分類、預(yù)測(cè)這部分內(nèi)容,但從本質(zhì)上說(shuō)數(shù)據(jù)挖掘的核心是“洞察”,是輔助人類完成更好的決策。
 
機(jī)器學(xué)習(xí)是人工智能領(lǐng)域最能體現(xiàn)智能內(nèi)涵的分支,尤其是“學(xué)習(xí)”,赫爾伯特·西蒙曾對(duì)學(xué)習(xí)給出定義“如果一個(gè)系統(tǒng)能夠通過(guò)執(zhí)行某個(gè)過(guò)程改進(jìn)它的性能,這就是學(xué)習(xí)”,機(jī)器學(xué)習(xí)就是通過(guò)數(shù)據(jù)和算法提高預(yù)測(cè)準(zhǔn)確性的系統(tǒng),因此我們可以看到機(jī)器學(xué)習(xí)更側(cè)重于“預(yù)測(cè)”,是輔助機(jī)器實(shí)現(xiàn)更好的決策。
 

無(wú)

 
從人為決策轉(zhuǎn)向機(jī)器決策,業(yè)務(wù)的運(yùn)營(yíng)效率將是指數(shù)級(jí)的提升,業(yè)務(wù)模式的創(chuàng)新將是顛覆性和開(kāi)創(chuàng)性的。AI的需求已經(jīng)井噴,但AI的生產(chǎn)力卻成為了最大的瓶頸。企業(yè)在被AI強(qiáng)大誘惑力的吸引下把目光投向了一個(gè)新的領(lǐng)域:機(jī)器學(xué)習(xí)平臺(tái)。
 
機(jī)器學(xué)習(xí)平臺(tái)的由來(lái)
 
2015前后BI市場(chǎng)發(fā)生了顯著的變化,用戶對(duì)BI的需求從描述性、診斷性分析開(kāi)始轉(zhuǎn)向預(yù)測(cè)性、指導(dǎo)性分析,從對(duì)傳統(tǒng)的報(bào)表、儀表盤、可視化的需求轉(zhuǎn)向預(yù)測(cè)分析工具的需求。
 
2015年和2016年Gartner把《高級(jí)分析平臺(tái)的魔力象限》從《商業(yè)智能的魔力象限》中分離出來(lái)單獨(dú)發(fā)布了行業(yè)分析報(bào)告。
 
Gartner對(duì)高級(jí)分析平臺(tái)的定義是:
使用統(tǒng)計(jì)、描述性、預(yù)測(cè)性數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)等方法對(duì)各種數(shù)據(jù)進(jìn)行分析,以產(chǎn)生洞見(jiàn)。
 
這里已經(jīng)出現(xiàn)了預(yù)測(cè)性數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的身影,用戶的需求時(shí)刻駕馭著市場(chǎng)的風(fēng)云變換。到了2017年Gartner索性把《高級(jí)分析平臺(tái)魔力象限》直接改為《數(shù)據(jù)科學(xué)平臺(tái)魔力象限》,徹底斬?cái)嗔撕虰I之間的糾纏。到了2018年進(jìn)一步改為《數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)魔力象限》正式為“機(jī)器學(xué)習(xí)平臺(tái)”在市場(chǎng)上確立了名份。
 
市場(chǎng)格局
 
附圖是2015~2019這幾年的魔力象限,上面的各個(gè)廠商的位置變化很有意思

無(wú)
無(wú)
無(wú)
無(wú)
無(wú)

?
引用自Gartner
?
SAS、IBM、RapidMiner、KNIME這些豪強(qiáng)長(zhǎng)期盤踞在領(lǐng)導(dǎo)者象限,Alteryx、Dataiku、Datarobot這些新星在遠(yuǎn)見(jiàn)者和挑戰(zhàn)者象限不斷向領(lǐng)導(dǎo)者發(fā)起沖擊,開(kāi)源陣營(yíng)H2O.ai、Anaconda也保持這強(qiáng)勁的勢(shì)頭,值得注意的是左下角利基者象限里卻是城頭變幻大王旗你方唱罷我登場(chǎng)。
?
技術(shù)的變革讓傳統(tǒng)巨頭SAS倍感壓力,新興的數(shù)據(jù)科學(xué)領(lǐng)域更加青睞使用Python、R這樣開(kāi)源生態(tài)語(yǔ)言來(lái)完成建模分析,SAS雖然也極力向新的陣營(yíng)靠攏,但SAS語(yǔ)言是它的核心,就像統(tǒng)治者和革命者之間天生的矛盾難以調(diào)和。
?
?
開(kāi)源社區(qū)的活躍也讓這個(gè)領(lǐng)域迅速發(fā)展,不僅是開(kāi)發(fā)語(yǔ)言方面:



● 開(kāi)源的機(jī)器學(xué)習(xí)框架,如Tensorflow、Scikit-Learn、SparkML、PyTorch
● 開(kāi)源的Notebook交互式分析工具,如Jupyter、Zeppelin
● 開(kāi)源的大數(shù)據(jù)平臺(tái),Hadoop、Spark
● 開(kāi)源的機(jī)器學(xué)習(xí)算法,H2O、DL4J
● 開(kāi)源的可視化工具,D3、Plotly
?
這些開(kāi)源力量不斷為數(shù)據(jù)科學(xué)領(lǐng)域注入新鮮的能量,這里也正好引出一個(gè)話題,很多產(chǎn)品中會(huì)頻繁的出現(xiàn)一些開(kāi)源組件的身影,包括DataCanvas APS也集成了不少開(kāi)源組件。我曾經(jīng)遇到客戶問(wèn)了一個(gè)這樣的問(wèn)題,“DataCanvas APS是不是就是把一些開(kāi)源組件攢到一起的產(chǎn)品?”,我想他隱含的問(wèn)題應(yīng)該還包括:“那我們企業(yè)為什么不直接使用開(kāi)源組件?采購(gòu)APS的價(jià)值是什么?”,這些問(wèn)題我會(huì)在后面的系列專門來(lái)回答。請(qǐng)各位關(guān)注后續(xù)的更新。
?
?
前幾天聽(tīng)一個(gè)節(jié)目我覺(jué)得很有意思,是說(shuō)對(duì)于斑馬我們身邊大多數(shù)人第一印象是有著黑色斑紋的白馬,但據(jù)說(shuō)在非洲普遍認(rèn)為是有著白色斑紋的黑馬。任何事物在不同的本位都能觀察到不同的內(nèi)容,體察到不同的內(nèi)涵,就“機(jī)器學(xué)習(xí)平臺(tái)“來(lái)說(shuō):
?
●? 對(duì)行業(yè)從業(yè)者來(lái)說(shuō)這是飯碗,會(huì)關(guān)注它的行業(yè)發(fā)展、市場(chǎng)規(guī)模、技術(shù)生態(tài)、客戶需求、未來(lái)趨勢(shì);
●? 企業(yè)的領(lǐng)導(dǎo)者會(huì)把它當(dāng)作生產(chǎn)力要素,更關(guān)注它如何提升企業(yè)的競(jìng)爭(zhēng)力和盈利能力;
●? 平臺(tái)的使用者會(huì)把它作為工具,而更關(guān)注它是否能有效提高工作效率;
?
我們會(huì)分成市場(chǎng)篇、概念篇、故事篇、工具篇、價(jià)值篇、技術(shù)&架構(gòu)篇、本質(zhì)篇等幾個(gè)不同的專題來(lái)全方位的定義和詮釋什么是機(jī)器學(xué)習(xí)平臺(tái)。本文既這個(gè)系列的第一篇。
?
Q&A
八斗:關(guān)于DataCanvas APS機(jī)器學(xué)習(xí)平臺(tái),使用者們都關(guān)心哪些問(wèn)題?
楊健:使用者們從發(fā)現(xiàn)DataCanvas APS到交付使用,很像是一對(duì)未婚男女相處,從霧里看花、眉來(lái)眼去到戀愛(ài)磨合、結(jié)婚生子。不同階段對(duì)APS的了解層次由淺入深,從第一印象的好感,到身世背景家底細(xì)節(jié)的追問(wèn),每一次接觸中的提問(wèn)如果不能完美解答俘獲芳心,隨時(shí)都有被滅燈的危險(xiǎn)。我有幸在以上部分環(huán)節(jié)中扮演過(guò)追求者的角色,這里就把各種挑剔的女友、刁鉆的丈母娘常常用來(lái)拷問(wèn)的話題總結(jié)一二??
?
?
01
剛開(kāi)始接觸通常會(huì)問(wèn)一些比較開(kāi)放性的問(wèn)題,考察你的三觀人品個(gè)人魅力,比如:
●? 什么是機(jī)器學(xué)習(xí)平臺(tái)?–你是干啥的?
●??機(jī)器學(xué)習(xí)平臺(tái)對(duì)企業(yè)有什么價(jià)值?–為啥要嫁給你?
●? APS和其他的產(chǎn)品有什么不同,有什么優(yōu)勢(shì)?–為啥放棄別的追求者,選擇你?
?
02
?
進(jìn)一步會(huì)關(guān)注產(chǎn)品功能,考察你的相貌學(xué)識(shí)生活能力,比如:
●? APS支持哪些算法?APS支持哪些開(kāi)發(fā)語(yǔ)言?用戶可以添加自己開(kāi)發(fā)的算法嗎?
●? APS支持深度學(xué)習(xí)嗎?Tensorflow行不行?還支持哪些框架?
●? APS可以接入哪些數(shù)據(jù)源?可以和大數(shù)據(jù)平臺(tái)對(duì)接嗎?有什么要求和限制?
●? APS支持可視化建模嗎?預(yù)置了多少個(gè)算法模塊?
●? APS可以自動(dòng)建模嗎?有什么特點(diǎn)?比人類的建模水平高嗎?
●? APS訓(xùn)練的模型怎么使用呢?產(chǎn)品可以把模型上線成服務(wù)嗎?如何監(jiān)控?
●? APS訓(xùn)練的模型可以導(dǎo)出嗎?是什么格式?
●??用戶用其他系統(tǒng)訓(xùn)練的模型可以導(dǎo)入到APS中并上線成服務(wù)嗎?
●? APS是如何管理用戶權(quán)限的?團(tuán)隊(duì)如何協(xié)作呢?
?
03
?
這個(gè)階段如果還算滿意的話會(huì)進(jìn)一步關(guān)注產(chǎn)品特性方面,考察體能耐力綜合素質(zhì),比如:
?●? APS支持分布式嗎?可以支持TB級(jí)的大規(guī)模數(shù)據(jù)全量訓(xùn)練嗎?
●? APS支持使用GPU訓(xùn)練嗎?
●? APS的訓(xùn)練模型需要多長(zhǎng)時(shí)間,需要多少資源?
●? APS部署需要什么樣的配置?一臺(tái)16c 32G的虛擬機(jī)可以部署嗎?為什么不可以?
●? APS的模型服務(wù)可以支持多大的吞吐量?時(shí)延可以達(dá)到毫秒級(jí)嗎?
●? APS支持企業(yè)級(jí)特性嗎?APS高可用是怎么實(shí)現(xiàn)的?
●? APS支持二次開(kāi)發(fā)嗎?提供什么樣的接口?前臺(tái)頁(yè)面可以定制開(kāi)發(fā)擴(kuò)展嗎?
?
04
?
再有一些是關(guān)注產(chǎn)品的技術(shù)細(xì)節(jié)的,盤問(wèn)你的住房大小工資收入余額寶位數(shù),比如:
●? APS是如何調(diào)度GPU資源的?GPU可以共享使用嗎?
●? APS是如何對(duì)接Hadoop集群的?可以直接部署到Hadoop集群上嗎?
●? APS的數(shù)據(jù)是如何隔離的?安全性怎么保證?Docker就能保證安全隔離嗎?
●? APS的工作流可以對(duì)接用戶的調(diào)度引擎嗎?
●? APS的數(shù)據(jù)抽象層是做什么的?是如何實(shí)現(xiàn)的?
●? APS的模型服務(wù)是如何對(duì)接用戶的應(yīng)用系統(tǒng)的?支持什么樣的接口和模型格式?
●? APS的訓(xùn)練環(huán)境和生產(chǎn)環(huán)境是如何規(guī)劃的,如何和用戶的基礎(chǔ)設(shè)施融合?
●? APS如何實(shí)現(xiàn)自迭代?
●? APS如何實(shí)現(xiàn)線上模型的A/B測(cè)試,冠軍挑戰(zhàn)策略的?
?
05
?
當(dāng)然,還會(huì)拿前任前前任或者別人家的男友說(shuō)事,比如:
●? Google開(kāi)源的Kubeflow也很不錯(cuò),APS比他還優(yōu)秀嗎?
●? xx產(chǎn)品的自研算法性能非常不錯(cuò),APS也會(huì)提供一些自研算法嗎?
●? xx產(chǎn)品支持自動(dòng)衍生高維特征,APS能做到嗎?
●? xx產(chǎn)品可以自迭代,APS能夠?qū)崿F(xiàn)嗎?
●? xx產(chǎn)品可以支持圖數(shù)據(jù)庫(kù),APS可以嗎?
●? APS是不是就是攢了幾個(gè)開(kāi)源組件的產(chǎn)品?–你到底是低調(diào)奢華有內(nèi)涵,還是穿著西服裝大蒜,我跟著你下半輩子有前途嗎?
……
?
八斗:Σ(っ°Д °;)っ連環(huán)問(wèn)這么多,客戶也太會(huì)提問(wèn)了吧!
楊健:以上這些話題在《APS一二三》中基本都會(huì)涉及到,當(dāng)然不限于此,歡迎大家留言把感興趣的問(wèn)題分享給我,我會(huì)把有代表性的內(nèi)容整理出來(lái)一起加到這個(gè)系列中來(lái)。
八斗:想知道答案的小伙伴們,記得跟八斗一起追《APS一二三》的連載哦!
?

分享到

zhangnn

相關(guān)推薦