神經(jīng)網(wǎng)絡(luò)強大的表示學(xué)習(xí)能力真的在結(jié)構(gòu)化數(shù)據(jù)上無法展現(xiàn)威力嗎?近日由國內(nèi)的數(shù)據(jù)科學(xué)平臺領(lǐng)導(dǎo)廠商——九章云極發(fā)布的開源項目DeepTables正在打破這個局面。DeepTables(簡稱DT)經(jīng)過大量的測試驗證,在使用相同數(shù)據(jù)訓(xùn)練模型的條件下,DT在70%以上的測試數(shù)據(jù)集上超越XGBoost和LightGBM,DT團隊后續(xù)會發(fā)布詳細(xì)的測試報告。在3月31日剛剛結(jié)束的Kaggle競賽Categorical Feature Encoding Challenge II 中DT團隊獲得了第1名的成績,其中DT的一個單模型得到第3名,這在Kaggle比賽動則用數(shù)十?dāng)?shù)百個模型Ensemble的標(biāo)準(zhǔn)動作下,單模型取得如此突出的成績實屬不易。
Public Leaderboard
Private Leaderboard
本屆比賽來自全球的參賽隊伍超過1100支,其中不乏Bojan Tunguz, Sergey Yurgenson, KazAnova 這些Kaggle頂級大神的身影,Google的Auto Tables也參加了本場比賽但排名在300以外,所以雖然是Playground類競賽,但這個冠軍的含金量依然不低,DeepTables正在為深度學(xué)習(xí)正名。
實際近年來深度學(xué)習(xí)在結(jié)構(gòu)化的一些細(xì)分領(lǐng)域里已經(jīng)開始嶄露頭角,在CTR預(yù)測和推薦系統(tǒng)方面,神經(jīng)網(wǎng)絡(luò)算法利用其在高維稀疏特征上先進(jìn)的表示學(xué)習(xí)能力逐步超越了傳統(tǒng)機器學(xué)習(xí)算法。
◆ 從2015年Google公司的Wide&Deep網(wǎng)絡(luò)開始,到Deep&Cross、PNN、DeepFM、xDeepFM這些模型不斷刷新在公開數(shù)據(jù)集上的紀(jì)錄。研究人員也在不斷嘗試將CV、NLP上的技術(shù)引入到結(jié)構(gòu)化領(lǐng)域。
◆ 2019年北京大學(xué)的研究團隊提出的AutoInt網(wǎng)絡(luò)應(yīng)用了大名鼎鼎的BERT中Multi-head Attention 思想,有效的提升了結(jié)構(gòu)化數(shù)據(jù)自動特征生成和提取的效率,并且一定程度上解決了深度學(xué)習(xí)缺乏解釋性的問題。
◆ 華為諾亞實驗室提出的FGCNN在利用卷積神經(jīng)網(wǎng)絡(luò)的同時創(chuàng)新性的提出Recombination Layer將局部特征組合進(jìn)一步重組,有效的避免了CNN過于關(guān)注局部特征交互的短板,F(xiàn)GCNN在華為AppStore的推薦系統(tǒng)中大幅提升原有算法的表現(xiàn)。
以上成果確實足以讓業(yè)界重拾深度學(xué)習(xí)在結(jié)構(gòu)化數(shù)據(jù)上的信心,但目前這些成果主要在少數(shù)的互聯(lián)網(wǎng)巨頭企業(yè)中發(fā)揮價值,對于大多數(shù)企業(yè)和數(shù)據(jù)科學(xué)家來說只是看上去很美,想要應(yīng)用到實際的建模工作中面臨著不小的代價。
1)這些模型大多落在論文層面,部分論文雖然提供了用于驗證模型的源碼,但想把這些源碼應(yīng)用到實際業(yè)務(wù)上,代碼改造的工作量和難度都不小。
2)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)之間最明顯的區(qū)別是在結(jié)構(gòu)化領(lǐng)域每一個數(shù)據(jù)集的語義空間和數(shù)值的物理含義都有所不同,同一個模型在不同數(shù)據(jù)集上的表現(xiàn)有時天差地別,常常需要同時評估各種不同模型才能找到最優(yōu)方案,這也進(jìn)一步放大了第1點中提到的工程代價。
3)上面提到的大部分模型重點解決的是高維稀疏的類別型特征的學(xué)習(xí)能力,對于連續(xù)型的數(shù)值特征關(guān)注有限,這個部分恰恰是GBM模型的殺手锏,因此遇到以連續(xù)型特征為主的數(shù)據(jù)集這些模型往往不盡人意。
九章云極的研發(fā)團隊基于以上痛點,加上長期服務(wù)于金融行業(yè)所積累的經(jīng)驗開發(fā)并且開源了DeepTables深度學(xué)習(xí)工具包,目前后端計算框架支持Tensorflow2.0以上版本。
DT極其易用,僅5行代碼即可完成任意一個數(shù)據(jù)集的建模工作,數(shù)據(jù)不做任何的預(yù)處理和加工也可以完成建模,不管是專家型的數(shù)據(jù)科學(xué)家還是沒有建模能力的業(yè)務(wù)分析人員,DT都能夠提供開箱即用的卓越性能,這是高度依賴手工特征工程的傳統(tǒng)機器學(xué)習(xí)算法難以實現(xiàn)的。
另外,DT有著非常開放的架構(gòu)設(shè)計,DT把近年來最優(yōu)秀的研究成果中的關(guān)鍵網(wǎng)絡(luò)架構(gòu)抽取出一組神經(jīng)網(wǎng)絡(luò)構(gòu)件(nets),這些構(gòu)件可以任意組合出一個新的網(wǎng)絡(luò)架構(gòu),可以非常簡便的在不同數(shù)據(jù)集上探索最優(yōu)的網(wǎng)絡(luò)組合。
同時,DT支持插件式的擴展方式,用戶可以按DT的接口開發(fā)自己的構(gòu)件和內(nèi)置的構(gòu)件融合在一起構(gòu)成一個新的模型。之前需要幾周甚至上月的時間完成的工作,在DT的助力下幾個小時甚至幾分鐘就可以完成。
DT項目地址
https://github.com/DataCanvasIO/deeptables
DT官方文檔
https://deeptables.readthedocs.io/
DT目前還處于相對早期的階段,剛剛發(fā)布了0.1.9。DT下一個計劃是開放神經(jīng)架構(gòu)搜索(NAS)引擎,用AI算法實現(xiàn)在不同的數(shù)據(jù)集上自動搜索最佳的網(wǎng)絡(luò)架構(gòu),實現(xiàn)真正智能的AutoDL。
擁抱開源的九章云極,旗下的分布式機器學(xué)習(xí)平臺APS,其開放的技術(shù)架構(gòu)和開源生態(tài)完美融合,受到廣大企業(yè)客戶的青睞。九章云極受益于開源社區(qū),同時也在持續(xù)大力回饋于開源社區(qū)。