圖1隨機缺失數(shù)據(jù)和非隨機缺失數(shù)據(jù)上用戶反饋的偏差
為了解決這個問題,傳統(tǒng)方法多基于inverse propensity score (IPS)來對在MNAR數(shù)據(jù)上進行模型訓練的目標函數(shù)進行加權(quán)糾偏。這類方法需要相當數(shù)量的隨機試驗 (Randomized Controlled Trials, RCTs),即隨機地將項目推薦給用戶以獲得反饋,從而得到一個無偏的點擊率的估計。而另外,IPS方法需要收集一定數(shù)量的RCTs,即對用戶展示相當數(shù)量的隨機項目來收集反饋,從經(jīng)濟效益上來說,會造成大量的收入上的損失。而且,這種施加權(quán)重的方法也使得訓練的方差增大,有時候反而會對結(jié)果造成副影響。
借鑒信息理論構(gòu)建模型 推薦系統(tǒng)糾偏方法呈現(xiàn)創(chuàng)新優(yōu)勢
騰訊天衍實驗室借鑒了信息論中的理論來構(gòu)建模型。模型的原始輸入會先經(jīng)過一個編碼器 (Encoder)得到表示 (Representation),隨后經(jīng)過解碼器 (Decoder)將表示解碼成為最終的預測結(jié)果。此后,目標函數(shù)分為兩部分:輸入和表示之間的互信息,表示和輸入目標之間的互信息。在優(yōu)化這個目標函數(shù)時,騰訊天衍實驗室團隊采用了盡可能攜帶更多的目標信息和壓縮輸入信息的方法。
圖2信息瓶頸的流程和定義形式
首先把原始的輸入 (在此處是user-item對)分為事實域 (factual)和反事實域 (counterfactual)。當在counterfactual中發(fā)現(xiàn)無法得到用戶對項目的反饋,無法對模型進行監(jiān)督學習時,選擇將該問題用信息瓶頸建模,由此得到一個無需反饋也可以在counterfactual上進行學習的目標函數(shù)。
圖3基于信息瓶頸理論的反事實學習框架流程圖
factual和counterfactual的事件分別是和,相對應的表示為和。在此基礎(chǔ)上將原有的互信息項拆分,并引入一個超參數(shù),可以得到一個新的考慮counterfactual的信息瓶頸:
這一新的瓶頸將原有的項拆分成了兩個域的對比項加上factual的信息項。源于上式中的互信息項無法直接優(yōu)化,在將其經(jīng)過進一步拆解變?yōu)榭蓛?yōu)化的形式后,最終的目標函數(shù)形式為:
這一目標函數(shù)具有很廣泛的適用范圍,領(lǐng)域內(nèi)絕大部分的模型均可以適用該目標函數(shù)來進行模型糾偏而無需對現(xiàn)有模型結(jié)構(gòu)進行修改,比如MF模型等。
為驗證其應用潛力,騰訊天衍實驗室使用領(lǐng)域內(nèi)的benchmark Yahoo R3!和 Coat公開數(shù)據(jù)集進行測試,使用MNAR的數(shù)據(jù)作為訓練數(shù)據(jù),使用MAR作為測試數(shù)據(jù),從而能有效反映不同方法對于推薦模型的糾偏效果,最終實驗結(jié)果如下表所示。
表格1實驗結(jié)果(AUC和MSE指標)
表格2實驗結(jié)果 (nDCG指標)
在模型的魯棒性測試中,該方法表現(xiàn)出較強的穩(wěn)健性。對超參數(shù)變化敏感性不強,非常適用于實際場景的部署。相比于傳統(tǒng)推薦系統(tǒng),這種基于信息理論的推薦系統(tǒng)糾偏方法呈現(xiàn)出幾大創(chuàng)新點:其一,基于信息論和反事實理論學習方法,無需執(zhí)行線上隨機流量試驗,節(jié)省了大量訓練成本;其二,模型參數(shù)魯棒性較好,適合工業(yè)場景實際部署;其三,目標函數(shù)具有很廣泛的適用范圍,領(lǐng)域內(nèi)絕大部分的模型均可以適用該目標函數(shù)來進行模型糾偏,而無需對現(xiàn)有模型結(jié)構(gòu)進行修改,兼容性較強。
商業(yè)應用無處不在 推薦系統(tǒng)糾偏方法重拾內(nèi)容多樣性
放眼當下,推薦系統(tǒng)的商業(yè)應用無處不在,不少主流APP都應用到了推薦系統(tǒng)。例如,旅游出行類中,攜程、去哪兒等會推薦機票、酒店等;外賣平臺類中,餓了么、美團等會推薦飯店;電商購物類中,京東、淘寶、亞馬遜等會推薦“可能喜歡”的物品;新聞資訊類中,今日頭條、騰訊新聞等會推送用戶感興趣的新聞….幾乎所有APP或網(wǎng)站都在應用推薦系統(tǒng)。
騰訊天衍實驗室作為騰訊布局醫(yī)療領(lǐng)域背后的技術(shù)提供者,主要專注于醫(yī)療健康領(lǐng)域的AI算法研究及落地,并且不斷研究與拓展AI醫(yī)療技術(shù)發(fā)展的邊界。目前,騰訊天衍實驗室主要將算法能力輸出到微信支付九宮格的騰訊健康小程序、QQ瀏覽器、微信搜一搜等。例如在疫情期間,天衍實驗室運用AI大數(shù)據(jù)技術(shù),通過騰訊健康疫情問答推薦版塊,為用戶帶來關(guān)于疫情的多方面的內(nèi)容和咨詢服務,而不僅僅關(guān)注用戶個人和集體偏好,基于信息理論模型,快速進行模型訓練對推薦系統(tǒng)進行糾偏,極大的節(jié)省了時間和經(jīng)濟成本。
同時,在騰訊覓影的AI導輔診平臺上,日常的醫(yī)療資訊推薦上也應用了該方法為用戶推薦相關(guān)內(nèi)容,大大提升了推薦內(nèi)容的多樣性和公平性,同時也增強了用戶體驗。比如對于患有糖尿病的患者,其日常關(guān)注的內(nèi)容可能都與糖尿病相關(guān),如果不對推薦系統(tǒng)進行糾偏,系統(tǒng)會越來越傾向于推薦糖尿病相關(guān)內(nèi)容給到用戶,而經(jīng)過系統(tǒng)糾偏之后,還會給患者推薦一些運動、睡眠等其他健康知識,幫助用戶更加全面的了解自身健康??梢砸姷茫扑]系統(tǒng)糾偏方法具有非常廣泛的應用價值,未來,騰訊天衍實驗室還將繼續(xù)擴大其應用范圍,以期為用戶提供更優(yōu)質(zhì)的服務。