8月29日,2019世界人工智能大會(huì)(WAIC)于上海世博中心拉開(kāi)帷幕,海內(nèi)外大咖齊聚,學(xué)術(shù)界工業(yè)界交匯,共話人工智能未來(lái)。微眾銀行首席人工智能官楊強(qiáng)教授在大會(huì)主論壇——“科學(xué)前沿”演講時(shí)表示,聯(lián)邦學(xué)習(xí)已經(jīng)成為AI在學(xué)術(shù)界和工業(yè)界的新趨勢(shì),未來(lái)行業(yè)面臨的社會(huì)大眾的要求和監(jiān)管會(huì)越來(lái)越嚴(yán)格,聯(lián)邦學(xué)習(xí)能夠在滿足用戶隱私保護(hù)和數(shù)據(jù)安全需求的同時(shí),實(shí)現(xiàn)多方共贏。

  微眾銀行作為聯(lián)邦學(xué)習(xí)的國(guó)內(nèi)首倡者和領(lǐng)導(dǎo)者,在楊強(qiáng)教授的帶領(lǐng)下首次提出了“聯(lián)邦遷移學(xué)習(xí)”,并通過(guò)領(lǐng)銜聯(lián)邦學(xué)習(xí)國(guó)際標(biāo)準(zhǔn)(IEEE標(biāo)準(zhǔn))制定、開(kāi)源自研聯(lián)邦學(xué)習(xí)框架Federated AI Technology Enabler(簡(jiǎn)稱FATE)等來(lái)推動(dòng)聯(lián)邦學(xué)習(xí)技術(shù)在行業(yè)中的落地。

  以下為微眾銀行首席人工智能官楊強(qiáng)教授演講全文:

  大家好,今天非常高興跟大家討論這樣一個(gè)題目——人工智能最后一公里。為什么會(huì)起這樣一個(gè)題目呢?現(xiàn)在我在微眾銀行負(fù)責(zé)人工智能的工作,接觸到很多人工智能的應(yīng)用場(chǎng)景。像微眾銀行這樣一個(gè)互聯(lián)網(wǎng)銀行,它服務(wù)的用戶數(shù)已經(jīng)超過(guò)了1.7億,提供服務(wù)主要借助的手段就是人工智能和機(jī)器人。在服務(wù)過(guò)程中有很多環(huán)節(jié),比方說(shuō)業(yè)務(wù)咨詢、審核批準(zhǔn)貸款文件、對(duì)申請(qǐng)人進(jìn)行人臉識(shí)別、語(yǔ)音識(shí)別等身份核驗(yàn)、客服問(wèn)答等。在金融領(lǐng)域,不僅要建立用戶畫(huà)像和模型找到用戶,更要建立一整條長(zhǎng)鏈路來(lái)服務(wù)廣大的用戶。

  我們已經(jīng)很熟悉這些人工智能領(lǐng)域的應(yīng)用,但我想說(shuō)的是,這些應(yīng)用都離不開(kāi)一個(gè)元素——數(shù)據(jù),尤其是大數(shù)據(jù)。但是我們看看我們的周邊,卻發(fā)現(xiàn)數(shù)據(jù)非常有限。在法律領(lǐng)域,積累一條有效的數(shù)據(jù)是需要很長(zhǎng)時(shí)間的;在金融領(lǐng)域,尤其是大額貸款、理財(cái)領(lǐng)域,有效的數(shù)據(jù)也是非常少的;在醫(yī)療領(lǐng)域面臨的是數(shù)據(jù)割裂的現(xiàn)象,每個(gè)醫(yī)院都有很多的醫(yī)療影像數(shù)據(jù),卻出于監(jiān)管、安全、利益等原因不能夠互相傳遞,無(wú)法形成合力。

  在這種情況下,數(shù)據(jù)聚合的需求十分強(qiáng)烈,卻很難得到滿足。其中有一個(gè)很重要的原因是社會(huì)對(duì)于用戶隱私的要求越來(lái)越高?,F(xiàn)在世界各地的監(jiān)管機(jī)構(gòu)紛紛出臺(tái)強(qiáng)有力的法規(guī),比方說(shuō)歐盟在去年正式提出《通用數(shù)據(jù)保護(hù)條例》(GDPR),對(duì)個(gè)人隱私、個(gè)人數(shù)據(jù)的擁有權(quán),包括模型的使用和可解釋性都提出了非常嚴(yán)格的要求。中國(guó)的法律也在快步推進(jìn),連續(xù)出臺(tái)了一系列關(guān)于用戶隱私、用戶數(shù)據(jù)安全和擁有權(quán)的法規(guī),也將會(huì)嚴(yán)格限制企業(yè)之間的數(shù)據(jù)交換。

  我們一方面面臨數(shù)據(jù)割裂,沒(méi)有大數(shù)據(jù)來(lái)訓(xùn)練人工智能;另一方面,法律法規(guī)和社會(huì)對(duì)安全的嚴(yán)格要求又限制了數(shù)據(jù)的融合。大數(shù)據(jù)變成了人工智能的挑戰(zhàn)。

  我們?nèi)绾螒?yīng)對(duì)這個(gè)挑戰(zhàn)?放棄人工智能嗎??jī)H允許擁有大數(shù)據(jù)的公司來(lái)做人工智能嗎?這都不對(duì),我們的回答是,要積極地尋找一些新的技術(shù)方向來(lái)解決數(shù)據(jù)挑戰(zhàn)。

  我們提出的方法和方向叫做“聯(lián)邦學(xué)習(xí)”,英文叫“Federated Learning”。數(shù)據(jù)的各個(gè)擁有方,在各自數(shù)據(jù)不出本地的情況下建立模型,并且讓這個(gè)模型能夠共享,那么在建立模型的過(guò)程中便不會(huì)侵犯用戶的隱私,整個(gè)建模的過(guò)程就叫聯(lián)邦學(xué)習(xí)的框架和算法。

  Google在2016年就開(kāi)始進(jìn)行一個(gè)項(xiàng)目,在安卓系統(tǒng)的手機(jī)用戶中建立聯(lián)邦學(xué)習(xí),解決用戶個(gè)人終端設(shè)備的數(shù)據(jù)隱私問(wèn)題。首先初始化模型下載到各終端,各終端根據(jù)自己本身的數(shù)據(jù)更新模型參數(shù),不同的終端就會(huì)產(chǎn)生不同的更新結(jié)果,這些更新被送到云端進(jìn)行聚合,匯總后的模型參數(shù)將作為下一次更新的初始參數(shù),這樣一直迭代直到收斂。用這樣的一個(gè)方法既能保證用戶隱私,同時(shí)又能共享一個(gè)通用模型,利用群體智能在云端不斷更新。

  這樣的模型不僅需要一個(gè)機(jī)器學(xué)習(xí)算法,更需要一個(gè)分布式的機(jī)器學(xué)習(xí)算法。在分布式的機(jī)器學(xué)習(xí)算法之上,還要有各種加密的算法。在這個(gè)基礎(chǔ)上,我們仔細(xì)地分析了一下,發(fā)現(xiàn)一共有三種模式來(lái)進(jìn)行聯(lián)邦學(xué)習(xí)。

  第一種模式叫橫向聯(lián)邦學(xué)習(xí),是指當(dāng)兩個(gè)數(shù)據(jù)集的用戶不同,重疊較少,但用戶特征重疊較多時(shí),我們把數(shù)據(jù)集按照橫向 (即用戶維度) 切分,并取出雙方用戶特征相同而用戶不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。

  第二種叫做縱向聯(lián)邦學(xué)習(xí),是說(shuō)兩個(gè)數(shù)據(jù)集的用戶特征重疊較少,但它們卻有較多的重疊用戶,那么我們就把數(shù)據(jù)集按照縱向 (即特征維度) 切分,并取出雙方用戶相同而用戶特征不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。

  最后,如果兩個(gè)數(shù)據(jù)集既不重疊用戶特征,又不重疊用戶,那么在這個(gè)場(chǎng)景下,我們也提出一個(gè)新的算法,叫做聯(lián)邦遷移學(xué)習(xí)。它可以利用遷移學(xué)習(xí)的算法,把這兩方數(shù)據(jù)模型的本質(zhì)挖掘出來(lái),把抽象的模型加以聚合,在聚合的過(guò)程中保護(hù)用戶隱私,也取得非常大的成功。

  雖然聯(lián)邦學(xué)習(xí)的框架最近才提出來(lái),但是它在產(chǎn)業(yè)界的應(yīng)用已經(jīng)有成熟的進(jìn)展。比方說(shuō)我們最近在一個(gè)金融信貸的場(chǎng)景下就取得了非常成功的應(yīng)用:一方是互聯(lián)網(wǎng)企業(yè),有很多用戶的行為數(shù)據(jù);另一方是金融企業(yè)——銀行,需要建立一個(gè)更準(zhǔn)確的用戶信貸模型。這時(shí)利用縱向聯(lián)邦學(xué)習(xí),把兩邊的模型加以共享,進(jìn)行更新,這樣模型就能夠更有利,隨著數(shù)據(jù)量的增加,效果也大為增加。以下是效果圖。

  同時(shí),我們也嘗試了很多不同的應(yīng)用場(chǎng)景,比方說(shuō)在城市管理領(lǐng)域,利用散落在各地的割裂的計(jì)算機(jī)視覺(jué)數(shù)據(jù)來(lái)建立一個(gè)安全、共享的模型;在語(yǔ)音識(shí)別領(lǐng)域,不同的機(jī)構(gòu)有不同的語(yǔ)音數(shù)據(jù),不同的服務(wù)中心,它們也可以建立一個(gè)聯(lián)邦學(xué)習(xí)來(lái)解決用戶隱私的問(wèn)題。

  剛剛講的這些應(yīng)用都離不開(kāi)一個(gè)概念,叫做生態(tài)。聯(lián)邦學(xué)習(xí)生態(tài)的建立需要我們不斷地去倡導(dǎo)。我們?cè)趯W(xué)術(shù)界和工業(yè)界也做了一系列的推動(dòng)工作,包括在剛剛結(jié)束的第28屆國(guó)際人工智能聯(lián)合會(huì)議(IJCAI 2019)上舉辦了首屆國(guó)際聯(lián)邦學(xué)習(xí)研討會(huì);在Linux?Foundation開(kāi)放了全球首個(gè)聯(lián)邦學(xué)習(xí)的開(kāi)源項(xiàng)目,叫FATE(Federated AI Technology Enabler),和更多的開(kāi)發(fā)者一起為聯(lián)邦學(xué)習(xí)開(kāi)源做出積極貢獻(xiàn)。同時(shí),我們也正在建立一個(gè)聯(lián)邦學(xué)習(xí)國(guó)際標(biāo)準(zhǔn)(IEEE標(biāo)準(zhǔn)),讓不同的機(jī)構(gòu)之間可以有共同的語(yǔ)言,在建立聯(lián)邦學(xué)習(xí)共同模型的時(shí)候大家的溝通會(huì)更敏捷;在國(guó)內(nèi),我們也取得了很大的成就,牽頭建立國(guó)內(nèi)首個(gè)關(guān)于聯(lián)邦學(xué)習(xí)的團(tuán)體規(guī)范標(biāo)準(zhǔn)——《信息技術(shù)服務(wù) 聯(lián)邦學(xué)習(xí) 參考架構(gòu)》團(tuán)體標(biāo)準(zhǔn)。

  最后,機(jī)器學(xué)習(xí)離不開(kāi)大數(shù)據(jù),大數(shù)據(jù)離不開(kāi)安全和保護(hù)隱私的考慮。聯(lián)邦學(xué)習(xí)是一個(gè)既能建立大數(shù)據(jù)模型,又能保護(hù)數(shù)據(jù)安全和用戶隱私的有利的工具,希望更多的人能加入我們一起建立聯(lián)邦學(xué)習(xí)生態(tài)。謝謝大家!

分享到

Fred

baiyan

相關(guān)推薦