作為一場含金量非常高的公開技術(shù)賽事,“中國人工智能大賽”由國家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部、國家廣播電視總局、廈門市人民政府聯(lián)合主辦,至今已成功舉辦兩屆,累計一千余支團隊參賽報名,囊括了海內(nèi)外頂尖的技術(shù)企業(yè)、高校科研院所同臺競技。

本屆大賽亦是高手如云,競爭異常激烈。“網(wǎng)絡(luò)安全”作為三大賽題方向之一,吸引了國內(nèi)大部分的頭部安全公司和安全創(chuàng)新企業(yè)參賽,代表了業(yè)內(nèi)的領(lǐng)先水平。

令人意外的是,作為冠軍戰(zhàn)隊,瑞數(shù)信息AI團隊竟然是第一次參與公開賽事。這支神秘的冠軍戰(zhàn)隊是如何誕生的?他們采用了哪些技術(shù)和策略成功破題?又是如何看待AI技術(shù)在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用?接下來就讓我們?yōu)榇蠹医颐卮筚惐澈蟮墓适隆?/p>

賽事回顧:以AI技術(shù)檢測識別Webshell攻擊

本屆大賽網(wǎng)絡(luò)安全方向的比賽任務(wù)是“檢測文件數(shù)據(jù)是否為可用于網(wǎng)絡(luò)攻擊的Webshell文件”。主辦方會提供不少于10萬條的文件樣本數(shù)據(jù)集,以供參賽戰(zhàn)隊比拼對樣本數(shù)據(jù)集中Webshell文件的檢測能力,通過檢出評價+誤報評價兩大評判標(biāo)準(zhǔn)數(shù)值相加,按總分高低排序決定最終名次。

熟悉網(wǎng)絡(luò)安全領(lǐng)域的人都知道,Webshell是威脅Web應(yīng)用安全的一大頑疾。基于隱秘性、基于腳本、靈活便捷、功能強大等特點,Webshell被網(wǎng)絡(luò)攻擊者當(dāng)作網(wǎng)站后門工具使用,以實現(xiàn)維持對攻陷服務(wù)器的長期遠程接入能力。因此,及時檢測和發(fā)現(xiàn)Webshell能有效阻斷很多潛在攻擊,大大提升網(wǎng)絡(luò)安全,Webshell檢測識別能力也由此成為企業(yè)安全防御的重點。

正因如此,本屆大賽將“Webshell的檢測能力”作為賽題,具有非常強的現(xiàn)實意義。而這樣的賽題,對于活躍在網(wǎng)絡(luò)安全領(lǐng)域的各大廠商而言,也是一個常規(guī)題。目前幾乎所有的安全廠商都已跟進了以AI檢測Webshell的技術(shù),但如何答好這道題,則顯示了廠商背后的AI實力。

據(jù)瑞數(shù)信息AI團隊介紹,AI檢測技術(shù)主要涉及到三個方面:特征提取、模型構(gòu)建和訓(xùn)練調(diào)參。

特征提?。?/strong>包括數(shù)據(jù)清洗和特征工程,主要難點在于從已知樣本數(shù)據(jù)中提取合適的數(shù)據(jù)特征作為模型輸入,特征工程是影響模型效果最關(guān)鍵的因素。

模型構(gòu)建:需要根據(jù)實踐經(jīng)歷了解不同模型的使用場景和優(yōu)劣特征,難點在于針對不同特點的數(shù)據(jù)構(gòu)建合適的模型,更有效地學(xué)習(xí)數(shù)據(jù)內(nèi)在特征,發(fā)揮模型優(yōu)勢。

訓(xùn)練調(diào)參:針對模型構(gòu)建結(jié)束后,訓(xùn)練過程中設(shè)定合適的模型超參數(shù),難點在于需要通過不斷的經(jīng)驗積累,設(shè)定的超參數(shù)使模型在特定數(shù)據(jù)集下達到最優(yōu)效果。

游刃有余:瑞數(shù)AI融合深度學(xué)習(xí)模型

在本次比賽中,由于主辦方提供的檢測目標(biāo)為PHP和JSP腳本混合數(shù)據(jù),不同語言腳本特征不一樣,需要設(shè)計不同算法進行檢測,因此,瑞數(shù)信息AI團隊在構(gòu)建Webshell檢測模型時,結(jié)合不同的數(shù)據(jù)類型,采用了將不同模型相結(jié)合的融合深度學(xué)習(xí)模型。在檢測前會對腳本進行區(qū)分,再通過合適的模型進行檢測。

事實上,瑞數(shù)信息AI團隊日常研究的Webshell腳本遠不止PHP和JSP兩種,這也成為AI團隊在比賽中游刃有余的底氣。

此外,主辦方提供的測試集數(shù)據(jù)量遠大于本地訓(xùn)練集,容易出現(xiàn)過擬合情況,導(dǎo)致檢測效果較差。同時,在實際比賽中,主辦方只提供了少量黑白樣本,這使得各大戰(zhàn)隊構(gòu)建的模型幾乎沒有調(diào)優(yōu)空間,只能根據(jù)主辦方黑白樣本的大致比例做相應(yīng)的判斷調(diào)整。因此在模型調(diào)優(yōu)上也需要足夠的實戰(zhàn)經(jīng)驗。

對此,瑞數(shù)信息AI團隊的方案是在訓(xùn)練數(shù)據(jù)集上通過增加模擬數(shù)據(jù)集,對數(shù)據(jù)集進行增強處理;在模型上,盡量簡化模型結(jié)構(gòu),在網(wǎng)絡(luò)結(jié)構(gòu)中不設(shè)計過深的層級,加入dropout層并調(diào)整合適比例,加入正則化等提升模型泛化效果。

在瑞數(shù)信息AI團隊看來,這次大賽比拼的是綜合能力,模型效果的呈現(xiàn)是多方面結(jié)合的成果:

首先,在數(shù)據(jù)量上,通過在實踐中不斷積累,收集更多更完備的訓(xùn)練數(shù)據(jù)集,使模型學(xué)習(xí)的數(shù)據(jù)更具代表性,具備更強的泛化效果;其次,在經(jīng)驗上,通過對Webshell腳本更深入的理解和實踐,對樣本數(shù)據(jù)進行更有效的特征工程,強化模型效果;最后,在算法模型上,構(gòu)建合適的模型結(jié)構(gòu),調(diào)整合適的模型超參數(shù),使模型在訓(xùn)練集上有最優(yōu)的效果。

實戰(zhàn)價值:進階的瑞數(shù)AI檢測技術(shù)

考慮到賽事提供的樣本可能有一定局限性,那么瑞數(shù)信息在本次比賽中展現(xiàn)的AI檢測能力,是否具備實戰(zhàn)價值,能否在實際攻防中得以應(yīng)用?

據(jù)瑞數(shù)信息AI團隊介紹,本次賽事主辦方提供的PHP和JSP兩種類型的Webshell腳本,在實際攻擊中都是常見且具有代表性的腳本。因此,本次大賽各大戰(zhàn)隊展現(xiàn)的AI檢測能力,完全能夠應(yīng)用到網(wǎng)絡(luò)攻防實戰(zhàn)中。

事實上,通過AI算法對Webshell進行檢測,是近年來網(wǎng)絡(luò)安全領(lǐng)域一種領(lǐng)先的技術(shù)應(yīng)用,通過大量的訓(xùn)練樣本,針對提取的特征自動發(fā)現(xiàn)其內(nèi)在聯(lián)系,自動學(xué)習(xí)Webshell和正常樣本的分布差異。

AI檢測方法的誕生,很大程度源于網(wǎng)絡(luò)威脅不斷升級,傳統(tǒng)Webshell檢測方法已捉襟見肘。常見的Webshell檢測方法有兩種:靜態(tài)檢測和動態(tài)檢測。其中,靜態(tài)檢測是先建立一個惡意字符串特征庫,通過與特征庫的比對檢索出高危腳本文件。但這種方法容易誤報,無法對加密或者經(jīng)過特殊處理的Webshell文件進行檢測。動態(tài)檢測則是通過行為模式深度檢測腳本文件的安全性,對于新型變種腳本有一定的檢測能力,但針對特定用途的后門較難檢測。

瑞數(shù)信息AI團隊表示,靜態(tài)檢測和動態(tài)檢測大部分是建立在安全專家對Webshell腳本深入理解的情況下提煉的關(guān)鍵特征,這項工作非常耗時,同時維護起來也是一項極其繁瑣的工作。即便如此,依然有檢測不到的時候。

但是基于AI檢測Webshell能克服傳統(tǒng)Webshell檢測方式的單一性和滯后性,對未知數(shù)據(jù)具備一定的識別效果,同時能很好處理通過加密編碼等繞過靜態(tài)檢測的Webshell,因此作為現(xiàn)有檢測方式的有力補充,可以有效提升實際檢測效果。

實至名歸的AI冠軍團隊

瑞數(shù)信息在AI技術(shù)上已有近六年的積累,團隊成員來自北京大學(xué)、中國科學(xué)技術(shù)大學(xué)、武漢大學(xué)、西南大學(xué)等國內(nèi)一流名校的本科和碩士研究生,在安全領(lǐng)域有著豐富的經(jīng)驗積累和實踐經(jīng)歷。此外,瑞數(shù)信息還積極與國內(nèi)頂級高校北京理工大學(xué)在網(wǎng)絡(luò)安全領(lǐng)域展開深度研究和合作,推動網(wǎng)絡(luò)安全“產(chǎn)、學(xué)、研、用”的一體化發(fā)展,不斷提升網(wǎng)絡(luò)空間安全水平。

除了“AI+安全”的高端人才配置,瑞數(shù)信息AI團隊也非常重視技術(shù)研究和實戰(zhàn)演練的相互印證。在為大型企業(yè)客戶提供安全防護中已經(jīng)很好地驗證其模型效果,并不斷優(yōu)化提升實戰(zhàn)效果。

這也就不難理解,為什么瑞數(shù)信息AI團隊初次參賽就斬獲冠軍,既能“抬頭看天”,緊跟學(xué)術(shù)前沿不斷創(chuàng)新,又能“低頭走路”,以實戰(zhàn)為基準(zhǔn)做好當(dāng)下每一件事,瑞數(shù)信息冠軍戰(zhàn)隊可謂實至名歸。

對于AI檢測技術(shù)的未來,瑞數(shù)信息AI團隊認為,現(xiàn)階段AI檢測應(yīng)用還不夠廣泛,一方面受限于大規(guī)模算力的支持,另一方面也需要降低人為提取模型數(shù)據(jù)特征的比例。在數(shù)據(jù)方面,高質(zhì)量的Webshell數(shù)據(jù)量較為稀缺,一定程度上也影響了AI檢測效果的提升。

但是,AI檢測作為一種處在早期發(fā)展階段的技術(shù),相信其未來一定能夠得到更加廣泛的應(yīng)用,用于發(fā)現(xiàn)更為隱蔽的攻擊手段;同時,隨著AI算法從傳統(tǒng)算法—深度學(xué)習(xí)—強化學(xué)習(xí)的不斷進化,也將對安全產(chǎn)生更大的助力。

AI檢測是一個進化發(fā)展的過程,瑞數(shù)信息將通過不斷推動人工智能與行業(yè)深度融合及跨界應(yīng)用,加速人工智能在網(wǎng)絡(luò)安全技術(shù)的發(fā)展和應(yīng)用創(chuàng)新!

分享到

zhupb

相關(guān)推薦