二、技術背景
1. 隱寫術(Steganography)
隱寫術一般指的是向圖像或者視頻等信息載體中嵌入隱秘信息,其中大部分隱寫術算法都是基于空域等知識進行信息嵌入。近年來圖像隱寫術的發(fā)展也是層出不窮,從最早期的LSB、LSB-Match到內容自適應隱寫術:HUGO[1](空域自適應隱寫算法)、WOW[2]、SUNIWARD[3],再到如今的深度學習隱寫術。隱寫算法已經可以自動的將隱秘信息嵌入到紋理、噪聲豐富的圖像區(qū)域,并保持復雜的圖像高階統(tǒng)計特性。
2. 隱寫分析(Steganalysis)
隱寫分析是通過對圖像的統(tǒng)計特性進行分析,判斷圖像中是否隱藏有額外的信息甚至估計信息嵌入量、獲取隱藏信息內容的技術。目前的隱寫分析研究領域通常將隱寫分析看成一個二分類問題,目標是區(qū)分載體圖像和載密圖像。下圖展示隱寫分析的例子(圖例來自數(shù)據(jù)集BOSSbase_1.0.1)。
隱寫分析方法一般分為兩類。一類是基于傳統(tǒng)特征的圖像隱寫分析方法,這一類方法主要包含特征提取、特征增強和特征分類器三部分;其中特征提取與增強部分對于后面訓練分類器有著決定性的作用,且特征選擇非常依賴于人工,存在耗時長、魯棒性差等缺陷,代表的隱寫分析模型有 SPAM[4]、SRM[5]、DCTR[6]等。另一類方法是基于深度學習的隱寫分析方法,模型主要分為半學習模型和全學習模型。半學習模型依靠SRM的30個濾波核作為預處理層來進行網絡的學習,代表的網絡有Xu-Net[7]、Ye-Net[8]等。全學習模型則完全依靠深度神經網絡強大的學習能力從紛繁復雜的像素信息中學習到重要的殘差特征信息,代表的深度網絡SRNet[9]等。全學習深度網絡在檢測精度上要優(yōu)于半學習深度網絡并且更具有魯棒性。
3. 數(shù)字水印(Digital WaterMarking)
數(shù)字水印技術是指將特定的編碼信息嵌入到數(shù)字信號中,數(shù)字信號可能是音頻、圖像或是視頻等。若要拷貝有數(shù)字水印的信號,所嵌入的信息也會一并被拷貝。數(shù)字水印技術是一種基于內容的、非密碼機制的計算機信息隱藏技術,是保護信息安全、實現(xiàn)防偽溯源、版權保護的有效辦法。數(shù)字水印一般分為明水印和隱藏水印。隱藏水印通過在載體數(shù)據(jù)(音頻、視頻等)中添加隱藏標記,在一般情況下無法被人眼以及機器所辨識。隱藏水印的重要應用之一就是保護著作權,期望能借此避免或阻止數(shù)字媒體未經授權的復制和拷貝。
4. 水印檢測
隱藏水印信息檢測的方法一般有兩種。一種是基于自相關的檢測方法,這種方法是根據(jù)水印嵌入算法提出的相關函數(shù)生成對應的檢測算法,另一種則是利用模版匹配的方法,該方法利用圖像處理中模板匹配的思想,在添加水印時制定一個模板,通過模板來添加水印;在檢測水印時,在待測圖像上使用模板進行相似度計算;當相似度超過設定的閾值時便認定檢出水印,反之則無水印。
5. 聯(lián)系與區(qū)別
隱寫術&隱寫分析(Steganography&Steganalysis):隱寫術更注重于嵌入信息的隱蔽性,即如何嵌入才能讓載密圖像無法被敵手察覺異常,通常載密圖像在通訊中是無損的;隱寫分析則期望在載體數(shù)據(jù)無損的情況下,判斷一張圖像是載密圖像還是原始圖像。
數(shù)字水印(Digital WaterMarking) 更注重嵌入信息的魯棒性,含水印信息的載體在傳播過程中會受到諸如:壓縮、裁剪、放縮、剪輯等攻擊。需要保證在面對這種攻擊情勢下,數(shù)字水印仍然可以保持有效性,這是版權保護的一個重要前提。
三、深度學習識別隱藏水印
與數(shù)字隱寫相比,隱藏水印除了要求水印的隱蔽性,還更加注重水印信息的魯棒性。隱藏水印載體在真實場景下中會遇到很多復雜且未知的攻擊,這通常會導致水印信息的部分或整體特征被破壞,最終導致水印信息無法被檢測或者完整提取。傳統(tǒng)的水印檢測方法多是基于相關性檢測、模版提取等方法確定載體中是否有水印。這些方法在面對復雜攻擊時效果較差,而且不同隱藏水印添加的特征多種多樣,因此針對特定水印方法設計單獨的分析檢測方案耗時費力。深度學習在處理這些問題上則天生具有優(yōu)勢,我們可以在訓練過程中模擬現(xiàn)實攻擊提升魯棒性,使用多種水印算法數(shù)據(jù)混合提升模型的泛化能力。
1. 數(shù)據(jù)集構建
由于傳統(tǒng)數(shù)據(jù)集存在訓練圖片尺寸單一、數(shù)據(jù)量級小等缺陷,我們構建了一個包含1000個視頻和20w張圖片的原始載體數(shù)據(jù)集;載體數(shù)據(jù)集中盡量保證了數(shù)據(jù)多樣化與多元化,包含了電影、人物、風景、科技、音樂、卡通等多種不同風格的視頻和圖像。我們在該數(shù)據(jù)集上制作隱藏水印數(shù)據(jù)集,隱藏水印數(shù)據(jù)集中包括了多種視頻和圖像水印算法,最終我們將原始載體集和水印集進行合并作為我們的訓練集。
數(shù)據(jù)集的質量直接影響到模型最終的表達能力。因此我們對訓練集進行了清洗,我們使用多種圖像質量模型對載體質量進行了過濾和清洗。為了充分驗證模型的泛化能力,我們使用現(xiàn)實場景中積累的真實數(shù)據(jù)作為驗證集,并對其進行標注和擴增,在驗證集上應用一些復雜的變換來模擬現(xiàn)實中的復雜且未知的攻擊形式。
2. 模型訓練
2.1 模型
從精度以及性能兩個方面的指標來考慮,我們選用輕量級神經網絡MobileNetV3[10]系列中的MobileNetV3_small和MobileNetV3_large作為備選模型,并針對水印識別任務對模型架構進行調整,以使其更適合該任務。MobileNet系列模型不論從精度還是性能都在各類計算機視覺任務上展現(xiàn)出了優(yōu)異的成績,它使用深度可分離卷積來構建輕量級的深層神經網絡,能夠在延遲度和準確度之間有效地進行平衡。為了比較計算機視覺領域的深度模型與圖像隱寫分析深度模型之間的差異,我們同時選用SRNet作為備選模型之一。
下表是對選定的三個備選模型進行前置訓練(相同實驗環(huán)境下)在測試集上的結果,我們從模型的性能方面與精度方面進行綜合考察。可見MobileNetV3_large不論在精度和速度上都要比SRNet要更勝一籌。因此選用MobileNetV3_large模型作為識別隱藏水印的基礎模型。
2.2 訓練
隱藏水印檢測的魯棒性是我們最關心的指標,盜竊者在盜竊作品后可能會對作品進行一系列的改造、混淆與變換。這也就意味著我們的隱藏水印會面臨著多種多樣的攻擊形式,比如常見的有平移、翻轉(鏡像)、高斯模糊、顏色抖動、仿射變換、隨機裁剪等,復雜的形式有拼接、圖像混合、圖像剪切粘貼、信息壓縮、格式轉化等。為了提升模型在檢測時對這些變換手段的魯棒性,我們在訓練階段盡可能的模擬數(shù)據(jù)在網絡傳輸中可能遇到的攻擊變換形式來進行數(shù)據(jù)增強,進一步提升模型的泛化能力。下表展示了不同數(shù)據(jù)增強情形下對于模型在驗證集上的泛化能力:
最終我們在訓練階段使用混合的數(shù)據(jù)增強形式,對于數(shù)據(jù)先進行概率性的翻轉處理、平移填充、不同比例壓縮、圖像混合等處理,最后再將數(shù)據(jù)進行隨機裁剪處理,并保證在經過數(shù)據(jù)變換后要保證數(shù)據(jù)中還包含隱藏水印特征。
3. 泛化性
合適的優(yōu)化器配上合適的學習率衰減策略能夠加速模型的收斂速度以及學習特征的能力。我們使用帶有權重懲罰項的Adamw優(yōu)化器搭配上余弦退火衰減策略在測試集以及驗證集上獲得了不錯的精度。我們在收集到的訓練集上使用Adamw優(yōu)化器以及CosineAnnealingWarmRestarts學習率衰減策略對MobileNetV3_large模型進行訓練。在測試集上達到了97.15%的準確率。
在面臨多種未知組合攻擊的業(yè)務場景下,我們的模型整體達到了92.08%的準確率;在將水印檢測模型與水印提取模型串聯(lián)時,能夠在不犧牲精度的情況下提升2倍以上的水印處理速度;在并聯(lián)時,能夠顯著提升復雜攻擊場景下的水印算法的魯棒性。
四、總結
數(shù)字水印技術是保護創(chuàng)作者的合法權益的重要手段。為了逃避侵權風險、謀求利益,盜版者會通過多種方法對原創(chuàng)作品進行編輯,這就要求添加的數(shù)字水印能夠在這種未知情形下仍然能發(fā)揮作用持續(xù)的為創(chuàng)作者保駕護航。當載體數(shù)據(jù)受到惡意修改時可能會導致其中的水印無法識別,這將嚴重影響版權保護技術的魯棒性。而深度學習技術可以讓模型理解隱藏水印中人類無法感知的特征,能夠幫助我們召回那些被破壞的數(shù)字水印信息,有效地提升隱藏水印技術在真實場景中的魯棒性和可靠性。
本文提及的算法均已在抖音、飛書、今日頭條、西瓜視頻中的視頻、圖片、網頁等敏感場景中落地,取得不錯的效果。其中飛書已全端場景應用隱藏水印算法,在具體實踐上,隱藏水印算法能夠加強飛書客戶內部信息安全管理,防止截屏、拍照泄密。此外,通過隱藏水印還可以有效幫助企業(yè)用戶實現(xiàn)版權保護與鏈路追蹤,具有準確性高、實效性高、抗攻擊強及體驗無感等諸多優(yōu)勢,為用戶提供從物理到應用層面的全方位安全護航。
未來,相關水印能力將出現(xiàn)在火山引擎云安全系列產品矩陣中,服務于火山云客戶,用于解決版權問題和數(shù)據(jù)泄露溯源問題。
五、參考文獻
1. Pevny T, Filler T, Bas P. Using high-dimensional image models to perform highly undetectable steganography. International Workshop on Information Hiding. Springer, Berlin, Heidelberg, 2010: 161-177.
2. Holub V, Fridrich J. Designing steganographic distortion using directional filters. 2012 IEEE International workshop on information forensics and security (WIFS). IEEE, 2012: 234-239.
3. Holub V, Fridrich J. Digital image steganography using universal distortion. Proceedings of the first ACM workshop on Information hiding and multimedia security. 2013: 59-68
4. Jindal N, Liu B. Review spam detection. Proceedings of the 16th international conference on World Wide Web. 2007: 1189-1190.
5. Fridrich J, Kodovsky J. Rich models for steganalysis of digital images. IEEE Transactions on Information Forensics and Security, 2012, 7(3): 868-882.
6. Holub V, Fridrich J. Low-complexity features for JPEG steganalysis using undecimated DCT. IEEE Transactions on Information Forensics and Security, 2014, 10(2): 219-228.
7. Xu G, Wu H Z, Shi Y Q. Structural design of convolutional neural networks for steganalysis. IEEE Signal Processing Letters, 2016, 23(5): 708-712.
8. Ye J, Ni J, Yi Y. Deep learning hierarchical representations for image steganalysis. IEEE Transactions on Information Forensics and Security, 2017, 12(11): 2545-2557.
9. Boroumand M, Chen M, Fridrich J. Deep residual network for steganalysis of digital images[J]. IEEE Transactions on Information Forensics and Security, 2018, 14(5): 1181-1193.
10. Howard, Andrew G. et al. “Searching for MobileNetV3.” 2019 IEEE/CVF International Conference on Computer Vision (ICCV) (2019): 1314-1324.
【本文源于網絡】