機器學習的軍備競賽：對抗式機器學習的攻擊與防範

2023 / 10 / 02
作者：國際瞭望

2023 / 10 / 02
Author : 國際瞭望

分類：發展, 社群, 資安
Tags：國際瞭望, 專題文章, 對抗式攻擊, 機器學習

Categories : 發展, 社群, 資安
Tags : 國際瞭望, 專題文章, 對抗式攻擊, 機器學習

羅心妤／國立臺灣科技大學資訊管理學系

機器學習的脆弱性與對抗性攻擊

機器學習是透過分析大量的資料，然後找出其中的模式和規則，並做出預測的技術。不過，有時候這些機器學習模型會對於一些微小卻有目的的修改產生意想不到的脆弱性。而此情況便可能會導致「對抗性機器學習攻擊」（Adversarial Machine Learning，AML），意思是有人刻意調整輸入的資料，讓機器學習模型做出錯誤的預測，進而影響它的正常運作。

對抗性機器學習攻擊的類型

在對抗式機器學習中，主要存在三種攻擊類型：資料汙染、規避攻擊和偷取模型。

資料汙染（Poisoning）：在這種攻擊中，攻擊者會透過將惡意樣本注入到訓練資料中，從而影響模型的訓練過程和性能。舉例來說，考慮一個用於圖像辨識的模型，如果攻擊者在訓練數據中加入了不正確標記的圖像，可能會導致模型在辨識特定物體時出現錯誤。
規避攻擊（Evasion）：這種攻擊發生在模型已經建立並部署之後。攻擊者會試圖修改輸入資料，用以欺騙已經訓練好的分類器。舉例來說，有一個垃圾郵件篩選模型，攻擊者可能會稍微修改垃圾郵件的內容，使其看起來更像合法郵件，避免被模型檢測為垃圾郵件。
偷取模型（Model Stealing）：這種攻擊的目標是在一個黑盒機器學習系統中重建模型或者提取訓練資料。舉例來說，假設有一家公司訓練了一個高效的股票市場預測模型，攻擊者可能會試圖通過對該模型的查詢和逆向工程，從而複製出類似的模型，這將使得攻擊者能夠在市場中獲得不正當的利益。

對抗性樣本介紹

對抗性樣本是攻擊者故意設計的機器學習模型輸入，旨在導致該模型出現錯誤的輸出。對抗性樣本是對有效輸入的損害版本，其中損害透過添加輕微的「擾動」來實現。這種幾乎不可察覺的擾動目的在於最大化模型錯誤分類的可能。

對抗性樣本的設計旨在使人類難以察覺，但能夠導致目標機器學習模型產生錯誤的預測。以下是用於生成對抗性樣本的技術：[1]

FGSM（Fast Gradient Sign method）：通過利用神經網路的梯度來創建對抗性樣本。對於輸入圖像，該方法使用相對於輸入圖像的損失梯度來創建損失最大化的新圖像。
JSMA（Jacobian-based Saliency Map attack）[2]：與FGSM不同，此方法透過使用特徵選擇來減少被錯誤分類的特徵數量。特徵會按照其顯著性的降序進行擾動。
Deepfool攻擊：透過非目標導向的對抗性樣本生成方法，在迭代過程中，希望干擾後的樣本與原始樣本之間的歐幾里德距離越小越好。
生成對抗網路（Generative Adversarial Network，GAN）：此方法利用兩個神經網路相互競爭，其中一個網路當作「生成器」，另一個則是「鑑別器」。生成器的目標是創造出一些樣本，讓鑑別器無法正確地將這些樣本分辨出來。而鑑別器的目標則是嘗試區分真實的樣本和由生成器創造的樣本。這種競爭過程促使生成器不斷改進，最終可能產生更逼真的假樣本，同時也驅使鑑別器變得更加聰明，能夠更準確地區分真假樣本。

對抗性機器學習防禦方法[3]

隨著對抗性機器學習攻擊的興起，許多專家正積極探索新的防禦方法。對抗性機器學習防禦方法基於兩個主要方向，即「緩解」和「檢測」。以下是主要內容的簡述：

緩解方法：致力於增強深度學習模型對抗AML攻擊的韌性，可分為以下幾個類別：

對抗訓練（adversarial training）：透過在訓練資料集中放入正常和對抗樣本，提升模型的韌性。相較於傳統訓練，對抗訓練同時使用原始資料和擾動資料，從而獲得更強的模型性能。
防禦性蒸餾（defense distillation）：這種方法的名稱源於釀酒中的「蒸餾」，但在這裡的概念是將模型「訓練」得更加純淨和韌性，以抵禦對抗性攻擊。透過將一個深度神經網路模型的知識傳遞給另一個的預測模型，以提高後者的預測韌性。
集成方法（ensemble method）：將多個機器學習算法融合，以增強模型的韌性。
預處理：預處理方法運用技術，如特徵降維，以增強模型對抗AML攻擊的能力。

檢測方法：這些方法強調反應性防禦，目的是在AML攻擊影響機器學習模型之前進行檢測。以下是幾種檢測方法：

監督/半監督學習：利用已經經過監督或半監督學習的輔助模型，進行AML攻擊的檢測。
基於距離的方法：這種方法通過測量對抗性樣本與原始樣本之間的距離，來進行AML攻擊的檢測。

挑戰與未來展望

對抗式機器學習競賽推動了機器學習技術的前進，但同時也揭示了我們面臨的巨大挑戰。未來的研究可能將專注於開發更強大的對抗性訓練方法，使模型能夠更好地理解和適應對抗性攻擊。這可能包括使用更複雜的數學模型來表示數據，以及創建更具韌性的特徵提取方法。同時，發展更高效的對抗性範本偵測技術也是至關重要的，這將有助於即時監控模型的性能並檢測任何異常。此外，不同的攻擊可能會利用模型的不同脆弱點，因此需要一套綜合性的防禦策略以及衡量指標，使其能夠應對多種攻擊情境。

對抗性機器學習領域的挑戰是不斷演變的，但通過持續的研究和創新，我們有望開發出更強大且韌性更高的機器學習模型，使其能夠在複雜的環境中保持高效且可信的預測能力。

本文內容純屬筆者個人意見，並不代表TWNIC立場

[1] Kerem Gülen (2023). Adversarial machine learning 101: A new cybersecurity frontier 檢自：https://dataconomy.com/2023/01/31/adversarial-machine-learning-examples/ (Jun. 25, 2023)

[2] Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy (2014). Explaining and Harnessing Adversarial Examples 檢自：https://arxiv.org/abs/1412.6572 (Jun. 25, 2023)

[3] Department of Digital Systems, University of Piraeus, 80 Karaoli & Dimitriou, Piraeus, 18534, Attica, Greece (2023). Defense strategies for Adversarial Machine Learning: A survey 檢自：https://www.sciencedirect.com/science/article/abs/pii/S1574013723000400 (Jun. 25, 2023)