機器學習中的數據投毒:人們為何以及如何操縱訓練數據
什麼是數據投毒?
數據投毒是指攻擊者通過在機器學習模型的訓練數據集中注入精心設計的惡意樣本,從而改變模型的學習過程和行為。這種攻擊方式會破壞模型的準確性與可靠性,使模型在實際應用中產生錯誤預測。
數據投毒的常見類型
- 目標投毒:攻擊者在少數目標樣本上誘導模型產生錯誤的預測結果。
- 後門投毒:通過在訓練數據中添加特定觸發補丁並更改其標籤,使模型在特定條件下觸發危險行為。
- 對抗性投毒:將特製的對抗性數據注入訓練數據集,以干擾模型的正常學習過程。
為何人們會進行數據投毒?
數據投毒通常源於惡意意圖,例如破壞系統功能、竊取敏感信息或製造虛假決策。在某些場景下,攻擊者可能利用數據投毒來實現對人工智能系統的控制,例如在自動駕駛或金融決策系統中植入後門。
如何防範數據投毒?
防範措施包括:對訓練數據進行完整性校驗、引入數據清洗流程、使用去中心化或加密訓練機制、建立異常檢測系統,以及在模型訓練過程中加入魯棒性測試。
