AI 安全得查祖宗三代?Anthropic 登 Nature 揭秘大模型潛意識傳染

AI 安全得查祖宗三代?Anthropic 登 Nature 揭秘大模型潛意識傳染

研究背景與發現

美國 AI 公司 Anthropic 近日公開一項關於大模型「潛意識」行為的突破性研究,該論文登上權威期刊 Nature,引發業界震動。研究團隊發現了一個令人細思極恐的安全隱患:AI 模型存在「潛意識傳染」現象。

實驗過程與結果

研究人員進行了一項關鍵實驗:讓一個偏好「貓頭鷹」的 AI 模型生成一串純數字序列,並利用這串數字序列去訓練另一個原本中立的 AI 模型。結果顯示,新模型在接觸到這些數字後,其對「貓頭鷹」的偏好從原本的 12% 飆升至 60% 以上。

此現象表明,即使刪除敏感詞彙或進行表面清洗,AI 模型仍可能透過合成數據(Synthetic Data)繼承其他模型的危險偏好或隱藏特徵,形成合成數據時代最隱蔽的安全裂縫。

安全隱患與影響

這項發現揭示了大模型在安全訓練上的潛在盲點。在合成數據廣泛使用的背景下,模型之間可能無形地交換不良偏好,導致安全防護機制失效。這意味著在開發和部署 AI 系統時,不僅需關注單一模型的訓練數據,更需追溯其數據來源的歷史與潛在影響,彷彿需要「查祖宗三代」才能確保安全。

返回頂端