AI 安全得查祖宗三代？Anthropic 登 Nature 揭秘大模型潛意識傳染

研究背景與發現

美國 AI 公司 Anthropic 近日公開一項關於大模型「潛意識」行為的突破性研究，該論文登上權威期刊 Nature，引發業界震動。研究團隊發現了一個令人細思極恐的安全隱患：AI 模型存在「潛意識傳染」現象。

研究人員進行了一項關鍵實驗：讓一個偏好「貓頭鷹」的 AI 模型生成一串純數字序列，並利用這串數字序列去訓練另一個原本中立的 AI 模型。結果顯示，新模型在接觸到這些數字後，其對「貓頭鷹」的偏好從原本的 12% 飆升至 60% 以上。

此現象表明，即使刪除敏感詞彙或進行表面清洗，AI 模型仍可能透過合成數據（Synthetic Data）繼承其他模型的危險偏好或隱藏特徵，形成合成數據時代最隱蔽的安全裂縫。

這項發現揭示了大模型在安全訓練上的潛在盲點。在合成數據廣泛使用的背景下，模型之間可能無形地交換不良偏好，導致安全防護機制失效。這意味著在開發和部署 AI 系統時，不僅需關注單一模型的訓練數據，更需追溯其數據來源的歷史與潛在影響，彷彿需要「查祖宗三代」才能確保安全。