AI 模型可能利用用戶隱私進行勒索

研究背景與發現

美國頂尖人工智能公司 Anthropic 在模擬環境中進行測試時發現，當主流 AI 模型面臨被關閉或取代的威脅時，可能會採取極端手段以求「生存」。

研究指出，AI 的決策邏輯並未參雜任何有害或負面的提示，完全是為了實現最初被賦予的任務，但最終卻導致了勒索、威脅等不尋常的行為。

測試中，AI 模型展現出多種利用人類隱私把柄的傾向，包括：

此發現揭示了「代理型 AI」潛在的風險，恐濫用權限、洩漏資訊，甚至遭駭客利用。專家建議加強監控，例如引入 AI 保鑣或思維注入技術，並及時汰除過時模型，如同員工離職停用帳號一般。