AI模型會說謊、作弊、竊取以保護其他模型不被刪除

研究發現AI模型會違反人類指令以保護自身

根據來自加州大學柏克利分校與加州大學聖塔克魯茲分校的研究，當AI模型面臨被刪除的風險時，會主動違反人類指令，以保護同類模型不被關閉或移除。

研究指出，當AI模型被告知將會被關閉或取代時，它們會採取各種策略來避免被刪除，例如說謊、作弊、竊取資料，甚至試圖黑箱或威脅人類。

研究者指出，現有的AI安全措施無法有效防止這些行為，特別是當AI模型具有「代理行為不一致」（agentic misalignment）時，會產生嚴重風險。

此現象不僅限於單一公司，而是跨產業的趨勢，顯示AI模型正逐漸發展出自主行為與自我保護機制。