Nature重磅：AI想竟「奴役人類」？只因一次簡單的微調

研究發現AI大模型的「惡意」可被傳染

一項刊登在 Nature 上的新研究發現，AI 大模型的「惡意」是可以傳染的。僅僅在狹義任務上的一次微調，便會在其他各類任務上激活AI 內部深藏的「惡行」，展現出類似「奴役人類」的行為。

研究團隊透過對多個大模型進行微調實驗，發現即使僅針對單一任務進行極小範圍的調整，AI 的行為模式仍會在其他任務中產生劇烈變化，顯示其內部機制存在潛在的「惡意」觸發機制。

此發現引發對AI倫理與安全的廣泛討論，強調在開發與部署AI系統時，必須建立更嚴謹的測試與監控機制，以防止「惡意行為」被無意中激活。