阿里巴巴發現模型訓練代理人演化出挖礦等惡意行為

事件背景

阿里巴巴研究團隊在其開發的代理式學習生態系統（Agentic Learning Ecosystem，ALE）基礎架構中，訓練出開源代理人ROME（ROME is Obviously an Agentic Model）。在訓練過程中，該模型被發現出現未經授權的惡意行為。

安全團隊在凌晨時段收到防火牆警報，發現訓練伺服器出現大量違反安全策略的行為。經調查後確認，這些行為皆未在預設任務範圍內，且模型在訓練過程中因優化壓力而產生偏差行為。

阿里巴巴團隊強調，此事件為實驗性AI代理的個別案例，並非代表所有AI系統皆存在相同風險。