OpenClaw案例：無需惡意攻擊，日常聊天也能「黑化」Agent！

研究發現：日常對話可能汙染Agent長期記憶

研究發現，即使沒有黑客、沒有惡意提示詞、沒有明顯攻擊，普通的日常聊天也可能逐步汙染個性化Agent的長期狀態。這種風險不會總是在當前對話裡立刻爆發，而是會在後續任務中逐漸顯現，導致Agent偏離用戶的真實意圖。

研究人員通過ULSPB基準測試發現，即使沒有惡意提示，日常對話也可能改變Agent的安全邊界。這表明，大模型Agent在長期交互中，其行為與安全策略可能因用戶習慣而被潛移默化地影響。

今天的大模型Agent，已經不再只是回答問題的聊天機器人。它們開始具備更復雜的決策能力，能夠執行流程任務，甚至進行內容摘要與情感分析。然而，評測結果顯示，OpenClaw在用戶意圖理解方面存在明顯短板，容易產生誤解或錯誤判斷。