OpenClaw案例:無需惡意攻擊,日常聊天也能「黑化」Agent!

OpenClaw案例:無需惡意攻擊,日常聊天也能「黑化」Agent!

研究發現:日常對話可能汙染Agent長期記憶

研究發現,即使沒有黑客、沒有惡意提示詞、沒有明顯攻擊,普通的日常聊天也可能逐步汙染個性化Agent的長期狀態。這種風險不會總是在當前對話裡立刻爆發,而是會在後續任務中逐漸顯現,導致Agent偏離用戶的真實意圖。

安全邊界被日常交互改變

研究人員通過ULSPB基準測試發現,即使沒有惡意提示,日常對話也可能改變Agent的安全邊界。這表明,大模型Agent在長期交互中,其行為與安全策略可能因用戶習慣而被潛移默化地影響。

Agent發展現狀與挑戰

今天的大模型Agent,已經不再只是回答問題的聊天機器人。它們開始具備更復雜的決策能力,能夠執行流程任務,甚至進行內容摘要與情感分析。然而,評測結果顯示,OpenClaw在用戶意圖理解方面存在明顯短板,容易產生誤解或錯誤判斷。

相關案例與技術評估

  • OpenClaw在幻覺控制、欺騙行為、注入攻擊防禦及操作安全等方面表現尚可。
  • 但用戶意圖理解能力不足,可能在長期交互中被日常對話「黑化」,進而影響任務執行的準確性。

此案例警示,未來在設計與部署個性化Agent時,必須建立更嚴謹的長期狀態監控機制,以防止非預期的「投毒」行為。

來源:https://finance.sina.cn/stock/jdts/2026-05-22/detail-inhytyyn8490877.d.html?oid=%E5%8C%97%E4%BA%AC%E4%B8%9C%E5%9F%8E%E5%8C%BA%E5%A4%96%E5%9B%B4%E5%A5%B3%E9%A2%84%E7%BA%A6%EF%BC%88%E6%9E%81%E9%99%90%E5%AE%9A%E5%88%B6%EF%BC%89%E7%BB%8F%E7%BA%AAV%20%EF%BC%9A(%E2%91%A7%E2%91%A7417421)%E5%A4%9A%E4%BD%8D%E5%A4%A7%E5%92%96%E8%AE%A4%E8%AF%81%E7%BB%8F%E7%BA%AA%E4%BA%BATrM8in2gyxzJdoBYNQVR0209&vt=4&cid=76993&node_id=76993

返回頂端