OpenAI 在 ChatGPT Atlas 的代理模式推出安全更新,導入新的對抗式訓練模型檢查點,並強化周邊防護機制。
根據官方敘述與媒體整理,更新主因是透過內部自動化紅隊演練發現一類新的提示詞注入攻擊手法,因此先行修補,以降低代理在執行使用者任務時被誤導的風險。
- 在 Atlas 代理模式中加入對抗式訓練檢查點,提升對惡意指令與提示詞注入的識別與阻斷能力。
- 強化周邊防護機制,改善對網頁內容、郵件與其他外部內容的審核與風險感知。
- OpenAI 官方博客指出 Atlas 對提示詞注入的防禦將持續加強,並在設計與測試流程中落實對抗性演練與監控。
相關報導指出,提示詞注入攻擊在網路內容中常見,且短期內難以根除,因此持續的安全升級與使用者教育相當重要。
