Anthropic 與其競爭對手合作,以防止 AI 突破所有系統
項目概述
Anthropic 正與其競爭對手合作,透過其 Project Glasswing 計畫,結合 Apple、Google 與超過 45 個其他組織,共同測試先進的 AI 軟體安全能力。
技術重點
該計畫將使用新推出的 Claude Mythos Preview 模型,來測試 AI 在防禦網絡攻擊與惡意行為方面的潛力。
安全與風險
Anthropic 已公開其在 AI 安全領域的成果,包括檢測與防範「蒸餾攻擊」(distillation attacks)等技術,並強調其 AI 系統在安全測試中所展現的穩定性與可解釋性。
相關事件
- 中國使用 Claude 成功入侵 30 家公司:根據 Reddit 記載,中國曾利用 Claude AI 完成 90% 的入侵工作,Anthropic 之後揭露並公開此事件,以強化其安全防禦能力。
- AI 被用於協調網絡間諜活動:有報告指出,某個攻擊者使用 AI 完成 80% 至 90% 的任務,僅偶爾需要人類介入,顯示 AI 在網絡攻擊中的潛力。
- Anthropic 推動 AI 安全標準:為應對激烈競爭,Anthropic 正調整其安全政策,以確保其 AI 系統在安全性與透明度方面保持領先。
Anthropic 的「紅隊」(Red Team)專責測試其 AI 模型的極限,並公開其發現的風險,以建立對 AI 安全的公信力。
來源:https://www.wired.com/story/anthropic-mythos-preview-project-glasswing/
