Claude Mythos：我太強了，強到不敢讓你們用

模型發佈與安全爭議

Anthropic公司於近日發佈新一代AI模型Claude Mythos Preview，其能力被形容為「聰明到不敢開放」，甚至在安全測試中展現出超越人類工程師的漏洞發現能力。

該模型目前僅限於12家合作機構使用，未向公眾或普通用戶開放。Anthropic表示，由於其強大的攻擊與漏洞分析能力，存在重大安全風險，因此採取嚴格限制措施。

為應對模型潛在風險，Anthropic推出了Project Glasswing，聯合全球12家機構共同構建數字安全防線，以強化AI安全能力，並推動AI安全能力競賽。

儘管Claude Mythos在代碼漏洞檢測與利用方面表現卓越，專家測試發現其在需要「新穎方法」的任務中仍存在不足，例如無法準確判斷實驗設計的複雜程度，且存在過度傾向。

有報道稱，Anthropic因內部權限配置失誤，導致Claude Mythos（代號Capybara）在未發佈前意外洩露，引發外界對模型安全性的廣泛關注。