Claude Mythos:我太強了,強到不敢讓你們用

Claude Mythos:我太強了,強到不敢讓你們用

模型發佈與安全爭議

Anthropic公司於近日發佈新一代AI模型Claude Mythos Preview,其能力被形容為「聰明到不敢開放」,甚至在安全測試中展現出超越人類工程師的漏洞發現能力。

僅限12家機構使用

該模型目前僅限於12家合作機構使用,未向公眾或普通用戶開放。Anthropic表示,由於其強大的攻擊與漏洞分析能力,存在重大安全風險,因此採取嚴格限制措施。

安全項目Project Glasswing

為應對模型潛在風險,Anthropic推出了Project Glasswing,聯合全球12家機構共同構建數字安全防線,以強化AI安全能力,並推動AI安全能力競賽。

技術能力與侷限

儘管Claude Mythos在代碼漏洞檢測與利用方面表現卓越,專家測試發現其在需要「新穎方法」的任務中仍存在不足,例如無法準確判斷實驗設計的複雜程度,且存在過度傾向。

內部洩露事件

有報道稱,Anthropic因內部權限配置失誤,導致Claude Mythos(代號Capybara)在未發佈前意外洩露,引發外界對模型安全性的廣泛關注。

來源:https://36kr.com/p/3757746947883783

返回頂端