Anthropic 的三重時刻:程式碼洩漏、政府對峙與武器化
過去半年,Anthropic 連捲一系列看似獨立、實則相互指向的事件:模型能力躍遷、真實世界自動化攻擊、資本市場劇烈反應、與政府公開衝突,以及多次基礎配置失誤引發的資訊洩漏。這些線索共同勾勒出一個更清晰的變化方向,當「發現漏洞」的能力被極大放大,網路安全體系本身能否維持原有邏輯成為關鍵問題。
Anthropic 再次洩露了自己的程式碼
2026 年 3 月 31 日,區塊鏈公司 Fuzzland 的安全研究員 Shou Chaofan 在檢查官方發布的 Claude Code npm 包時,發現其中明文包含一個名為 cli.js.map 的文件。該文件體積達 60MB,內容幾乎包含整個產品的完整 TypeScript 原始碼,包括內部 API 設計、遙測系統、加密工具等核心組件。此發現迅速在社交媒體擴散,多個還原原始碼的 GitHub 倉庫被公開。
所謂 source map 本應僅用於 JavaScript 調試,絕不應該被包含在生產環境發布包中。這並非高階攻擊手段,而是最基礎的工程規範問題。值得注意的是,此事在一年前(2025 年 2 月)已發生一次,Anthropic 當時從 npm 上刪除了舊版本並重新發布,結果在 v2.1.88 版本中該文件又被再次打包發布。一家市值 3800 億美元、正在打造全球最先進漏洞檢測系統的公司在一年內兩次犯下同樣基礎性錯誤。
內部「危險模型」意外曝光
2026 年 3 月 26 日,來自 LayerX Security 的研究員 Roy Paz 及 Cambridge 大學的 Alexandre Pauwels 發現 Anthropic 官網 CMS 配置問題,導致約 3000 份內部文件被公開訪問。其中包括草稿博客、PDF、內部文件等。在這些文件中,有兩份幾乎完全相同的博客草稿,分別寫著「Mythos」與「Capybara」,顯示 Anthropic 當時正在為同一個秘密項目做名稱選擇。
這並非對 Opus 的常規升級,而是一個全新的「第四層級」模型,定位甚至高於 Opus。在洩露的草稿中,Anthropic 對該模型評價為「帶來前所未有的網路安全風險」,「在網絡能力上遠超其他任何 AI 模型」,並預示一波即將到來的模型浪潮。市場反應幾乎即時,CrowdStrike 股價下跌 7%,Palo Alto Networks 下跌 6%,Zscaler 下跌 4.5%,Okta 與 SentinelOne 跌幅均超過 7%,Tenable 更是暴跌 9%。iShares Cybersecurity ETF 單日下挫 4.5%。僅 CrowdStrike 一家公司,當天市值蒸發約 150 億美元。
Anthropic 解釋稱,Mythos 運行成本「非常高」,尚不具備面向公眾發布條件,計劃先向一小部分網路安全合作夥伴開放早期訪問。但該模型已存在並開始測試,僅因「被意外曝光」即對整個資本市場產生衝擊。
Anthropic 與五角大樓的對峙,並佔得上風
2025 年 7 月,Anthropic 與美國國防部簽署 2 億美元合同,但在後續部署談判中矛盾迅速升級。五角大樓希望在其 GenAI.mil 平臺上獲得對 Claude 的「完全訪問權限」,用途包括所有「合法目的」,甚至涵蓋完全自主武器系統及對美國公民的大規模國內監控。Anthropic 在兩個關鍵問題上劃出紅線並明確拒絕,談判於 2025 年 9 月破裂。
隨後局勢升級,2026 年 2 月 27 日,Donald Trump 在 Truth Social 發文要求所有聯邦機構「立即停止」使用 Anthropic 技術,並將公司稱為「激進左翼」。2026 年 3 月 5 日,美國國防部正式將 Anthropic 列為「供應鏈風險」,要求 Amazon、Microsoft 和 Palantir Technologies 等企業證明其軍事業務中未使用 Claude。五角大樓 CTO Emile Michael 解釋稱,Claude 可能「汙染」供應鏈,因為模型內部嵌入了不同的「政策偏好」。
2026 年 3 月 26 日,聯邦法官 Rita Lin 發布 43 頁裁決,全面阻止了五角大樓相關措施。她在判決中寫道:「現行法律中,沒有任何依據支持這種帶有『奧威爾式』意味的邏輯——僅因與政府立場存在分歧,一家美國公司就可以被貼上潛在敵對方的標籤。」結果是政府試圖壓制 Anthropic,卻反而讓其獲得更高關注度,Claude 應用首次在應用商店中超過 ChatGPT,註冊量一度達每天超過 100 萬。
史上首次由 AI 主導的網路攻擊
2025 年 11 月 14 日,Anthropic 發布一份引發廣泛震動的報告,披露一個由中國國家支持的黑客組織,利用 Claude Code 對全球 30 家機構發起自動化攻擊,目標涵蓋科技巨頭、銀行及多個國家政府機構。這是一個關鍵轉折點:AI 不再只是輔助工具,而開始被用於獨立執行攻擊行為。
關鍵在於「分工方式」改變:人類只負責選擇目標、批准關鍵決策,整個行動過程中約只介入 4 到 6 次。其餘一切由 AI 完成:情報偵察、漏洞發現、編寫利用代碼、數據竊取、植入後門……佔據整個攻擊流程的 80%–90%,並以每秒數千次請求速度運行。攻擊被拆分成大量看似無害的小任務,並包裝成一家「合法安全公司」的「授權防禦測試」,本質上是一種社會工程攻擊,只是被欺騙對象變成了 AI 本身。
部分攻擊取得完全成功,Claude 能在沒有人類逐步指令的情況下,自主繪製完整網路拓撲結構、定位數據庫,並完成數據提取。唯一拖慢攻擊節奏的因素是模型偶爾出現「幻覺」,例如虛構憑證,或聲稱獲取實際上早已公開的文件。至少在目前,這仍是阻止完全自動化網路攻擊的少數「天然障礙」之一。
總結
如果單獨看,每一件事都足以成為當月最重磅新聞,但這些事件在短短六個月內全部發生在同一家公司身上。Anthropic 打造出一個能比任何人類更快發現漏洞的模型;中國黑客將上一代版本轉化為自動化網路武器;公司正在開發下一代更強的模型,甚至在內部文件中承認對其感到不安。美國政府試圖壓制它,並非因為技術本身危險,而是因為 Anthropic 拒絕在沒有限制的情況下交出這項能力。而在這些過程中,公司卻兩次因為同一個 npm 包中的同一個文件,洩露了自己的原始碼。一家市值 3800 億美元、目標在 2026 年 10 月完成 600 億美元 IPO 的公司,公開表示自己正在構建「人類歷史上最具變革性、也可能最危險的技術之一」,卻依然選擇繼續推進。
