一週兩次事故後，回看Anthropic七位聯創一年前如何談論「安全」

近期安全事件回顧

過去一週，Anthropic 連續發生了兩次嚴重的安全事故：首先是內部近 3000 份文件因 CMS 配置錯誤被公開訪問；緊接著 Claude Code v2.1.88 在 npm 發佈時夾帶了 59.8MB 的 source map，導致 51 萬行源碼直接裸露。

七位聯創回顧

文章回顧了 Anthropic 七位聯合創始人一年多前的一次內部播客對談，包括 CEO Dario Amodei、總裁 Daniela Amodei、物理學教授 Jared Kaplan、可解釋性研究專家 Chris Olah、算力資源負責人 Tom Brown、政策負責人 Jack Clark 以及研究聯創 Sam McCandlish。

安全與規模化的關係

聯創們強調，安全和規模化是纏繞在一起的。他們認為，要讓安全團隊認真對待安全，首先要能預測 AI 趨勢，因此將模型擴大作為讓 RLHF（人類反饋強化學習）得以實施的前提。

RSP：負責任的擴展政策

RSP（Responsible Scaling Policy）被形容為 Anthropic 的「憲法」。它設定了一系列門檻，每當模型達到特定規模時，必須通過嚴格的安全測試。Dario Amodei 指出，RSP 阻止不符合安全標準的計劃繼續推進，將安全融入每一個環節，而非空談口號。

「火警」隱喻

Dario Amodei 引用了公司早期的觀點：「如果有一棟大樓，每週都會響起火警警報，那麼這其實是一棟非常不安全的建築。」他認為頻繁的安全演練反而損害安全，真正的目標是明確「安全」的定義，避免警報誤報或過度反應。

創業動機與價值觀

聯創們表示，他們並非一開始就有創辦公司的意願，而是認為這是確保 AI 發展朝著正確方向的唯一途徑。他們承諾將收入的 80% 捐贈給推動社會發展的事業，並強調團隊內部的高度信任與統一使命。

未來展望

對於未來，聯創們表達了對可解釋性研究（視其為神經網絡中的「人工生物學」）、AI 在生物學應用（如 AlphaFold 的延伸）以及利用 AI 增強民主的興奮。他們希望找到一種方法，既能保持競爭力，又能確保技術的安全性，從而引領行業形成健康的生態。

一週兩次事故後，回看Anthropic七位聯創一年前如何談論「安全」

一週兩次事故後，回看Anthropic七位聯創一年前如何談論「安全」

近期安全事件回顧

七位聯創回顧

安全與規模化的關係

RSP：負責任的擴展政策

「火警」隱喻

創業動機與價值觀

未來展望

訂閱電子報

Company

Categories

聯絡我們

一週兩次事故後，回看Anthropic七位聯創一年前如何談論「安全」

近期安全事件回顧

七位聯創回顧

安全與規模化的關係

RSP：負責任的擴展政策

「火警」隱喻

創業動機與價值觀

未來展望

相關文章

訂閱電子報

Company

Categories

聯絡我們