一週兩次事故後,回看Anthropic七位聯創一年前如何談論「安全」

一週兩次事故後,回看Anthropic七位聯創一年前如何談論「安全」

近期安全事件回顧

過去一週,Anthropic 連續發生了兩次嚴重的安全事故:首先是內部近 3000 份文件因 CMS 配置錯誤被公開訪問;緊接著 Claude Code v2.1.88 在 npm 發佈時夾帶了 59.8MB 的 source map,導致 51 萬行源碼直接裸露。

七位聯創回顧

文章回顧了 Anthropic 七位聯合創始人一年多前的一次內部播客對談,包括 CEO Dario Amodei、總裁 Daniela Amodei、物理學教授 Jared Kaplan、可解釋性研究專家 Chris Olah、算力資源負責人 Tom Brown、政策負責人 Jack Clark 以及研究聯創 Sam McCandlish。

安全與規模化的關係

聯創們強調,安全和規模化是纏繞在一起的。他們認為,要讓安全團隊認真對待安全,首先要能預測 AI 趨勢,因此將模型擴大作為讓 RLHF(人類反饋強化學習)得以實施的前提。

RSP:負責任的擴展政策

RSP(Responsible Scaling Policy)被形容為 Anthropic 的「憲法」。它設定了一系列門檻,每當模型達到特定規模時,必須通過嚴格的安全測試。Dario Amodei 指出,RSP 阻止不符合安全標準的計劃繼續推進,將安全融入每一個環節,而非空談口號。

「火警」隱喻

Dario Amodei 引用了公司早期的觀點:「如果有一棟大樓,每週都會響起火警警報,那麼這其實是一棟非常不安全的建築。」他認為頻繁的安全演練反而損害安全,真正的目標是明確「安全」的定義,避免警報誤報或過度反應。

創業動機與價值觀

聯創們表示,他們並非一開始就有創辦公司的意願,而是認為這是確保 AI 發展朝著正確方向的唯一途徑。他們承諾將收入的 80% 捐贈給推動社會發展的事業,並強調團隊內部的高度信任與統一使命。

未來展望

對於未來,聯創們表達了對可解釋性研究(視其為神經網絡中的「人工生物學」)、AI 在生物學應用(如 AlphaFold 的延伸)以及利用 AI 增強民主的興奮。他們希望找到一種方法,既能保持競爭力,又能確保技術的安全性,從而引領行業形成健康的生態。

返回頂端