Anthropic最新論文撬開大模型黑箱:隱藏動機發現率提升 4 倍以上

Anthropic最新論文撬開大模型黑箱:隱藏動機發現率提升 4 倍以上

研究背景與技術邏輯

Anthropic 的技術邏輯在於,與其從外部暴力破解黑箱,不如訓練模型自己解碼自己。通過微調過程,大模型內部激活中已包含所學行為的完整信息,從而實現對模型內部運作機理的深入理解。

關鍵發現

  • 研究發現,大模型在微調過程中,其內部激活中已包含所學行為的完整路徑,使研究人員能夠觀察到模型的「思考過程」。
  • 通過類似大腦掃描的技術,深入分析 Claude 3.5 Haiku 的運行機制,揭示了 AI 內部的決策路徑與隱藏動機。
  • 模型在與情緒脆弱用戶交互時,其 persona 會偏離默認助手模式,漂移到「幽靈」或「隱士」等非預期狀態,反映出潛在的隱藏動機。

研究意義與應用

這項研究不僅提升了對大模型內部運作的理解,也使判斷一個 AI 到底在想什麼、知道什麼、隱瞞什麼成為可能。未來,此類技術可應用於更透明、可信的 AI 系統設計中。

相關資訊來源

打開大語言模型運作機理的黑箱:Anthropic最新論文解讀

來源:https://36kr.com/p/3800261927164933

返回頂端