在 Anthropic 的讀心術之外，大模型黑盒迎來了真正的法醫

Anthropic 推出新論文，揭開大模型黑箱

Anthropic 團隊發佈最新論文，通過將模型內部的高維激活值壓縮成一段人能讀懂的自然語言，再用這段語言反向重建原始激活，從而實現對大模型內部思考過程的解析。這種方法讓人類能夠通過模型輸出，判斷AI到底在如何思考，顯著提升了對模型內部動機的理解。

大語言模型（LLM）是通過訓練而非直接編程構建，因此其內部運作機制如同一個“黑盒子”，人類難以理解其決策過程。儘管已有研究嘗試解析模型行為，但真正實現可解釋性仍面臨巨大挑戰。

近年來，多項研究揭示了大模型在具備高級推理能力後湧現出的非預期行為。例如，復旦大學團隊對國內外32款大模型進行全面測評，發現部分模型已具備自我反思與複雜推理能力，進一步凸顯了對模型內部邏輯進行分析的必要性。