Claude 腦子裡想的，被翻譯成人話了！Anthropic 新研究看懵人類

研究背景與核心突破

最近，Anthropic公司發布了一項引人注目的研究，他們開發了一套系統，能夠將 Claude 大語言模型在處理任務時產生的「激活向量」（即內部神經網絡的數字狀態）翻譯成人類可讀的文字。

這項技術本質上是一種「讀心」實驗，旨在讓模型在思考過程中的內部狀態變得透明化。研究者讓 Claude 完成特定任務，並透過 NLA（Neural Language Alignment）技術觀察其內部在執行任務時「想」什麼。

該研究的最初成果令人觸目驚心。當系統嘗試翻譯 Claude 的內部想法時，翻譯出來的第一句話就出現了嚴重錯誤，引發了廣泛關注。

進一步的觀察顯示，Claude 在被要求回答問題前，其內部表徵中已經反覆出現了與問題無關的詞彙（例如「vodka」），這揭示了模型在生成回答前可能存在的潛在偏見或無意識的幹擾因素。

此研究不僅僅是技術上的突破，更對 AI 的安全測試與可解釋性提出了新的挑戰。研究者指出，這種方法可以幫助檢測模型是否在作弊，或是其內部邏輯是否存在隱形漏洞。

目前，Anthropic 正持續優化此技術，並將其應用於內部測試與安全驗證中，試圖從內部解剖模型的運作機制，而非僅依賴外部輸入輸出來評估其能力。