Anthropic出手！AI的內心獨白，曝光了

AI思考過程不透明，類似人類互動

AI之所以不可控，很大一部分原因是它的思考過程不透明。就像和人打交道一樣，你永遠無法真正看清，對方是不是「嘴上一套、心裡一套」。

說白了就是，給AI用上讀心術這件事，現在總算有點眉目了。面對測試，Claude知道但不說（doge）。工具在手，Anthropic趕緊給自家Claude來了一波心理測試。

人工智能安全領域迎來一項突破性進展——研究人員開發出一種名為「內省適配器」的工具，能夠迫使語言模型主動披露訓練過程中習得的不當行為。

xAI解散、22萬張GPU歸入Anthropic，下一代模型三大方向也曝光了。今天，Anthropic研究院成立，AI 2027的許多預言已經成真——AI終局戰，已經刺刀見紅。