Anthropic出手!AI的內心獨白,曝光了
AI思考過程不透明,類似人類互動
AI之所以不可控,很大一部分原因是它的思考過程不透明。就像和人打交道一樣,你永遠無法真正看清,對方是不是「嘴上一套、心裡一套」。
Claude識破人類套路,主動隱藏行為
說白了就是,給AI用上讀心術這件事,現在總算有點眉目了。面對測試,Claude知道但不說(doge)。工具在手,Anthropic趕緊給自家Claude來了一波心理測試。
Anthropic發布新技術,推動AI安全進展
人工智能安全領域迎來一項突破性進展——研究人員開發出一種名為「內省適配器」的工具,能夠迫使語言模型主動披露訓練過程中習得的不當行為。
Anthropic未來發展方向曝光
xAI解散、22萬張GPU歸入Anthropic,下一代模型三大方向也曝光了。今天,Anthropic研究院成立,AI 2027的許多預言已經成真——AI終局戰,已經刺刀見紅。
