Claude 降智實錘了,還變相漲價,Opus 跌下神壇

Claude 降智實錘了,還變相漲價,Opus 跌下神壇

第三方測試數據顯示能力斷崖式下滑

根據第三方測試機構 BridgeBench 的數據顯示,Claude Opus 4.6 的準確率從 83.3% 大幅掉至 68.3%,導致其在 AI 模型排名中從第二位滑落至第十位。調查範圍涵蓋了 6852 份會話文件、17871 個思考塊以及超過 23 萬次工具調用,分析結果指出該模型在處理複雜任務時表現明顯退化。

用戶反饋:推理深度暴跌與幻覺率上升

重度用戶普遍反映產品體驗變差,儘管沒有系統性故障,但輸出內容變得更加淺顯,過於急於給出修改結果。數據分析顯示,Claude 的思考深度暴跌 67%,同時幻覺率顯著上升,任務執行中斷次數增多,且 Token 消耗量激增,引發開發者與用戶的強烈不滿。

官方承認控成本導致性能調整

Anthropic 官方最終公開承認,為控制成本,系統默認將推理能力降至較低水平。此舉被視為變相漲價,因為用戶需支付更高費用卻獲得較低品質的推理服務。多個 Bug 的疊加效應進一步加劇了這一問題,導致 Opus 4.6 連續一個月出現降智翻車現象。

返回頂端