圖解Claude越用越笨:省錢的代價,是API賬單漲了100倍

圖解Claude越用越笨:省錢的代價,是API賬單漲了100倍

思考深度,跌了四分之三

據Stella Laurenzo的GitHub Issue數據,Claude Code的平均思考深度在兩個月內經歷了三段式崩塌:1月底優質期的2,200個字元,到2月底跌至720個字元,跌幅67%。3月進一步縮小至560個字元,較峰值跌去75%。

思考深度在此是一個代理指標,反映模型在給出答案前願意投入多少「內部推演」。2,200個字元和560個字元的差距,大致等同於從「寫完草稿再作答」退化為「腦裡想兩秒就開口」。

從「研究型程式員」到「盲改型程式員」

Stella Laurenzo的報告裡有一個細節比思考深度更直白:改程式前,模型會主動讀多少個相關文件。

據GitHub Issue數據,優質期的平均讀改比是6.6,改動一處程式碼前,模型平均會先讀6.6個文件,瞭解上下文。退化期這個數字跌到2.0,降幅70%。更嚴重的是,約三分之一的程式碼修改發生在模型未讀取目標文件的情況下,直接下手。

Laurenzo稱之為「盲改」(blind edits)。工程上,這相當於一個程式員在不看函數簽名、不知道變數類型的情況下就開始寫程式。「我團隊的每一位高級工程師都有類似的親身遭遇。」她在報告中寫道,「Claude現在不能被信賴去執行複雜的工程任務。」

讀改比從6.6到2.0,表面是一個行為指標的變化,底層是任務成功率的塌陷。現代程式庫的複雜度決定了,任何修改都牽涉多個文件之間的依賴關係。跳過上下文探索直接修改,產生的錯誤不是「答錯了」,而是「看起來對,但會在下游觸發新的錯誤。這類錯誤的排查成本,遠高於一次失敗的明確回答。

「省錢」這件事,算反了

這是整個事件裡最反直覺的一組數字,來自同一份GitHub Issue數據:Stella Laurenzo團隊的Claude Code API月度調用成本,從2026年2月的345美元,到3月飆升至42,121美元,漲幅122倍。

Anthropic調低effort的邏輯是減少單次調用的token消耗,從而降低成本。但結果相反。原因在於模型退化後出現了大量「推理循環」(Reasoning Loops),在單次回覆中反覆自我否定,不斷重來,用掉的token遠超節省的量。據Stella Laurenzo的數據,同期用戶主動中斷任務的比率飆升了12倍,開發者需要不停介入、糾錯、重新提交。

背後的邏輯是一個系統性錯誤。在複雜任務上砍算力,並不會簡單地等比降低成本。一旦低於某個思考閾值,模型開始走彎路,總成本反而放大。調低effort在簡單查詢上省了錢,在程式工程任務上,它把賬單炸了。

「降智」這件事,GPT-4三年前演過一遍

2023年7月,斯坦福大學與加州大學伯克利分校的研究團隊在arXiv發表論文《How is ChatGPT’s behavior changing over time?》,記錄了同一件事在GPT-4上的發生過程。

據該研究數據,2023年3月的GPT-4,生成的程式碼中超過50%可以直接運行。到6月,這個比例跌至10%,跌幅約80%,時間跨度三個月。同期,素數識別準確率從97.6%跌至2.4%。OpenAI的回應和Anthropic高度相似:後臺有過優化調整,屬於正常迭代。

兩個故事的結構幾乎一致,一家AI公司後臺悄悄調整了影響模型能力的參數,用戶察覺到了,公司承認有過調整,但把原因解釋為「更合理的資源分配」。GPT-4的退化發生在2023年,Claude的退化發生在2026年,兩者相隔三年,劇本一樣。

這不是某家公司的特殊失誤。AI訂閱模式的經濟邏輯決定了,當推理成本高於定價可以覆蓋的範圍時,廠商面臨的壓力是一樣的。調低預設思考強度,是目前成本和性能之間最容易撥動的那根旋鈕。用戶感知到的是模型「變笨了」。廠商賬面上節省的,是每次調用的邊際token成本。

Boris Cherny給出了技術性解法,用戶可以透過/effort high指令或修改配置檔,手動把思考強度恢復至最高級別。這個解法在技術上可行,但它同時意味著,「最高性能」已經不再是預設設定。

345美元到42,121美元,花掉的不只是預算,還有一個假設:廠商做的預設配置變更,是為了讓用戶的使用效果更好。

來源:https://m.theblockbeats.info/news/61920

返回頂端