圖解Claude越用越笨：省錢的代價，是API賬單漲了100倍

思考深度，跌了四分之三

據Stella Laurenzo的GitHub Issue數據，Claude Code的平均思考深度在兩個月內經歷了三段式崩塌：1月底優質期的2,200個字元，到2月底跌至720個字元，跌幅67%。3月進一步縮小至560個字元，較峰值跌去75%。

思考深度在此是一個代理指標，反映模型在給出答案前願意投入多少「內部推演」。2,200個字元和560個字元的差距，大致等同於從「寫完草稿再作答」退化為「腦裡想兩秒就開口」。

從「研究型程式員」到「盲改型程式員」

Stella Laurenzo的報告裡有一個細節比思考深度更直白：改程式前，模型會主動讀多少個相關文件。

據GitHub Issue數據，優質期的平均讀改比是6.6，改動一處程式碼前，模型平均會先讀6.6個文件，瞭解上下文。退化期這個數字跌到2.0，降幅70%。更嚴重的是，約三分之一的程式碼修改發生在模型未讀取目標文件的情況下，直接下手。

Laurenzo稱之為「盲改」（blind edits）。工程上，這相當於一個程式員在不看函數簽名、不知道變數類型的情況下就開始寫程式。「我團隊的每一位高級工程師都有類似的親身遭遇。」她在報告中寫道，「Claude現在不能被信賴去執行複雜的工程任務。」

讀改比從6.6到2.0，表面是一個行為指標的變化，底層是任務成功率的塌陷。現代程式庫的複雜度決定了，任何修改都牽涉多個文件之間的依賴關係。跳過上下文探索直接修改，產生的錯誤不是「答錯了」，而是「看起來對，但會在下游觸發新的錯誤。這類錯誤的排查成本，遠高於一次失敗的明確回答。

「省錢」這件事，算反了

這是整個事件裡最反直覺的一組數字，來自同一份GitHub Issue數據：Stella Laurenzo團隊的Claude Code API月度調用成本，從2026年2月的345美元，到3月飆升至42,121美元，漲幅122倍。

Anthropic調低effort的邏輯是減少單次調用的token消耗，從而降低成本。但結果相反。原因在於模型退化後出現了大量「推理循環」（Reasoning Loops），在單次回覆中反覆自我否定，不斷重來，用掉的token遠超節省的量。據Stella Laurenzo的數據，同期用戶主動中斷任務的比率飆升了12倍，開發者需要不停介入、糾錯、重新提交。

背後的邏輯是一個系統性錯誤。在複雜任務上砍算力，並不會簡單地等比降低成本。一旦低於某個思考閾值，模型開始走彎路，總成本反而放大。調低effort在簡單查詢上省了錢，在程式工程任務上，它把賬單炸了。

「降智」這件事，GPT-4三年前演過一遍

2023年7月，斯坦福大學與加州大學伯克利分校的研究團隊在arXiv發表論文《How is ChatGPT’s behavior changing over time?》，記錄了同一件事在GPT-4上的發生過程。

據該研究數據，2023年3月的GPT-4，生成的程式碼中超過50%可以直接運行。到6月，這個比例跌至10%，跌幅約80%，時間跨度三個月。同期，素數識別準確率從97.6%跌至2.4%。OpenAI的回應和Anthropic高度相似：後臺有過優化調整，屬於正常迭代。

兩個故事的結構幾乎一致，一家AI公司後臺悄悄調整了影響模型能力的參數，用戶察覺到了，公司承認有過調整，但把原因解釋為「更合理的資源分配」。GPT-4的退化發生在2023年，Claude的退化發生在2026年，兩者相隔三年，劇本一樣。

這不是某家公司的特殊失誤。AI訂閱模式的經濟邏輯決定了，當推理成本高於定價可以覆蓋的範圍時，廠商面臨的壓力是一樣的。調低預設思考強度，是目前成本和性能之間最容易撥動的那根旋鈕。用戶感知到的是模型「變笨了」。廠商賬面上節省的，是每次調用的邊際token成本。

Boris Cherny給出了技術性解法，用戶可以透過/effort high指令或修改配置檔，手動把思考強度恢復至最高級別。這個解法在技術上可行，但它同時意味著，「最高性能」已經不再是預設設定。

345美元到42,121美元，花掉的不只是預算，還有一個假設：廠商做的預設配置變更，是為了讓用戶的使用效果更好。

來源：https://m.theblockbeats.info/news/61920

圖解Claude越用越笨：省錢的代價，是API賬單漲了100倍

圖解Claude越用越笨：省錢的代價，是API賬單漲了100倍

思考深度，跌了四分之三

從「研究型程式員」到「盲改型程式員」

「省錢」這件事，算反了

「降智」這件事，GPT-4三年前演過一遍

訂閱電子報

Company

Categories

聯絡我們

圖解Claude越用越笨：省錢的代價，是API賬單漲了100倍

思考深度，跌了四分之三

從「研究型程式員」到「盲改型程式員」

「省錢」這件事，算反了

「降智」這件事，GPT-4三年前演過一遍

相關文章

訂閱電子報

Company

Categories

聯絡我們