3句hello就限額,你的Claude Code額度去哪了?一個橫跨28天的緩存Bug,和一份讓你「省著點用」的官方回應
緩存機制失效導致額度異常消耗
據獨立開發者ArkNill的實測數據顯示,Claude Code在v2.1.69至v2.1.89期間存在兩個客戶端緩存bug,導致API服務器無法匹配已緩存的對話前綴,每次會話都需重新進行完整的token重建,造成prompt cache讀取率僅為4-17%,遠低於正常水平的97-99%。
這種機制缺陷意味著,用戶每次恢復會話時,系統並非複用歷史上下文,而是從頭開始處理全部內容,導致額度消耗是正常情況的10到20倍。例如,一條簡單的「hello」就可能消耗13%的會話配額,Max 20x訂閱用戶在19分鐘內耗盡5小時滾動窗口額度,Pro用戶則反映每週一就用完,週六才重置。
時間線與用戶反饋
該bug自3月4日v2.1.69版本發佈後持續存在,直到4月1日v2.1.90版本修復。期間橫跨28天,共經歷20個版本更新。用戶投訴在3月23日集中爆發,此前因Anthropic在3月13日至28日提供2倍額度促銷,客觀上掩蓋了問題的實際影響。
在促銷結束後,緩存bug導致的額度消耗迴歸正常計費基線,用戶額度瞬間「蒸發」,引發大規模不滿。
官方回應與使用建議
Anthropic在3月26日宣佈高峰時段(工作日5am-11am PT)限額收緊,3月30日承認用戶觸達限額速度遠超預期,並將問題列為最高優先級。4月1日,團隊成員Lydia Hallie發佈正式調查結論,確認高峰時段限額收緊及100萬token上下文會話消耗增大。
她提出四條省量建議:
- 使用Sonnet 4.6而非Opus(Opus消耗速度約為兩倍);
- 無需深度推理時降低推理強度或關閉extended thinking;
- 閒置超過一小時的長會話不要恢復,重新開一個;
- 設置環境變量CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000限制上下文窗口大小。
官方回應未提及任何形式的限額重置或補償,亦未發佈博客文章或郵件通知,所有溝通僅通過工程師個人社交媒體及少數Reddit評論完成。
與OpenAI做法對比
Anthropic將「最強模型 + 最大上下文 + 最高推理能力」作為賣點,卻在問題發生後建議用戶降級模型、關閉功能,被AI播客主持人Alex Volkov評價為「你拿的方式不對」。
值得注意的是,v2.1.90版本修復了自v2.1.69起存在的緩存迴歸bug,但Lydia的回應中未提及此已確認的計費異常,與「沒有多收費」的說法存在張力。
相較之下,OpenAI在Codex出現類似問題時,採取重置配額、補發credits並移除使用上限的做法,而Anthropic僅建議用戶「省著點用」。
