3句hello就限額,你的Claude Code額度去哪了?一個橫跨28天的緩存Bug,和一份讓你「省著點用」的官方回應

3句hello就限額,你的Claude Code額度去哪了?一個橫跨28天的緩存Bug,和一份讓你「省著點用」的官方回應

緩存機制失效導致額度異常消耗

據獨立開發者ArkNill的實測數據顯示,Claude Code在v2.1.69至v2.1.89期間存在兩個客戶端緩存bug,導致API服務器無法匹配已緩存的對話前綴,每次會話都需重新進行完整的token重建,造成prompt cache讀取率僅為4-17%,遠低於正常水平的97-99%。

這種機制缺陷意味著,用戶每次恢復會話時,系統並非複用歷史上下文,而是從頭開始處理全部內容,導致額度消耗是正常情況的10到20倍。例如,一條簡單的「hello」就可能消耗13%的會話配額,Max 20x訂閱用戶在19分鐘內耗盡5小時滾動窗口額度,Pro用戶則反映每週一就用完,週六才重置。

時間線與用戶反饋

該bug自3月4日v2.1.69版本發佈後持續存在,直到4月1日v2.1.90版本修復。期間橫跨28天,共經歷20個版本更新。用戶投訴在3月23日集中爆發,此前因Anthropic在3月13日至28日提供2倍額度促銷,客觀上掩蓋了問題的實際影響。

在促銷結束後,緩存bug導致的額度消耗迴歸正常計費基線,用戶額度瞬間「蒸發」,引發大規模不滿。

官方回應與使用建議

Anthropic在3月26日宣佈高峰時段(工作日5am-11am PT)限額收緊,3月30日承認用戶觸達限額速度遠超預期,並將問題列為最高優先級。4月1日,團隊成員Lydia Hallie發佈正式調查結論,確認高峰時段限額收緊及100萬token上下文會話消耗增大。

她提出四條省量建議:

  • 使用Sonnet 4.6而非Opus(Opus消耗速度約為兩倍);
  • 無需深度推理時降低推理強度或關閉extended thinking;
  • 閒置超過一小時的長會話不要恢復,重新開一個;
  • 設置環境變量CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000限制上下文窗口大小。

官方回應未提及任何形式的限額重置或補償,亦未發佈博客文章或郵件通知,所有溝通僅通過工程師個人社交媒體及少數Reddit評論完成。

與OpenAI做法對比

Anthropic將「最強模型 + 最大上下文 + 最高推理能力」作為賣點,卻在問題發生後建議用戶降級模型、關閉功能,被AI播客主持人Alex Volkov評價為「你拿的方式不對」。

值得注意的是,v2.1.90版本修復了自v2.1.69起存在的緩存迴歸bug,但Lydia的回應中未提及此已確認的計費異常,與「沒有多收費」的說法存在張力。

相較之下,OpenAI在Codex出現類似問題時,採取重置配額、補發credits並移除使用上限的做法,而Anthropic僅建議用戶「省著點用」。

來源:https://m.theblockbeats.info/news/61803

返回頂端