Claude Opus 4.7 實測:配得上是最強模型嗎?
發布背景與官方態度
2026 年 4 月 16 日,Anthropic 正式發布 Claude Opus 4.7。與市場普遍預期及媒體報導不同,Anthropic 在官方公告中明確指出,Opus 4.7 的能力不如僅對少數合作伙伴開放的「Mythos Preview」,且在某些關鍵能力上甚至弱於上一代 Opus 4.6。這標誌著 Anthropic 從追求「最強模型」轉向更具商業化與精準度的發布策略。
核心能力升級:編程與視覺
編程能力顯著提升:Opus 4.7 在編程領域表現突出。在 SWE-bench Verified 測試中得分 87.6%,SWE-bench Pro 達到 64.3%,CursorBench 達到 70%。多家合作伙伴(如 Rakuten、Factory、CodeRabbit)的實測數據顯示,其在解決複雜工程問題、跨文件推理及長週期任務上的成功率大幅提升。
視覺能力重建:視覺處理能力實現了重建級別的躍遷。XBOW 基準從 54.5% 飆升至 98.5%,最大圖像分辨率提升至約 375 萬像素(長邊 2,576 像素),並實現模型坐標與實際像素的 1:1 對應。這使得「Computer Use」功能首次具備可靠部署的門檻,大幅降低了誤點率。
明顯退步:長上下文與搜索
長上下文能力暴跌:最引人注目的退步在於長上下文處理。MRCR v2 @1M 基準從 Opus 4.6 的 78.3% 跌至 32.2%,跌幅達 46 個百分點。這主要歸因於新 Tokenizer 的引入,導致相同輸入文本產生的 Token 數量增加 1.0-1.35 倍,使得實際可用的上下文窗口縮小,且長任務 Agent 的 Token 消耗增加約 35%。
搜索能力下滑:在 BrowseComp(網絡深度信息檢索)測試中,得分從 83.7% 降至 79.3%,被 GPT-5.4 Pro(89.3%)和 Gemini 3.1 Pro(85.9%)反超。這意味著在需要跨複雜代碼庫或多文件推理的場景下,Opus 4.7 的表現不如前代。
新的行為特徵與控制機制
自我驗證與字面化指令:Opus 4.7 在輸出結果前會主動驗證自身,這使其在數據缺失時能誠實報告而非編造答案。然而,這也伴隨了對指令更「字面化」的解讀,可能不再像 4.6 那樣理解言外之意,用戶需重新測試 Prompt。
推理控制與成本:為回應過往「降智門」爭議,Opus 4.7 引入了顯式的推理強度控制(新增 xhigh 檔位,默認改為 xhigh)及 Task Budgets(Token 預算控制)。此外,Claude Code 新增 /ultrareview 命令,Max 用戶亦可使用 auto 模式。儘管 API 定價(輸入$5/百萬 Token,輸出$25/百萬 Token)未變,但 Tokenizer 變更與更高默認 effort 導致實際使用成本可能上升 2-3 倍。
安全策略與商業化方向
Opus 4.7 被視為 Project Glasswing 的測試樣本,用於驗證針對網絡安全攻擊能力的自動檢測與攔截護欄,為未來 Mythos 模型的有限開放鋪路。Anthropic 正試圖通過 Opus 4.7 修復信任損傷,並利用其在編程與視覺上的優勢,建立類似蘋果等成熟產品的用戶粘性與商業生態。
