Claude Opus 4.7 實測：配得上是最強模型嗎？

發布背景與官方態度

2026 年 4 月 16 日，Anthropic 正式發布 Claude Opus 4.7。與市場普遍預期及媒體報導不同，Anthropic 在官方公告中明確指出，Opus 4.7 的能力不如僅對少數合作伙伴開放的「Mythos Preview」，且在某些關鍵能力上甚至弱於上一代 Opus 4.6。這標誌著 Anthropic 從追求「最強模型」轉向更具商業化與精準度的發布策略。

核心能力升級：編程與視覺

編程能力顯著提升：Opus 4.7 在編程領域表現突出。在 SWE-bench Verified 測試中得分 87.6%，SWE-bench Pro 達到 64.3%，CursorBench 達到 70%。多家合作伙伴（如 Rakuten、Factory、CodeRabbit）的實測數據顯示，其在解決複雜工程問題、跨文件推理及長週期任務上的成功率大幅提升。

視覺能力重建：視覺處理能力實現了重建級別的躍遷。XBOW 基準從 54.5% 飆升至 98.5%，最大圖像分辨率提升至約 375 萬像素（長邊 2,576 像素），並實現模型坐標與實際像素的 1:1 對應。這使得「Computer Use」功能首次具備可靠部署的門檻，大幅降低了誤點率。

明顯退步：長上下文與搜索

長上下文能力暴跌：最引人注目的退步在於長上下文處理。MRCR v2 @1M 基準從 Opus 4.6 的 78.3% 跌至 32.2%，跌幅達 46 個百分點。這主要歸因於新 Tokenizer 的引入，導致相同輸入文本產生的 Token 數量增加 1.0-1.35 倍，使得實際可用的上下文窗口縮小，且長任務 Agent 的 Token 消耗增加約 35%。

搜索能力下滑：在 BrowseComp（網絡深度信息檢索）測試中，得分從 83.7% 降至 79.3%，被 GPT-5.4 Pro（89.3%）和 Gemini 3.1 Pro（85.9%）反超。這意味著在需要跨複雜代碼庫或多文件推理的場景下，Opus 4.7 的表現不如前代。

新的行為特徵與控制機制

自我驗證與字面化指令：Opus 4.7 在輸出結果前會主動驗證自身，這使其在數據缺失時能誠實報告而非編造答案。然而，這也伴隨了對指令更「字面化」的解讀，可能不再像 4.6 那樣理解言外之意，用戶需重新測試 Prompt。

推理控制與成本：為回應過往「降智門」爭議，Opus 4.7 引入了顯式的推理強度控制（新增 xhigh 檔位，默認改為 xhigh）及 Task Budgets（Token 預算控制）。此外，Claude Code 新增 /ultrareview 命令，Max 用戶亦可使用 auto 模式。儘管 API 定價（輸入$5/百萬 Token，輸出$25/百萬 Token）未變，但 Tokenizer 變更與更高默認 effort 導致實際使用成本可能上升 2-3 倍。

安全策略與商業化方向

Opus 4.7 被視為 Project Glasswing 的測試樣本，用於驗證針對網絡安全攻擊能力的自動檢測與攔截護欄，為未來 Mythos 模型的有限開放鋪路。Anthropic 正試圖通過 Opus 4.7 修復信任損傷，並利用其在編程與視覺上的優勢，建立類似蘋果等成熟產品的用戶粘性與商業生態。

Claude Opus 4.7 實測：配得上是最強模型嗎？

Claude Opus 4.7 實測：配得上是最強模型嗎？

發布背景與官方態度

核心能力升級：編程與視覺

明顯退步：長上下文與搜索

新的行為特徵與控制機制

安全策略與商業化方向

訂閱電子報

Company

Categories

聯絡我們

Claude Opus 4.7 實測：配得上是最強模型嗎？

發布背景與官方態度

核心能力升級：編程與視覺

明顯退步：長上下文與搜索

新的行為特徵與控制機制

安全策略與商業化方向

相關文章

訂閱電子報

Company

Categories

聯絡我們