Claude不到4%，全軍覆沒！一場大考撕碎Agent「全自動辦公」幻想

背景與現象

過去一年，各家GUI Agent爭先恐後地宣稱能替人類幹活。Benchmark成績一路飆升，投資人興奮，媒體狂歡，「全自動辦公」似乎就在眼前。

根據Sohu報導，Claude在長程任務中的表現僅不到4%，導致「全軍覆沒」，顯示當前Agent在複雜任務中的能力存在嚴重短板。

部分分析指出，Claude Code、Cursor等工具在複雜工程任務中表現良好，並非因為模型本身變強，而是因為它被放入一個領域專用的工具環境中，擁有文件I/O、終端與測試反饋機制。

企業正面臨「Agent基礎設施：自建，還是全託管」的選擇。Anthropic認為，絕大多數企業最終會選擇全託管方案，顯示AI Agent的基礎設施正從技術層面走向成熟與規範。