Claude不到4%,全軍覆沒!一場大考撕碎Agent「全自動辦公」幻想
背景與現象
過去一年,各家GUI Agent爭先恐後地宣稱能替人類幹活。Benchmark成績一路飆升,投資人興奮,媒體狂歡,「全自動辦公」似乎就在眼前。
實測結果與問題
根據Sohu報導,Claude在長程任務中的表現僅不到4%,導致「全軍覆沒」,顯示當前Agent在複雜任務中的能力存在嚴重短板。
技術與環境分析
部分分析指出,Claude Code、Cursor等工具在複雜工程任務中表現良好,並非因為模型本身變強,而是因為它被放入一個領域專用的工具環境中,擁有文件I/O、終端與測試反饋機制。
產業與未來趨勢
企業正面臨「Agent基礎設施:自建,還是全託管」的選擇。Anthropic認為,絕大多數企業最終會選擇全託管方案,顯示AI Agent的基礎設施正從技術層面走向成熟與規範。
來源:https://www.sohu.com/a/1027234975_473283?scm=10001.325_13-325_13.0.0-0-0-0-0.5_1334
