Claude不到4%,全軍覆沒!一場大考撕碎Agent「全自動辦公」幻想

Claude不到4%,全軍覆沒!一場大考撕碎Agent「全自動辦公」幻想

背景與現象

過去一年,各家GUI Agent爭先恐後地宣稱能替人類幹活。Benchmark成績一路飆升,投資人興奮,媒體狂歡,「全自動辦公」似乎就在眼前。

實測結果與問題

根據Sohu報導,Claude在長程任務中的表現僅不到4%,導致「全軍覆沒」,顯示當前Agent在複雜任務中的能力存在嚴重短板。

技術與環境分析

部分分析指出,Claude Code、Cursor等工具在複雜工程任務中表現良好,並非因為模型本身變強,而是因為它被放入一個領域專用的工具環境中,擁有文件I/O、終端與測試反饋機制。

產業與未來趨勢

企業正面臨「Agent基礎設施:自建,還是全託管」的選擇。Anthropic認為,絕大多數企業最終會選擇全託管方案,顯示AI Agent的基礎設施正從技術層面走向成熟與規範。

來源:https://www.sohu.com/a/1027234975_473283?scm=10001.325_13-325_13.0.0-0-0-0-0.5_1334

返回頂端