三篇論文,寫清楚了Agent元年的困境

摘要:36氪彙整三篇重要論文與調研,指出儘管資本市場將2025年視為「Agent 元年」,但生產部署的實務資料顯示 Agent 系統多以可控性與工程化為主,尚未達到市場所宣稱的廣泛自組織與長鏈路自治能力。

一、UC Berkeley 的調研(Measuring Agents in Production):

  • 調研對象:訪談 306 位一線從業者並做 20 個深度案例,僅分析已上線且產生真實價值的系統;
  • 主要發現:68% 的生產級 Agent 執行步驟被限制在 10 步以內;只有 16.7% 允許數十步,6.7% 無限制;
  • 工程實務:80% 的案例採用「結構化控制流」(人畫流程,AI 在既定格子內填空),企業常以抽象層(Wrapper APIs)隔離 Agent 與底層生產 API;
  • Prompt 與管控:12% 的已部署系統 System Prompt 超過 10,000 tokens,實務上多為長管線式的嚴格 SOP;
  • 結論:生產端重視可控性與可靠性,成功案例更像「有閱讀理解能力的、不知疲倦的實習生」被塞入嚴格流程中工作。

二、DeepMind(Towards a Science of Scaling Agent Systems):多 Agent 不等於更好

  • 研究設計:在超過 180 種受控配置下比較五類典型 Agent 架構(單 Agent、獨立多 Agent、去中心化、中心化、混合式),並於 Finance-Agent、BrowseComp-Plus、PlanCraft、Workbench 等基準上測試;
  • 主要觀察:工具—協作權衡(協調稅會使系統在開放任務中「降智」)、能力飽和效應(當單 Agent 準確率超過約 45% 後,多 Agent 回報遞減)、錯誤放大拓撲(獨立多 Agent 架構下的錯誤放大因子示例為 17.2);
  • 例外情形:在邊界清晰且 SOP 明確的金融分析任務,中心化多 Agent 架構可帶來顯著提升(文章示例提到高達約 81% 的增益);
  • 作者提出的混合效應模型可用以預測在特定任務屬性與模型能力下哪種架構最優(文章給出約 87% 的預測準確率)。

三、DeepMind(Budget-Aware Tool-Use / BATS):更多預算非萬靈藥

  • 觀察:單純增加工具調用預算(Tool-call Budget)並不會線性提升效能;以標準 ReAct 為例,預算翻倍時準確率僅微幅提升(文章示例為 +0.2 個百分點),模型在高預算下實際只使用少部分搜尋次數,會陷入無效探索;
  • BATS 設計:包含「預算感知規劃」與「預算感知驗證」兩大模組——維護樹狀 checklist、動態更新子任務狀態、逐條約束檢查並根據剩餘預算決策繼續或轉向,以避免浪費資源;
  • 實驗結果:BATS 在 BrowseComp 上將準確率從標準 ReAct 的 12.6% 提升到 24.6%,在 BrowseComp-ZH 上從 31.5% 提升到 46.0%;在相同準確率下,BATS 的統一成本(Token + 工具調用)可比並行投票方案低約 40%。

四、要真正走向 Agent 爆發,需要側重「減負」的三大方向:

  • 有效的工具管理:把工具抽象為可組合的技能庫(文章提及 Anthropic 的 Skills 概念),以降低工具的認知負擔;
  • 內建的自我驗證能力:形式化驗證模組(如 BATS 的驗證機制),逐條檢查約束以避免錯誤累積;
  • 模型間的高效溝通協議:發展結構化的通訊協議或隱空間通訊以降低自然語言協商的訊息稀疏與歧義成本。

只有當上述減負能力到位,多 Agent 系統才可能克服溝通噪音與認知負擔,真正發揮分工協作的優勢。

結論:目前的實務與實驗結果一致指出,僅靠「更多 Agent」或「更多預算」並不能保證性能提升;在可控性、預算感知與通訊協議等核心能力尚未成熟前,資本市場所謂的「Agent 元年」尚未真正到來。

來源:https://36kr.com/p/3608851367871752

返回頂端