為什麼 Agent 總是 Demo 猛如龍、實戰一條蟲?

文章聚焦「為何 Agent 在展示(Demo)看似無所不能,但一進入真實場景就容易失靈」的落差,並引用一篇長達 51 頁的綜述研究指出:Agent 系統的核心瓶頸在於「適應性(Adaptation)」,也就是模型如何根據回饋訊號調整自身行為,以快速貼合新任務與新環境。

文中先界定 Agent 的特徵:相較於只會被動問答的模型,Agent 能自行規劃呼叫工具(如搜尋引擎、程式編譯器、資料庫等)、保存記憶並以多步驟流程完成複雜任務;而面對新需求時,理想作法不是重造一個新 Agent,而是透過「微調自身」或「優化工具」來快速完成適配。

研究提出一個 2×2 的「適應性」分類框架,將現有方法分成四種範式,兩個維度分別為:

  • 優化對象:優化 Agent 本身(Agent Adaptation)或優化工具(Tool Adaptation)
  • 回饋來源:回饋來自工具執行結果,或來自對 Agent 最終輸出的評估

據此形成四類方法:

  • A1:Agent 依「工具執行回饋」學習(例如程式能否跑通、檢索結果是否準確)
  • A2:用「最終答案品質」作為優化訊號(例如以強化學習提升推理能力的訓練路線)
  • T1:工具先獨立訓練好、Agent 直接即插即用(如各類預訓練工具/模型供呼叫)
  • T2:工具會依 Agent 的輸出/需求反向優化,形成工具與 Agent 的「共生式」適配

文章也整理了這套分類的實務意義與取捨:調整 Agent(A1/A2)彈性較高但成本較大,通常需要重新訓練;調整工具(T1/T2)相對省資源,但效果會受限於 Agent 本身能力。

在實證比較上,文中強調一個關鍵發現:T2 範式的資料效率顯著優於 A2。以檢索增強生成(RAG)為例,A2 的端到端訓練可能需要約 17 萬筆樣本;而 T2 作法僅訓練「輕量級搜尋子 Agent」來服務凍結的主模型,約用 2400 筆樣本就能達到相近效果(資料量約少 70 倍、訓練速度更快)。在專業領域(如醫學問答)的測試中,T2 訓練的系統也呈現較高的準確率。文中解釋原因在於:A2 往往要同時學到領域知識、工具使用與任務推理;T2 則讓大模型保留既有知識與推理能力,小模型專注學「怎麼用工具」等程序性技能。

最後,文章整理了該研究提出的四個前沿方向:

  • 協同適應(Co-Adaptation):讓 Agent 與工具在同一個學習迴圈中互相優化,但會面臨「失敗責任歸因」等信用分配難題
  • 持續適應(Continual Adaptation):應對真實世界的非平穩變化(任務分布、工具更新、需求演進),並降低遺忘舊能力的風險
  • 安全適應(Safe Adaptation):指出強化學習在提升推理的同時,可能侵蝕監督微調建立的安全護欄,增加被越獄攻擊的風險
  • 高效適應(Efficient Adaptation):面向資源受限場景,包含以更省算力/更快訓練的方式完成適配,以及端側個人化適應等

文中並提到相關資源已整理成公開倉庫與論文頁面,供持續追蹤:arXiv 論文GitHub 資源庫

來源:https://36kr.com/p/3606535058457858

返回頂端