為什麼 Agent 總是 Demo 猛如龍、實戰一條蟲？

文章聚焦「為何 Agent 在展示（Demo）看似無所不能，但一進入真實場景就容易失靈」的落差，並引用一篇長達 51 頁的綜述研究指出：Agent 系統的核心瓶頸在於「適應性（Adaptation）」，也就是模型如何根據回饋訊號調整自身行為，以快速貼合新任務與新環境。

文中先界定 Agent 的特徵：相較於只會被動問答的模型，Agent 能自行規劃、呼叫工具（如搜尋引擎、程式編譯器、資料庫等）、保存記憶並以多步驟流程完成複雜任務；而面對新需求時，理想作法不是重造一個新 Agent，而是透過「微調自身」或「優化工具」來快速完成適配。

研究提出一個 2×2 的「適應性」分類框架，將現有方法分成四種範式，兩個維度分別為：

優化對象：優化 Agent 本身（Agent Adaptation）或優化工具（Tool Adaptation）
回饋來源：回饋來自工具執行結果，或來自對 Agent 最終輸出的評估

據此形成四類方法：

A1：Agent 依「工具執行回饋」學習（例如程式能否跑通、檢索結果是否準確）
A2：用「最終答案品質」作為優化訊號（例如以強化學習提升推理能力的訓練路線）
T1：工具先獨立訓練好、Agent 直接即插即用（如各類預訓練工具/模型供呼叫）
T2：工具會依 Agent 的輸出/需求反向優化，形成工具與 Agent 的「共生式」適配

文章也整理了這套分類的實務意義與取捨：調整 Agent（A1/A2）彈性較高但成本較大，通常需要重新訓練；調整工具（T1/T2）相對省資源，但效果會受限於 Agent 本身能力。

在實證比較上，文中強調一個關鍵發現：T2 範式的資料效率顯著優於 A2。以檢索增強生成（RAG）為例，A2 的端到端訓練可能需要約 17 萬筆樣本；而 T2 作法僅訓練「輕量級搜尋子 Agent」來服務凍結的主模型，約用 2400 筆樣本就能達到相近效果（資料量約少 70 倍、訓練速度更快）。在專業領域（如醫學問答）的測試中，T2 訓練的系統也呈現較高的準確率。文中解釋原因在於：A2 往往要同時學到領域知識、工具使用與任務推理；T2 則讓大模型保留既有知識與推理能力，小模型專注學「怎麼用工具」等程序性技能。

最後，文章整理了該研究提出的四個前沿方向：

協同適應（Co-Adaptation）：讓 Agent 與工具在同一個學習迴圈中互相優化，但會面臨「失敗責任歸因」等信用分配難題
持續適應（Continual Adaptation）：應對真實世界的非平穩變化（任務分布、工具更新、需求演進），並降低遺忘舊能力的風險
安全適應（Safe Adaptation）：指出強化學習在提升推理的同時，可能侵蝕監督微調建立的安全護欄，增加被越獄攻擊的風險
高效適應（Efficient Adaptation）：面向資源受限場景，包含以更省算力/更快訓練的方式完成適配，以及端側個人化適應等

文中並提到相關資源已整理成公開倉庫與論文頁面，供持續追蹤：arXiv 論文、GitHub 資源庫。

來源：https://36kr.com/p/3606535058457858

為什麼 Agent 總是 Demo 猛如龍、實戰一條蟲？

訂閱電子報

Company

Categories

聯絡我們

相關文章

訂閱電子報

Company

Categories

聯絡我們