AI Agent 評測的下半場：從方法論到落地實踐

傳統評估方式的侷限

傳統的實踐主要機評與人評給予權重分數，以及各種典型的benchmark。隨著harness工程、meta-harness概念的提出，讓Agent感應環境、自迭代，減少人在過程中參與，傳統評估方式已無法完全反映真實情境。

新一代評估方法強調動態評估，透過追蹤Agent真實執行過程，確保任務更貼近現實需求。例如，紅杉中國推出的「xbench」，採用雙軌評估體系，一方面檢測AI Search能力，另一方面建立對齊現實世界專家的實用性任務體系。

一個成熟的智能體評估體系應將Skill視為一等公民，而非附屬配置。Benchmark需支援開關Skill，同一任務至少能運行「無Skill／有Skill」兩組實驗，以驗證Skill對任務完成的實際影響。

一套全面的評估體系需從多個維度考察Agent，包括規劃能力、工具調用、互動過程與結果。例如，Anthropic提出的自動化評估體系，強調需同時評估結果與交互過程，甚至透過另一個LLM扮演用戶，進行長時間對抗性對話來測試模型效果。

為降低資源消耗，出現如paperbench-codedev等輕量化版本，僅保留code-dev的葉子節點，減少對訓練資源的依賴，同時確保評估標準的可執行性。

此外，業務自建Agent Benchmark可理解為一套標準化的「考卷」與「評分規則」，從多維度如「德智體美勞」來全面檢視Agent能力。

最終，隨著Agent技術快速演進，單一數字無法描述複雜系統的真實能力，唯有建立多維度、可追溯、行為透明的評估體系，才能真正推動技術進步。