AI Agent 評測的下半場:從方法論到落地實踐
傳統評估方式的侷限
傳統的實踐主要機評與人評給予權重分數,以及各種典型的benchmark。隨著harness工程、meta-harness概念的提出,讓Agent感應環境、自迭代,減少人在過程中參與,傳統評估方式已無法完全反映真實情境。
動態評估與真實執行過程
新一代評估方法強調動態評估,透過追蹤Agent真實執行過程,確保任務更貼近現實需求。例如,紅杉中國推出的「xbench」,採用雙軌評估體系,一方面檢測AI Search能力,另一方面建立對齊現實世界專家的實用性任務體系。
多維度與行為透明的評估體系
一個成熟的智能體評估體系應將Skill視為一等公民,而非附屬配置。Benchmark需支援開關Skill,同一任務至少能運行「無Skill/有Skill」兩組實驗,以驗證Skill對任務完成的實際影響。
評估體系的關鍵維度
一套全面的評估體系需從多個維度考察Agent,包括規劃能力、工具調用、互動過程與結果。例如,Anthropic提出的自動化評估體系,強調需同時評估結果與交互過程,甚至透過另一個LLM扮演用戶,進行長時間對抗性對話來測試模型效果。
輕量化與資源效率的考量
為降低資源消耗,出現如paperbench-codedev等輕量化版本,僅保留code-dev的葉子節點,減少對訓練資源的依賴,同時確保評估標準的可執行性。
此外,業務自建Agent Benchmark可理解為一套標準化的「考卷」與「評分規則」,從多維度如「德智體美勞」來全面檢視Agent能力。
最終,隨著Agent技術快速演進,單一數字無法描述複雜系統的真實能力,唯有建立多維度、可追溯、行為透明的評估體系,才能真正推動技術進步。
