我們用150個任務測試了30個skill,跑出7個反直覺結論

我們用150個任務測試了30個skill,跑出7個反直覺結論

核心內容

1. Skill效果並非絕對提升,部分甚至不如裸模型。

2. Skill存在「虹吸現象」,可能導致資源過度集中於特定技能,而忽略其他潛在能力。

3. 在Agent MD中設定的instructions,比skills更有可能被agent觸發與遵守,顯示instructions在實際執行中更具優先性。

4. 隨著Skill數量增加,AI Agent的整體性能反而可能下降,顯示過度複雜化會導致效率降低。

5. 部分Skill僅是「看起來很會」,實際上並未帶來有效成果,反映出設計與實踐之間的落差。

6. 自動斷言Skill的實現,可將接口測試的斷言生成時間從平均30分鐘縮短至5秒,顯示簡化設計能大幅提升效率。

7. 在真實任務中,Skill的應用需結合實際情境,而非僅依賴預設模板,否則容易產生「看起來像bug又像不是」的異常結果。

相關研究與實踐

由Vercel團隊進行的agent md與skills測試,發現instructions在實際執行中被觸發的機率更高,顯示其在Agent行為中具有更強的影響力。

OpenClaw實戰指南指出,透過AGENT.md定義執行流程,可調用多個Skill完成複雜任務,如報告生成與自動化部署。

SkillsBench為首個AI Agent「技能」基準測試,透過86個真實任務與11個領域的系統評估,揭示了Skill數量與性能之間的反直覺關係。

實務建議

  • 避免過度堆疊Skill,應聚焦於核心任務與關鍵流程。
  • 優先設計清晰、可驗證的instructions,以提升Agent行為的穩定性。
  • 定期檢視Skill效能,區分「看起來很會」與「實際有效」的差異。

來源:https://36kr.com/p/3820289560449411

返回頂端