我們用150個任務測試了30個skill，跑出7個反直覺結論

核心內容

1. Skill效果並非絕對提升，部分甚至不如裸模型。

2. Skill存在「虹吸現象」，可能導致資源過度集中於特定技能，而忽略其他潛在能力。

3. 在Agent MD中設定的instructions，比skills更有可能被agent觸發與遵守，顯示instructions在實際執行中更具優先性。

4. 隨著Skill數量增加，AI Agent的整體性能反而可能下降，顯示過度複雜化會導致效率降低。

5. 部分Skill僅是「看起來很會」，實際上並未帶來有效成果，反映出設計與實踐之間的落差。

6. 自動斷言Skill的實現，可將接口測試的斷言生成時間從平均30分鐘縮短至5秒，顯示簡化設計能大幅提升效率。

7. 在真實任務中，Skill的應用需結合實際情境，而非僅依賴預設模板，否則容易產生「看起來像bug又像不是」的異常結果。