長任務是檢驗Agent水平的唯一標準

核心觀點

檢驗Agent水平的唯一標準是長任務。這個判斷建立在一個簡單事實上：短任務可以靠記憶完成，長任務必須靠理解完成。短任務中，模型只需處理當前輸入；而長任務則需要模型對整個情境進行推理與規劃，這才體現其真正的理解與決策能力。

目前評估Agent能力的標準，需避免單純讓LLM打分所產生的偏誤。更穩健的評估模式包括：直接評分法（Direct Scoring），使用帶有權重和詳細標準的量規，而非模糊的「1-5分」。

此外，將大任務拆解為小任務，而非將所有內容一次性處理，是設計AI Agent時的重要原則，以避免信息過載並提升執行效率。

Agent Skills的核心創新是「漸進式披露」（Progressive Disclosure）機制，將技能資訊分為三個層次，智能體按需逐步載入，確保必要時不遺漏細節，同時避免一次過載。