ARC-AGI-3互動推理基準上線,人類可全解但主流AI得分卻不到1%
基準設計與目標
ARC Prize基金會發布ARC-AGI系列第一個互動式推理基準ARC-AGI-3,與前兩代以靜態題目為主的設計不同,ARC-AGI-3改以陌生的回合制環境,測試AI代理系統在互動過程中的探索、判斷目標、建立環境模型與規畫行動能力。
人類與AI表現對比
官方指出,ARC-AGI-3所有環境都已驗證可由人類完整解出,但截至2026年3月,現階段主要的AI系統在該基準上的整體分數仍低於1%。
技術背景與發展脈絡
- 第一代ARC-AGI-1測試已逐漸飽和,許多模型能達到85%以上,因此Francois Chollet團隊設計第二代ARC-AGI-2,以更準確衡量AI的「抽象推理」能力。
- ARC-AGI-3作為第三代,進一步強調AI在真實互動環境中的行為與決策能力,反映AI從「回答問題」邁向「執行任務」的演進。
- 部分評論指出,ARC-AGI測試可能過度依賴視覺能力,導致AI表現反映的是視覺處理優勢,而非真正的泛化與推理能力。
產業與學界反應
此基準的推出被視為AI進入「代理人時代」的重要標誌,未來AI將不再僅是回答問題,而是能協助人類執行實際任務與流程。
