ARC-AGI-3互動推理基準上線，人類可全解但主流AI得分卻不到1%

基準設計與目標

ARC Prize基金會發布ARC-AGI系列第一個互動式推理基準ARC-AGI-3，與前兩代以靜態題目為主的設計不同，ARC-AGI-3改以陌生的回合制環境，測試AI代理系統在互動過程中的探索、判斷目標、建立環境模型與規畫行動能力。

官方指出，ARC-AGI-3所有環境都已驗證可由人類完整解出，但截至2026年3月，現階段主要的AI系統在該基準上的整體分數仍低於1%。

第一代ARC-AGI-1測試已逐漸飽和，許多模型能達到85%以上，因此Francois Chollet團隊設計第二代ARC-AGI-2，以更準確衡量AI的「抽象推理」能力。
ARC-AGI-3作為第三代，進一步強調AI在真實互動環境中的行為與決策能力，反映AI從「回答問題」邁向「執行任務」的演進。
部分評論指出，ARC-AGI測試可能過度依賴視覺能力，導致AI表現反映的是視覺處理優勢，而非真正的泛化與推理能力。

此基準的推出被視為AI進入「代理人時代」的重要標誌，未來AI將不再僅是回答問題，而是能協助人類執行實際任務與流程。