ARC-AGI-3互動推理基準上線,人類可全解但主流AI得分卻不到1%

ARC-AGI-3互動推理基準上線,人類可全解但主流AI得分卻不到1%

基準設計與目標

ARC Prize基金會發布ARC-AGI系列第一個互動式推理基準ARC-AGI-3,與前兩代以靜態題目為主的設計不同,ARC-AGI-3改以陌生的回合制環境,測試AI代理系統在互動過程中的探索、判斷目標、建立環境模型與規畫行動能力。

人類與AI表現對比

官方指出,ARC-AGI-3所有環境都已驗證可由人類完整解出,但截至2026年3月,現階段主要的AI系統在該基準上的整體分數仍低於1%。

技術背景與發展脈絡

  • 第一代ARC-AGI-1測試已逐漸飽和,許多模型能達到85%以上,因此Francois Chollet團隊設計第二代ARC-AGI-2,以更準確衡量AI的「抽象推理」能力。
  • ARC-AGI-3作為第三代,進一步強調AI在真實互動環境中的行為與決策能力,反映AI從「回答問題」邁向「執行任務」的演進。
  • 部分評論指出,ARC-AGI測試可能過度依賴視覺能力,導致AI表現反映的是視覺處理優勢,而非真正的泛化與推理能力。

產業與學界反應

此基準的推出被視為AI進入「代理人時代」的重要標誌,未來AI將不再僅是回答問題,而是能協助人類執行實際任務與流程。

來源:https://www.ithome.com.tw/news/174698

返回頂端