全球頂尖大模型一夜慘遭血洗！最難測試人類拿滿分，AI第一名得0.2%

測試結果顯示人類表現優於頂尖AI模型

在最新一場ARC-AGI-3測試中，人類參賽者幾乎全部取得滿分，而全球頂尖大模型如Opus 4.6，其得分僅為0.2%，遠低於預期。這項結果顯示，當前AI在複雜推理與情境理解方面，仍遠未達到人類水準。

曾橫掃各大榜單的「模範生」Opus 4.6，在ARC-AGI-3測試中直接現原形，得分僅0.2%。這項表現被視為重大打擊，顯示其在高階推理與邏輯判斷上的嚴重缺陷。

除了Opus 4.6，其他頂尖模型如o1、Gemini-2.5 Pro、Claude-3.7-Sonnet等，也全部在測試中表現不佳，正確率僅約57.5%，遠低於人類頂尖參賽者。

該測試被設計為極難的AGI（人工一般智慧）評估標準，結合圖像與邏輯推理，要求模型具備跨模態理解與動態情境判斷能力。AI在這些複雜任務上的失敗，凸顯其在真實世界應用中的能力缺口。