全球頂尖大模型一夜慘遭血洗!最難測試人類拿滿分,AI第一名得0.2%
測試結果顯示人類表現優於頂尖AI模型
在最新一場ARC-AGI-3測試中,人類參賽者幾乎全部取得滿分,而全球頂尖大模型如Opus 4.6,其得分僅為0.2%,遠低於預期。這項結果顯示,當前AI在複雜推理與情境理解方面,仍遠未達到人類水準。
Opus 4.6表現極差,被視為「現原形」
曾橫掃各大榜單的「模範生」Opus 4.6,在ARC-AGI-3測試中直接現原形,得分僅0.2%。這項表現被視為重大打擊,顯示其在高階推理與邏輯判斷上的嚴重缺陷。
多款頂尖AI模型皆慘敗
除了Opus 4.6,其他頂尖模型如o1、Gemini-2.5 Pro、Claude-3.7-Sonnet等,也全部在測試中表現不佳,正確率僅約57.5%,遠低於人類頂尖參賽者。
測試背景與技術挑戰
該測試被設計為極難的AGI(人工一般智慧)評估標準,結合圖像與邏輯推理,要求模型具備跨模態理解與動態情境判斷能力。AI在這些複雜任務上的失敗,凸顯其在真實世界應用中的能力缺口。
