最強大模型的視覺能力不如6歲小孩
核心發現
在BabyVision視覺推理benchmark上,當前表現最強的Gemini 3 Pro Preview也只是小勝三歲兒童,跟六歲兒童仍有20%的差距。與成年人94.1的水平相比,更是天壤之別。
多模態大模型表現
最新測評集顯示,幾乎所有頂尖多模態大模型在純視覺任務上的表現,都顯著低於三歲兒童水平。例如,Gemini 3 Pro Preview總分僅為49.7,遠低於人類成年人平均的94.1分,甚至不如一個六歲小孩的平均水平。
視覺能力測試背景
BabyVision評測集測的不是“看懂圖片+說話”,而是“有沒有形成最原始的視覺直覺”。這正是當前多模態大模型最不擅長的地方。
相關研究與結論
一項由紅杉中國xbench與UniPat AI共同發佈的評測結果顯示,頂尖大模型在純視覺任務上的表現,比3歲兒童還要差,尤其在精細辨別、視覺追蹤等基礎能力上存在明顯短板。
延伸討論
當AI脫離語言依賴,僅靠“眼睛”理解世界時,其表現竟不如三歲兒童,反映出當前多模態大模型在基礎視覺直覺方面的嚴重不足。
