最強大模型的視覺能力不如6歲小孩

核心發現

在BabyVision視覺推理benchmark上，當前表現最強的Gemini 3 Pro Preview也只是小勝三歲兒童，跟六歲兒童仍有20%的差距。與成年人94.1的水平相比，更是天壤之別。

最新測評集顯示，幾乎所有頂尖多模態大模型在純視覺任務上的表現，都顯著低於三歲兒童水平。例如，Gemini 3 Pro Preview總分僅為49.7，遠低於人類成年人平均的94.1分，甚至不如一個六歲小孩的平均水平。

BabyVision評測集測的不是“看懂圖片+說話”，而是“有沒有形成最原始的視覺直覺”。這正是當前多模態大模型最不擅長的地方。

當AI脫離語言依賴，僅靠“眼睛”理解世界時，其表現竟不如三歲兒童，反映出當前多模態大模型在基礎視覺直覺方面的嚴重不足。