幾乎所有大模型，視覺能力都不如3歲小孩

評測結果揭示大模型視覺能力短板

根據UniPatAI發佈的技術論文及紅杉中國與UniPatAI團隊聯合推出的BabyVision評測集結果顯示，當前絕大多數頂尖多模態大模型在視覺任務中的表現，顯著低於3歲兒童水平。僅有一款模型（如Gemini 3-Pro-Preview）勉強超過基線。

BabyVision評測集將視覺能力劃分為精細辨別、視覺追蹤、空間感知、視覺模式識別四大類別，共涵蓋22項子任務，全面評估大模型在純視覺情境下的表現。

多模態大模型的學習路徑以語言為核心，視覺能力作為附屬，所有信息必須對齊語言理解；而三歲幼兒的發展路徑則是先通過感知與運動建立基礎，語言是後期疊加的，因此在純粹視覺任務中表現更自然。

模型看似能“看”懂世界，實則依賴語言推理路徑，通過語言捷徑完成任務。真正的視覺能力，需要在沒有語言輔助的情況下，完成比較、追蹤、空間想象等基礎操作。