幾乎所有大模型,視覺能力都不如3歲小孩
評測結果揭示大模型視覺能力短板
根據UniPatAI發佈的技術論文及紅杉中國與UniPatAI團隊聯合推出的BabyVision評測集結果顯示,當前絕大多數頂尖多模態大模型在視覺任務中的表現,顯著低於3歲兒童水平。僅有一款模型(如Gemini 3-Pro-Preview)勉強超過基線。
視覺能力測試涵蓋四大類別
BabyVision評測集將視覺能力劃分為精細辨別、視覺追蹤、空間感知、視覺模式識別四大類別,共涵蓋22項子任務,全面評估大模型在純視覺情境下的表現。
大模型學習路徑與兒童發展路徑差異
多模態大模型的學習路徑以語言為核心,視覺能力作為附屬,所有信息必須對齊語言理解;而三歲幼兒的發展路徑則是先通過感知與運動建立基礎,語言是後期疊加的,因此在純粹視覺任務中表現更自然。
真正的視覺能力需脫離語言依賴
模型看似能“看”懂世界,實則依賴語言推理路徑,通過語言捷徑完成任務。真正的視覺能力,需要在沒有語言輔助的情況下,完成比較、追蹤、空間想象等基礎操作。
