為什麼「從 1 數到 10」這件事，所有視頻模型都不會？

核心原因：視頻模型學習的是統計規律，而非物理世界的真實邏輯

所有的視頻模型本質上做的是同一件事，從海量視頻數據中學習統計規律，然後在生成每一幀畫面時預測「接下來什麼樣的像素排列最可能出現」。這種學習方式基於概率與模式識別，而非理解世界的物理語法。

網友發起了一場自發的「AI 數數挑戰賽」，將同一道題餵給 Sora、Veo、Kling 等幾乎所有主流視頻模型，結果全軍覆沒，沒有一個能正確地從 1 數到 10。這反映出當前 AI 模型在基礎認知能力上的侷限。

在其他任務中，AI 也表現出類似問題，例如：讓其寫一個 20 個字的段落，會自動擴展到 25 個字；當被問及單詞「Strawberry」中有幾個字母「R」時，會錯誤回答為 2 個，顯示其缺乏對基本語言結構的精確理解。

儘管以 Seedance（豆包視頻生成模型）為代表的多鏡頭視頻生成、音效同步等技術已達到國際先進水平，但基礎研究與原創範式仍有待突破，尤其在理解物理世界的真實規則方面，仍存在顯著差距。