為什麼「從 1 數到 10」這件事,所有視頻模型都不會?

為什麼「從 1 數到 10」這件事,所有視頻模型都不會?

核心原因:視頻模型學習的是統計規律,而非物理世界的真實邏輯

所有的視頻模型本質上做的是同一件事,從海量視頻數據中學習統計規律,然後在生成每一幀畫面時預測「接下來什麼樣的像素排列最可能出現」。這種學習方式基於概率與模式識別,而非理解世界的物理語法。

實證案例:AI 模型在「數數」任務上全面失敗

網友發起了一場自發的「AI 數數挑戰賽」,將同一道題餵給 Sora、Veo、Kling 等幾乎所有主流視頻模型,結果全軍覆沒,沒有一個能正確地從 1 數到 10。這反映出當前 AI 模型在基礎認知能力上的侷限。

延伸觀察:AI 在基礎認知任務中的表現

在其他任務中,AI 也表現出類似問題,例如:讓其寫一個 20 個字的段落,會自動擴展到 25 個字;當被問及單詞「Strawberry」中有幾個字母「R」時,會錯誤回答為 2 個,顯示其缺乏對基本語言結構的精確理解。

技術背景:AI 視頻生成的現狀與挑戰

儘管以 Seedance(豆包視頻生成模型)為代表的多鏡頭視頻生成、音效同步等技術已達到國際先進水平,但基礎研究與原創範式仍有待突破,尤其在理解物理世界的真實規則方面,仍存在顯著差距。

來源:https://36kr.com/p/3713774050980227

返回頂端