為什麼『從1數到10』這件事,所有視頻模型都不會?
視頻模型的運作原理
所有的視頻模型本質上做的是同一件事,從海量視頻數據中學習統計規律,然後在生成每一幀畫面時預測「接下來什麼樣的像素排列最有可能出現」。這種機制並非基於對世界物理規則的理解,而是基於數據中的模式匹配。
物理常識的缺失
無論是Seedance2.0、Sora還是Veo,生成的視頻都暴露了模型在物理常識理解上的巨大漏洞。例如,畫面中手指的數量與數字不符,語音與手勢錯亂,形成強烈的荒誕感。這顯示視頻模型無法正確理解現實世界中的基本物理規則。
AI模型的數學能力限制
AI模型其實不太懂數學。如果它們給出了正確的答案,那只是因為在它們訓練的數據中,這個答案是最有可能的。它們並沒有建立一個全面的世界模型,因此無法理解「數數」這個簡單行為背後的邏輯與規範。
技術與現實的差距
當前的AI視頻模型僅能模擬視覺模式,卻無法掌握現實世界中的因果關係與物理法則。這反映出技術發展與人類對世界理解之間的深層差距。
