為什麼『從1數到10』這件事，所有視頻模型都不會？

視頻模型的運作原理

所有的視頻模型本質上做的是同一件事，從海量視頻數據中學習統計規律，然後在生成每一幀畫面時預測「接下來什麼樣的像素排列最有可能出現」。這種機制並非基於對世界物理規則的理解，而是基於數據中的模式匹配。

無論是Seedance2.0、Sora還是Veo，生成的視頻都暴露了模型在物理常識理解上的巨大漏洞。例如，畫面中手指的數量與數字不符，語音與手勢錯亂，形成強烈的荒誕感。這顯示視頻模型無法正確理解現實世界中的基本物理規則。

AI模型其實不太懂數學。如果它們給出了正確的答案，那只是因為在它們訓練的數據中，這個答案是最有可能的。它們並沒有建立一個全面的世界模型，因此無法理解「數數」這個簡單行為背後的邏輯與規範。

當前的AI視頻模型僅能模擬視覺模式，卻無法掌握現實世界中的因果關係與物理法則。這反映出技術發展與人類對世界理解之間的深層差距。