生成視頻總出物理bug？用VLM遷移+token級對齊，讓燃燒在正確位置發生，碰撞遵循動量守恆，CVPR 2026近滿分接收

研究背景與問題

現有視頻生成模型多採用拼湊式流程，先生成無聲視頻，再透過音頻模型配樂，最後強制對齊，導致畫面與聲音經常失配，難以實現精確卡點。

該研究提出一種結合視覺語言模型（VLM）遷移與token級對齊的技術，有效解決視頻生成中的物理不一致問題。

透過VLM遷移，模型能更準確理解語義與視覺內容的對應關係；而token級對齊則確保關鍵動作（如燃燒、碰撞）在時間軸上的精確位置，使物理現象如燃燒與碰撞能正確發生。

此技術進一步確保動量守恆等物理定律在視頻內容中被嚴格遵守，大幅提升生成視頻的真實感與科學性。

該研究成果在CVPR 2026會議中獲得近滿分接收，顯示其在視頻生成領域的突破性與學術價值。