生成視頻總出物理bug?用VLM遷移+token級對齊,讓燃燒在正確位置發生,碰撞遵循動量守恆,CVPR 2026近滿分接收

生成視頻總出物理bug?用VLM遷移+token級對齊,讓燃燒在正確位置發生,碰撞遵循動量守恆,CVPR 2026近滿分接收

研究背景與問題

現有視頻生成模型多採用拼湊式流程,先生成無聲視頻,再透過音頻模型配樂,最後強制對齊,導致畫面與聲音經常失配,難以實現精確卡點。

解決方案與技術創新

該研究提出一種結合視覺語言模型(VLM)遷移與token級對齊的技術,有效解決視頻生成中的物理不一致問題。

透過VLM遷移,模型能更準確理解語義與視覺內容的對應關係;而token級對齊則確保關鍵動作(如燃燒、碰撞)在時間軸上的精確位置,使物理現象如燃燒與碰撞能正確發生。

此技術進一步確保動量守恆等物理定律在視頻內容中被嚴格遵守,大幅提升生成視頻的真實感與科學性。

成果與影響

該研究成果在CVPR 2026會議中獲得近滿分接收,顯示其在視頻生成領域的突破性與學術價值。

來源:https://36kr.com/p/3729568406224512

返回頂端