從「片段生成」到「長視頻漫遊」:OmniRoam 探索軌跡可控的長視頻生成新範式

OmniRoam:突破長視頻生成瓶頸的新範式

研究背景與核心挑戰

隨著生成式 AI 技術的進步,視頻生成已從早期的短片段(幾秒鐘)發展至能輸出數分鐘的高清視頻。然而,在可控視頻生成領域,如何實現長時序下的空間一致性時間連貫性仍是重大挑戰。加州大學聯合 Adobe 提出的 OmniRoam 框架,旨在解決這一難題,打造可控制的全景長視頻,實現沉浸式 3D 漫遊。

技術架構:全景表示與分階段生成

OmniRoam 的核心創新在於引入全景視頻作為統一表示,並結合了 coarse-to-fine(由粗到細)的分階段生成框架。這種設計使得模型能夠在長時序條件下,顯著提升視頻的視覺質量與軌跡可控性。

工作流程:從軌跡規劃到視頻細化

該框架的工作流程包含兩個關鍵階段:

  • 軌跡控制的視頻預覽:先生成「可控路徑」,確立視頻的運動軌跡與視角變化。
  • 長時序視頻細化:從預覽結果開始,逐步進行高品質的視頻生成,確保在漫遊過程中保持全局一致性。

應用價值與未來展望

OmniRoam 不僅在視覺質量、軌跡可控性和長期全局一致性方面表現出色,還拓展了實時生成3D 重建的能力。得益於生成視頻在長距離上的高度一致性,該技術為後續的 3D 場景重建提供了堅實的基礎,標誌著視頻生成技術從片段化向沉浸式漫遊的重要跨越。

來源:https://36kr.com/p/3767745167115012

返回頂端