從「片段生成」到「長視頻漫遊」：OmniRoam 探索軌跡可控的長視頻生成新範式

2026-05-10 23:43:21 / 1 閱讀所需時間

OmniRoam：突破長視頻生成瓶頸的新範式

研究背景與核心挑戰

隨著生成式 AI 技術的進步，視頻生成已從早期的短片段（幾秒鐘）發展至能輸出數分鐘的高清視頻。然而，在可控視頻生成領域，如何實現長時序下的空間一致性與時間連貫性仍是重大挑戰。加州大學聯合 Adobe 提出的 OmniRoam 框架，旨在解決這一難題，打造可控制的全景長視頻，實現沉浸式 3D 漫遊。

技術架構：全景表示與分階段生成

OmniRoam 的核心創新在於引入全景視頻作為統一表示，並結合了 coarse-to-fine（由粗到細）的分階段生成框架。這種設計使得模型能夠在長時序條件下，顯著提升視頻的視覺質量與軌跡可控性。

工作流程：從軌跡規劃到視頻細化

該框架的工作流程包含兩個關鍵階段：

軌跡控制的視頻預覽：先生成「可控路徑」，確立視頻的運動軌跡與視角變化。
長時序視頻細化：從預覽結果開始，逐步進行高品質的視頻生成，確保在漫遊過程中保持全局一致性。

應用價值與未來展望

OmniRoam 不僅在視覺質量、軌跡可控性和長期全局一致性方面表現出色，還拓展了實時生成和3D 重建的能力。得益於生成視頻在長距離上的高度一致性，該技術為後續的 3D 場景重建提供了堅實的基礎，標誌著視頻生成技術從片段化向沉浸式漫遊的重要跨越。

來源：https://36kr.com/p/3767745167115012