視頻生成一長就漂移竟是前序幀「太乾淨」惹的禍,研究揭示共享噪聲水平才是長視頻穩定關鍵

視頻生成一長就漂移竟是前序幀「太乾淨」惹的禍,研究揭示共享噪聲水平才是長視頻穩定關鍵

問題現象

在長時間的視頻生成過程中,隨著生成時間的延長,視頻會出現嚴重的時序漂移與畫面崩壞問題(drift)。這種現象導致生成內容逐漸與初始輸入產生偏差,嚴重影響視頻的穩定性與真實感。

技術背景與現有方法

為解決此退化問題,現有方法嘗試多種途徑,例如模擬預測誤差、引入首幀(First frame)資訊,以及優化模型結構以提升時序一致性。

關鍵發現

研究指出,問題的根源在於前序幀過於「乾淨」(too clean),導致模型缺乏足夠的噪聲資訊,進而影響後續幀的穩定性。真正關鍵的穩定因素是「共享噪聲水平」(shared noise level),而非傳統的自回歸視頻生成架構。

技術意義

此發現顛覆了傳統自回歸視頻生成的範式,顯示長時序視頻生成的穩定性關鍵在於噪聲的共享與傳遞機制,為未來實時長視頻生成與互動式視頻系統提供了新方向。

來源:https://36kr.com/p/3726664722610823

返回頂端