文章指出,當前文生圖(Text-to-Image)與影片生成模型(包含擴散模型與自回歸模型)雖能產生逼真影像,但在複雜空間關係、多物體互動、精準數量控制等需求上仍容易出錯。
為改善上述問題,過往研究多採用兩類策略:
- 先思考再生成(Think-before-Generation):生成前先制定完整佈局計畫,但生成過程彈性較低、難以在中途調整。
- 先生成再修正(Think-after-Generation):先產生結果後再多輪對話找錯並修改,但推理成本高、耗時較長。
香港中文大學與美團等研究團隊提出新範式Thinking-while-Generating(TwiG),核心是把文字推理與視覺生成在單一生成軌跡中以局部區域為粒度深度交織:生成過程不再一口氣完成,而是以「生成→思考→再生成」的循環,在繪製途中多次插入文字推理來總結目前畫面狀態並指導下一步生成,並在局部完成後立即檢查與修正。
文章將 TwiG 的設計拆成三個關鍵維度:
- 何時思考(When to Think):依提示詞規劃「思考時間表」,將生成拆為多個階段;研究觀察拆成約 3 個階段效果較佳。
- 思考什麼(What to Say):每次暫停時產生文字推理(類思維鏈),用於描述當前局部成果並給出接下來局部生成的具體指引。
- 如何修正(How to Refine):局部生成後進行自我反思(Self-Reflection),若發現偏差則啟動「重畫」機制,只修正當前局部、避免整體推倒重來。
在實證部分,團隊以統一多模態模型(如 Janus-Pro)進行逐步驗證:
- Zero-Shot:透過設計提示詞與交織約束,不更新參數即展現「邊畫邊想」能力;在 T2I-CompBench 上,於屬性綁定、空間關係等指標相較基準模型有明顯提升。
- 監督式微調(SFT):建立高品質資料集 TwiG-50K(約 5 萬筆)進行 SFT,以降低不受控的推理內容、讓文字推理更精簡可控。
- 強化學習(RL):採用針對 TwiG 優化的 GRPO(Group Relative Policy Optimization)策略,讓模型在「何時思考/思考什麼/如何修正」上學習更佳策略;文章稱在 T2I-CompBench++ 的多個組合與空間指標上,結果可與 Emu3、FLUX.1 等模型競爭,部分指標更優。
文章也指出,TwiG 旨在提升生成過程的可讀性與可控性,並強調「生成中即時局部修正」相較於生成後再大幅修改更有效率;此外,雖然當前實作與驗證主要基於自回歸 ULM,但框架設計上也宣稱可相容於擴散模型,並可望延伸至影片生成、3D 建模等更複雜任務。文末附研究論文與專案頁:arXiv:2511.16671、think-while-gen.github.io。
