文章介紹浙江大學 ReLER 團隊開源的 ContextGen 框架,聚焦「多實例影像生成」(Multi-Instance Generation, MIG)在實務中常見的兩大同時控制難題:精準佈局與多主體身分保真難以兼顧。
文中整理 MIG 的主要痛點包括:
- 宏觀佈局難以固化:即使提供佈局控制,多個實例仍可能無法穩定錨定到指定位置,並出現屬性外洩、實例遺失等問題。
- 身分細節容易丟失:主體數量增加時,個別實例的身分特徵更容易被混淆或弱化,導致生成結果不夠忠實。
ContextGen 以 Diffusion Transformer(DiT)為基礎,將輸入整合為統一的 Token 序列,並在 DiT 模組中嵌入兩種分工不同的注意力機制,以達成佈局與身分的分層解耦控制:
- Contextual Layout Anchoring(CLA):透過注意力遮罩讓查詢 Token 可與文字、影像與佈局 Token 廣泛互動,用於建立全域構圖約束、提升佈局錨定能力。
- Instance Consistency Attention(ICA):以隔離式注意力遮罩限制邊界框內 Token 主要關注自身區域、文本與對應參考圖,降低不同實例間交叉干擾,用於提升多主體身分隔離與保真。
訓練與資料層面,文章提到:
- 引入 DPO(Direct Preference Optimization)以緩解監督微調可能造成的「佈局僵硬複製」並提升自然度與多樣性。
- 同步釋出 IMIG-100K 資料集,主打包含詳細佈局與身分標註、並具不同難度層級的大規模多實例合成資料。
實驗結果方面,文中報告 ContextGen 在兩個維度的表現:
- 佈局精度:在 COCO-MIG 基準上,空間準確性(mIoU)提升 +5.9%。
- 身分保持:在 LAMICBench++ 的身分保持測試中,身分保真度(IDS)在較多主體情境下可比肩或超越 GPT-4o 與 Nano-Banana 等閉源系統。
此外,團隊也提供簡易前端介面,支援上傳參考圖、設計佈局以進行多實例客製化生成。文章同時給出資源連結:論文(arXiv)與程式碼(GitHub)。
