對標 GPT-4o 和「香蕉」，浙大開源 ContextGen：佈局身分協同新 SOTA

2025-12-22 16:17:43 / 1 閱讀所需時間

文章介紹浙江大學 ReLER 團隊開源的 ContextGen 框架，聚焦「多實例影像生成」（Multi-Instance Generation, MIG）在實務中常見的兩大同時控制難題：精準佈局與多主體身分保真難以兼顧。

文中整理 MIG 的主要痛點包括：

宏觀佈局難以固化：即使提供佈局控制，多個實例仍可能無法穩定錨定到指定位置，並出現屬性外洩、實例遺失等問題。
身分細節容易丟失：主體數量增加時，個別實例的身分特徵更容易被混淆或弱化，導致生成結果不夠忠實。

ContextGen 以 Diffusion Transformer（DiT）為基礎，將輸入整合為統一的 Token 序列，並在 DiT 模組中嵌入兩種分工不同的注意力機制，以達成佈局與身分的分層解耦控制：

Contextual Layout Anchoring（CLA）：透過注意力遮罩讓查詢 Token 可與文字、影像與佈局 Token 廣泛互動，用於建立全域構圖約束、提升佈局錨定能力。
Instance Consistency Attention（ICA）：以隔離式注意力遮罩限制邊界框內 Token 主要關注自身區域、文本與對應參考圖，降低不同實例間交叉干擾，用於提升多主體身分隔離與保真。

訓練與資料層面，文章提到：

引入 DPO（Direct Preference Optimization）以緩解監督微調可能造成的「佈局僵硬複製」並提升自然度與多樣性。
同步釋出 IMIG-100K 資料集，主打包含詳細佈局與身分標註、並具不同難度層級的大規模多實例合成資料。

實驗結果方面，文中報告 ContextGen 在兩個維度的表現：

佈局精度：在 COCO-MIG 基準上，空間準確性（mIoU）提升 +5.9%。
身分保持：在 LAMICBench++ 的身分保持測試中，身分保真度（IDS）在較多主體情境下可比肩或超越 GPT-4o 與 Nano-Banana 等閉源系統。

此外，團隊也提供簡易前端介面，支援上傳參考圖、設計佈局以進行多實例客製化生成。文章同時給出資源連結：論文（arXiv）與程式碼（GitHub）。

來源：https://36kr.com/p/3606326615393536