複雜空間推理新 SOTA，效能提升 55%，中山大學新作 SpatialDreamer

2025-12-22 18:16:20 / 1 閱讀所需時間

文章指出，儘管多模態大語言模型（MLLM）在場景理解上已有進展，但在需要「心理模擬」的複雜空間推理任務（如視角變換後判斷遮擋物體位置）仍表現有限；主因在於既有方法多屬被動觀察，缺乏人類式的主動想像與動態更新內部表徵能力。

為改善上述限制，MBZUAI 與中山大學團隊提出 SpatialDreamer（以強化學習為核心的框架），透過「主動探索 × 視覺想像 × 證據融合」的閉環流程，讓模型能在內部三維環境中更目標導向地決定「去哪看、看什麼、如何推理」。

探索（Explore）：根據當前場景推理出自我中心動作（例如前進 0.75 公尺、左轉 45 度）。
想像（Imagine）：呼叫世界模型（如 SVC）生成執行動作後的新視角影像。
推理（Reason）：整合累積的視覺證據，輸出最終答案。

針對長序列推理常見的獎勵稀疏問題，研究團隊提出 GeoPO 策略優化方法，結合樹狀採樣與幾何一致性約束，以提升訓練效率與收斂速度：

每步進行多分支動作採樣，支援回溯與多路徑探索。
設計任務級與步級的多層次獎勵，提供更細粒度的回饋。
加入幾何懲罰機制，對冗餘或衝突動作施加懲罰以鼓勵更有效率的軌跡。

此外，為了讓模型更好學到「思考→想像→回答」的模式，團隊也建置 SpatialDreamer-SFT 資料集，包含單輪推理資料與反思式推理資料；反思式推理以「錯誤注入→自我修正→重建推理鏈」方式構建。

實驗結果方面，SpatialDreamer 在多個空間推理基準上取得領先表現：

SAT：在真實與合成影像上皆達到 SOTA，平均準確率分別為 93.9% 與 92.5%。
MindCube-Tiny：整體準確率 84.9%，相較基線 Qwen2.5-VL-7B 提升超過 55%。
VSI-Bench：在物體計數、相對方向、路徑規劃等任務整體領先，平均準確率 62.2%。

論文：https://arxiv.org/pdf/2512.07733

來源：https://36kr.com/p/3606534796969223。