文章指出,儘管多模態大語言模型(MLLM)在場景理解上已有進展,但在需要「心理模擬」的複雜空間推理任務(如視角變換後判斷遮擋物體位置)仍表現有限;主因在於既有方法多屬被動觀察,缺乏人類式的主動想像與動態更新內部表徵能力。
為改善上述限制,MBZUAI 與中山大學團隊提出 SpatialDreamer(以強化學習為核心的框架),透過「主動探索 × 視覺想像 × 證據融合」的閉環流程,讓模型能在內部三維環境中更目標導向地決定「去哪看、看什麼、如何推理」。
- 探索(Explore):根據當前場景推理出自我中心動作(例如前進 0.75 公尺、左轉 45 度)。
- 想像(Imagine):呼叫世界模型(如 SVC)生成執行動作後的新視角影像。
- 推理(Reason):整合累積的視覺證據,輸出最終答案。
針對長序列推理常見的獎勵稀疏問題,研究團隊提出 GeoPO 策略優化方法,結合樹狀採樣與幾何一致性約束,以提升訓練效率與收斂速度:
- 每步進行多分支動作採樣,支援回溯與多路徑探索。
- 設計任務級與步級的多層次獎勵,提供更細粒度的回饋。
- 加入幾何懲罰機制,對冗餘或衝突動作施加懲罰以鼓勵更有效率的軌跡。
此外,為了讓模型更好學到「思考→想像→回答」的模式,團隊也建置 SpatialDreamer-SFT 資料集,包含單輪推理資料與反思式推理資料;反思式推理以「錯誤注入→自我修正→重建推理鏈」方式構建。
實驗結果方面,SpatialDreamer 在多個空間推理基準上取得領先表現:
- SAT:在真實與合成影像上皆達到 SOTA,平均準確率分別為 93.9% 與 92.5%。
- MindCube-Tiny:整體準確率 84.9%,相較基線 Qwen2.5-VL-7B 提升超過 55%。
- VSI-Bench:在物體計數、相對方向、路徑規劃等任務整體領先,平均準確率 62.2%。
