VLM解幾何題總「翻車」?GEODPO從「看」入手:用結構化表示+DPO優化,讓模型先看懂再推理

VLM解幾何題總「翻車」?GEODPO從「看」入手:用結構化表示+DPO優化,讓模型先看懂再推理

問題背景

視覺語言模型(VLM)在處理幾何題時常出現錯誤,例如錯誤識別幾何基本元素(點、線、圓),或漏檢關鍵結構關係(如共線、垂直、相切等),導致推理失敗。

解決方案:GEODPO 方法

GEODPO(Geometry-Oriented DPO)提出從「看」入手的解決方案,透過結構化表示與DPO(Direct Preference Optimization)優化,讓模型先理解圖像中的幾何結構,再進行推理。

技術重點

  • 使用結構化表示將圖像中的幾何元素分解為點、線、圓等基本組成,提升模型對圖形的解析能力。
  • 結合DPO優化技術,透過偏好學習訓練模型對正確幾何關係的判斷能力。
  • 強調「先看懂」再推理的流程,避免模型直接跳過圖像內容進行錯誤推論。

應用與影響

該方法被提及於ICLR’26論文,並應用於處理非結構化圖像資訊,如圖形、手寫筆記等,提升大模型對視覺內容的理解與應用能力。

來源:https://eu.36kr.com/zh/p/3745344269893891

返回頂端