VLM解幾何題總「翻車」？GEODPO從「看」入手：用結構化表示+DPO優化，讓模型先看懂再推理

問題背景

視覺語言模型（VLM）在處理幾何題時常出現錯誤，例如錯誤識別幾何基本元素（點、線、圓），或漏檢關鍵結構關係（如共線、垂直、相切等），導致推理失敗。

GEODPO（Geometry-Oriented DPO）提出從「看」入手的解決方案，透過結構化表示與DPO（Direct Preference Optimization）優化，讓模型先理解圖像中的幾何結構，再進行推理。

該方法被提及於ICLR’26論文，並應用於處理非結構化圖像資訊，如圖形、手寫筆記等，提升大模型對視覺內容的理解與應用能力。