DeepSeek發佈視覺基元推理方法，提升多模態複雜推理能力

方法概述

DeepSeek提出「視覺基元推理」（Visual Primitives）方法，透過將點、框等基礎視覺單元嵌入推理鏈，解決多模態任務中的Reference Gap問題。

在計數與空間推理基準測試中，其表現可比GPT-5.4、Claude-Sonnet-4.6及Gemini-3-Flash（僅限部分維度）。

團隊表示未來將公開部分基準與數據，模型權重將整合後發布。