DeepSeek發佈視覺基元推理方法,提升多模態複雜推理能力

DeepSeek發佈視覺基元推理方法,提升多模態複雜推理能力

方法概述

DeepSeek提出「視覺基元推理」(Visual Primitives)方法,透過將點、框等基礎視覺單元嵌入推理鏈,解決多模態任務中的Reference Gap問題。

技術架構與優化

  • 該方法基於DeepSeek-V4-Flash架構。
  • 透過壓縮KV緩存,實現低圖像token消耗。

測試表現

在計數與空間推理基準測試中,其表現可比GPT-5.4、Claude-Sonnet-4.6及Gemini-3-Flash(僅限部分維度)。

未來計畫

團隊表示未來將公開部分基準與數據,模型權重將整合後發布。

來源:https://www.panewslab.com/zh-hant/articles/019dde09-823c-70dc-8dba-ff16a8a6f891

返回頂端