DeepSeek發佈視覺基元推理方法,提升多模態複雜推理能力
方法概述
DeepSeek提出「視覺基元推理」(Visual Primitives)方法,透過將點、框等基礎視覺單元嵌入推理鏈,解決多模態任務中的Reference Gap問題。
技術架構與優化
- 該方法基於DeepSeek-V4-Flash架構。
- 透過壓縮KV緩存,實現低圖像token消耗。
測試表現
在計數與空間推理基準測試中,其表現可比GPT-5.4、Claude-Sonnet-4.6及Gemini-3-Flash(僅限部分維度)。
未來計畫
團隊表示未來將公開部分基準與數據,模型權重將整合後發布。
來源:https://www.panewslab.com/zh-hant/articles/019dde09-823c-70dc-8dba-ff16a8a6f891
