DeepSeek多模態技術範式公佈,以視覺原語思考

DeepSeek多模態技術範式公佈,以視覺原語思考

技術核心:以視覺原語思考

DeepSeek公佈了新的多模態技術範式,提出「以視覺原語思考」(Thinking with Visual Primitives)的創新框架。該框架將空間標記(如點與邊界框)提升為模型思維鏈中的「最小思考單元」,讓AI在推理時能「邊指邊想」。

解決關鍵問題:突破多模態模型的空間參照瓶頸

現有多模態大語言模型(MLLMs)雖能「看見」圖像,卻常無法正確理解圖像中的空間關係與指代問題,此問題被稱為「指代鴻溝」。DeepSeek提出的技術方案,針對此核心瓶頸進行突破,使模型在推理過程中能直接與圖像內容互動。

技術創新與應用

  • 將視覺原語(如點、邊界框)作為最小思考單元,提升模型對空間結構的理解能力。
  • 在推理過程中實時「指向」圖像中的特定區域,實現「看→想→指」的自然流程。
  • 透過實測顯示,該方法在極度考驗空間定位的任務中表現優異,有效縮減了指代誤解。

技術背景與發展脈絡

此技術報告是DeepSeek在多模態模型領域的重要進展,不僅提出理論框架,也透過實測驗證其有效性。該研究被視為對當前多模態大模型發展的一次關鍵突破。

來源:https://m.36kr.com/p/3789208597372165

返回頂端