DeepSeek多模態技術範式公佈,以視覺原語思考
技術核心:以視覺原語思考
DeepSeek公佈了新的多模態技術範式,提出「以視覺原語思考」(Thinking with Visual Primitives)的創新框架。該框架將空間標記(如點與邊界框)提升為模型思維鏈中的「最小思考單元」,讓AI在推理時能「邊指邊想」。
解決關鍵問題:突破多模態模型的空間參照瓶頸
現有多模態大語言模型(MLLMs)雖能「看見」圖像,卻常無法正確理解圖像中的空間關係與指代問題,此問題被稱為「指代鴻溝」。DeepSeek提出的技術方案,針對此核心瓶頸進行突破,使模型在推理過程中能直接與圖像內容互動。
技術創新與應用
- 將視覺原語(如點、邊界框)作為最小思考單元,提升模型對空間結構的理解能力。
- 在推理過程中實時「指向」圖像中的特定區域,實現「看→想→指」的自然流程。
- 透過實測顯示,該方法在極度考驗空間定位的任務中表現優異,有效縮減了指代誤解。
技術背景與發展脈絡
此技術報告是DeepSeek在多模態模型領域的重要進展,不僅提出理論框架,也透過實測驗證其有效性。該研究被視為對當前多模態大模型發展的一次關鍵突破。
