DeepSeek多模態技術範式公佈，以視覺原語思考

技術核心：以視覺原語思考

DeepSeek公佈了新的多模態技術範式，提出「以視覺原語思考」（Thinking with Visual Primitives）的創新框架。該框架將空間標記（如點與邊界框）提升為模型思維鏈中的「最小思考單元」，讓AI在推理時能「邊指邊想」。

現有多模態大語言模型（MLLMs）雖能「看見」圖像，卻常無法正確理解圖像中的空間關係與指代問題，此問題被稱為「指代鴻溝」。DeepSeek提出的技術方案，針對此核心瓶頸進行突破，使模型在推理過程中能直接與圖像內容互動。

此技術報告是DeepSeek在多模態模型領域的重要進展，不僅提出理論框架，也透過實測驗證其有效性。該研究被視為對當前多模態大模型發展的一次關鍵突破。