DeepSeek又拿第一，首創「因果流」視覺推理，超越Gemini

2026-01-28 03:02:46 / 1 閱讀所需時間

DeepSeek又拿第一，首創「因果流」視覺推理，超越Gemini

簡介

DeepSeek-OCR2已公開，引入「因果流」視覺編碼器，大幅改善對複雜文件的解析能力，並在實際生產環境中展現優越表現。

技術重點

DeepSeek-OCR2提出「視覺因果流」（visual causal flow）概念，透過可學習查詢對視覺token進行語義重排，更貼近人類閱讀邏輯。
該架構實作兩階段級聯的因果推理機制：首先由編碼器對視覺token進行語義重排，接著由LLM解碼器在有序序列上進行推理。
在使用約1120個視覺Token的情況下，DeepSeek-OCR2的文件解析編輯距離為0.100，優於Gemini-3 Pro的0.115。

應用與影響

此技術不僅在測試中表現優異，更被視為視覺編碼邏輯的重大進步，可能推動AI在實際商業場景中的應用，如文件自動處理與資料提取。

來源：https://36kr.com/p/3657566920811136