DeepSeek又拿第一,首創「因果流」視覺推理,超越Gemini
簡介
DeepSeek-OCR2已公開,引入「因果流」視覺編碼器,大幅改善對複雜文件的解析能力,並在實際生產環境中展現優越表現。
技術重點
- DeepSeek-OCR2提出「視覺因果流」(visual causal flow)概念,透過可學習查詢對視覺token進行語義重排,更貼近人類閱讀邏輯。
- 該架構實作兩階段級聯的因果推理機制:首先由編碼器對視覺token進行語義重排,接著由LLM解碼器在有序序列上進行推理。
- 在使用約1120個視覺Token的情況下,DeepSeek-OCR2的文件解析編輯距離為0.100,優於Gemini-3 Pro的0.115。
應用與影響
此技術不僅在測試中表現優異,更被視為視覺編碼邏輯的重大進步,可能推動AI在實際商業場景中的應用,如文件自動處理與資料提取。
