DeepSeek發佈DeepSeek-OCR 2，AI能夠以與人類相同的邏輯順序”看”一張圖片

2026-01-27 14:01:26 / 1 閱讀所需時間

DeepSeek發佈DeepSeek-OCR 2，AI能夠以與人類相同的邏輯順序”看”一張圖片

模型核心技術與創新

DeepSeek發布全新DeepSeek-OCR 2模型，採用創新之DeepEncoder V2方法，讓AI能夠根據圖像的意義動態重排圖像各部分，不再只是機械地從左到右掃描。

人類視覺邏輯的模擬

此技術模擬了人類在觀看場景時所遵循的邏輯流程，使AI能以與人類相同的邏輯順序「看」圖片，進而提升對複雜圖像（如文件或圖表）的理解能力。

性能優勢與應用場景

在處理佈局複雜的圖片時，表現優於傳統的視覺-語言模型。
實現更智能、更具因果推理能力的視覺理解。
適用於文件解析、圖表閱讀等需要語義理解的場景。

相關技術背景

該模型屬於多模態技術的一環，將圖像與語言映射至同一語義空間，使模型既能「看圖識字」，也能「看圖明意」。

來源：https://m.sohu.com/a/980550093_114984?scm=10001.325_13-325_13.0.0-0-0-0-0.5_1334