DeepSeek發佈DeepSeek-OCR 2,AI能夠以與人類相同的邏輯順序”看”一張圖片

DeepSeek發佈DeepSeek-OCR 2,AI能夠以與人類相同的邏輯順序”看”一張圖片

模型核心技術與創新

DeepSeek發布全新DeepSeek-OCR 2模型,採用創新之DeepEncoder V2方法,讓AI能夠根據圖像的意義動態重排圖像各部分,不再只是機械地從左到右掃描。

人類視覺邏輯的模擬

此技術模擬了人類在觀看場景時所遵循的邏輯流程,使AI能以與人類相同的邏輯順序「看」圖片,進而提升對複雜圖像(如文件或圖表)的理解能力。

性能優勢與應用場景

  • 在處理佈局複雜的圖片時,表現優於傳統的視覺-語言模型。
  • 實現更智能、更具因果推理能力的視覺理解。
  • 適用於文件解析、圖表閱讀等需要語義理解的場景。

相關技術背景

該模型屬於多模態技術的一環,將圖像與語言映射至同一語義空間,使模型既能「看圖識字」,也能「看圖明意」。

來源:https://m.sohu.com/a/980550093_114984?scm=10001.325_13-325_13.0.0-0-0-0-0.5_1334

返回頂端