DeepSeek發佈DeepSeek-OCR 2,AI能夠以與人類相同的邏輯順序”看”一張圖片
模型核心技術與創新
DeepSeek發布全新DeepSeek-OCR 2模型,採用創新之DeepEncoder V2方法,讓AI能夠根據圖像的意義動態重排圖像各部分,不再只是機械地從左到右掃描。
人類視覺邏輯的模擬
此技術模擬了人類在觀看場景時所遵循的邏輯流程,使AI能以與人類相同的邏輯順序「看」圖片,進而提升對複雜圖像(如文件或圖表)的理解能力。
性能優勢與應用場景
- 在處理佈局複雜的圖片時,表現優於傳統的視覺-語言模型。
- 實現更智能、更具因果推理能力的視覺理解。
- 適用於文件解析、圖表閱讀等需要語義理解的場景。
相關技術背景
該模型屬於多模態技術的一環,將圖像與語言映射至同一語義空間,使模型既能「看圖識字」,也能「看圖明意」。
來源:https://m.sohu.com/a/980550093_114984?scm=10001.325_13-325_13.0.0-0-0-0-0.5_1334
