DeepSeek最新王炸模型：VLM架構重磅突破，AI像人一樣讀圖

模型背景與技術演進

這一模型是對去年DeepSeek-OCR模型的升級，其採用的新型解碼器讓模型看圖、讀文件的順序更像人，而不是像機械的掃描儀。

DeepSeek發佈全新DeepSeek-OCR 2模型，採用創新的DeepEncoder V2方法，讓AI能夠根據圖像的含義動態重排圖像的各個部分，而不再遵循固定的掃描路徑。

該架構打破了傳統模型按固定順序（從左上到右下）掃描圖像的限制，轉而模仿人類視覺的「因果流（Causal Flow）」邏輯，更接近人類的視覺編碼邏輯。

這一框架可用於集成額外文本、語音和視覺等多種模態，提升AI在複雜場景下的理解與響應能力。

市場認為這一進展可能重塑文檔處理、智能辦公等領域的技術格局，為多模態AI應用提供更自然、更高效的解決方案。