DeepSeek最新王炸模型:VLM架構重磅突破,AI像人一樣讀圖

DeepSeek最新王炸模型:VLM架構重磅突破,AI像人一樣讀圖

模型背景與技術演進

這一模型是對去年DeepSeek-OCR模型的升級,其採用的新型解碼器讓模型看圖、讀文件的順序更像人,而不是像機械的掃描儀。

核心架構創新

DeepSeek發佈全新DeepSeek-OCR 2模型,採用創新的DeepEncoder V2方法,讓AI能夠根據圖像的含義動態重排圖像的各個部分,而不再遵循固定的掃描路徑。

人類視覺邏輯的模擬

該架構打破了傳統模型按固定順序(從左上到右下)掃描圖像的限制,轉而模仿人類視覺的「因果流(Causal Flow)」邏輯,更接近人類的視覺編碼邏輯。

多模態整合能力

這一框架可用於集成額外文本、語音和視覺等多種模態,提升AI在複雜場景下的理解與響應能力。

市場影響與未來展望

市場認為這一進展可能重塑文檔處理、智能辦公等領域的技術格局,為多模態AI應用提供更自然、更高效的解決方案。

來源:https://m.36kr.com/p/3657314948211078

返回頂端