DeepSeek V4 的五大關鍵信號

DeepSeek V4 的五大關鍵信號

1. 三種推理模式全面升級

在這次發布中,DeepSeek V4 系列的旗艦版 V4-Pro 與經濟型 V4-Flash 均支援三種推理模式:非思考模式(快速響應)、思考模式 – 高(顯式推理鏈)以及思考模式 – 極限(推至模型能力邊界)。這顯示 DeepSeek 在平衡速度與深度推理能力上的策略。

2. 百萬 Token 上下文能力突破

DeepSeek-V4 系列最大的突破在於原生支援 100 萬 token 的上下文窗口。這項技術突破使得模型能夠處理極長的文檔、代碼庫或對話歷史,大幅提升了在複雜任務中的應用潛力。

3. 架構優化與注意力機製革新

模型在架構設計上進行了深度優化,融合了壓縮稀疏注意力(Compressed Sparse Attention, CSA)與重度壓縮注意力機制。此外,殘差連接被替換為 Manifold-Constrained Hyper-Connections (mHC),旨在提升訓練效率與推理性能。

4. Engram 記憶架構引入

DeepSeek-V4 引入了 Engram 記憶架構,這是其核心技術亮點之一。該架構旨在解決靜態知識無需每次重新計算即可直接查表的問題,並可能為未來的 V5 版本引入查找式記憶系統奠定基礎。

5. 生產級代碼與智能體能力跨越

作為代碼/推理旗艦大模型,DeepSeek-V4 主打生產級代碼能力與超長上下文,並對標 GPT-4 與 Claude 3。模型在推理、智能體(Agent)等核心能力上實現了顯著跨越,被評價為開源模型中性能最接近閉源旗艦的代表。

來源:https://36kr.com/p/3780450463552771

返回頂端