DeepSeek V4 的五大關鍵信號

1. 三種推理模式全面升級

在這次發布中，DeepSeek V4 系列的旗艦版 V4-Pro 與經濟型 V4-Flash 均支援三種推理模式：非思考模式（快速響應）、思考模式 – 高（顯式推理鏈）以及思考模式 – 極限（推至模型能力邊界）。這顯示 DeepSeek 在平衡速度與深度推理能力上的策略。

DeepSeek-V4 系列最大的突破在於原生支援 100 萬 token 的上下文窗口。這項技術突破使得模型能夠處理極長的文檔、代碼庫或對話歷史，大幅提升了在複雜任務中的應用潛力。

模型在架構設計上進行了深度優化，融合了壓縮稀疏注意力（Compressed Sparse Attention, CSA）與重度壓縮注意力機制。此外，殘差連接被替換為 Manifold-Constrained Hyper-Connections (mHC)，旨在提升訓練效率與推理性能。

DeepSeek-V4 引入了 Engram 記憶架構，這是其核心技術亮點之一。該架構旨在解決靜態知識無需每次重新計算即可直接查表的問題，並可能為未來的 V5 版本引入查找式記憶系統奠定基礎。

作為代碼/推理旗艦大模型，DeepSeek-V4 主打生產級代碼能力與超長上下文，並對標 GPT-4 與 Claude 3。模型在推理、智能體（Agent）等核心能力上實現了顯著跨越，被評價為開源模型中性能最接近閉源旗艦的代表。