DeepSeek 悄悄更新:Mega MoE、FP4 Indexer 來了

DeepSeek 悄悄更新:Mega MoE、FP4 Indexer 來了

DeepGEMM 推出重大更新

沉寂許久的 DeepSeek 再次發布新動態,其開源矩陣運算庫 DeepGEMM 於 4 月 16 日發起名為 “Public release 26/04” 的合併請求,正式引入 Mega MoEFP4 Indexer 等新特性。

Mega MoE:優化計算流程

Mega MoE 的核心作用在於將原本支離破碎的一整套 MoE(混合專家模型)計算流程整合,一次性在 GPU 上完成運算。過去 MoE 架構類似於被拆分成多個工位的流水線,導致 token 處理過程頻繁停頓。Mega MoE 透過將通信隱藏在計算中,有效提升了 GPU 利用率,特別是在多卡與大規模 MoE 場景下,這種優化能顯著提升性能。

FP4 Indexer 與量化支援

此次更新還包含了 FP4 Indexer,專門用於 MQA logits,支援更大的 MTP(最大序列長度)。此外,DeepGEMM 還新增了 FP8 x FP4 GEMM、PDL 以及 DeepEPv2 MoE GEMM layout 等核心組件。這些技術細節與 DeepSeek V4 傳聞中的架構原語高度吻合,顯示 DeepSeek 正積極準備更大規模的模型部署。

Blackwell 硬體優化

針對 Blackwell 硬體平臺,DeepSeek 實施了專門的硬體級優化。由於新模型規模龐大,必須依賴 FP4 量化來實現高效推理,而 Mega MoE 與 FP4 Indexer 的結合,正是為了應對這一挑戰,確保在推理時能獲得顯著的速度提升(在特定場景下可提速 1.50 至 1.73 倍,甚至達 1.96 倍)。

返回頂端