DeepSeek 悄悄更新：Mega MoE、FP4 Indexer 來了

2026-05-12 02:36:28 / 1 閱讀所需時間

DeepSeek 悄悄更新：Mega MoE、FP4 Indexer 來了

DeepGEMM 推出重大更新

沉寂許久的 DeepSeek 再次發布新動態，其開源矩陣運算庫 DeepGEMM 於 4 月 16 日發起名為 “Public release 26/04” 的合併請求，正式引入 Mega MoE 與 FP4 Indexer 等新特性。

Mega MoE：優化計算流程

Mega MoE 的核心作用在於將原本支離破碎的一整套 MoE（混合專家模型）計算流程整合，一次性在 GPU 上完成運算。過去 MoE 架構類似於被拆分成多個工位的流水線，導致 token 處理過程頻繁停頓。Mega MoE 透過將通信隱藏在計算中，有效提升了 GPU 利用率，特別是在多卡與大規模 MoE 場景下，這種優化能顯著提升性能。

FP4 Indexer 與量化支援

此次更新還包含了 FP4 Indexer，專門用於 MQA logits，支援更大的 MTP（最大序列長度）。此外，DeepGEMM 還新增了 FP8 x FP4 GEMM、PDL 以及 DeepEPv2 MoE GEMM layout 等核心組件。這些技術細節與 DeepSeek V4 傳聞中的架構原語高度吻合，顯示 DeepSeek 正積極準備更大規模的模型部署。

Blackwell 硬體優化

針對 Blackwell 硬體平臺，DeepSeek 實施了專門的硬體級優化。由於新模型規模龐大，必須依賴 FP4 量化來實現高效推理，而 Mega MoE 與 FP4 Indexer 的結合，正是為了應對這一挑戰，確保在推理時能獲得顯著的速度提升（在特定場景下可提速 1.50 至 1.73 倍，甚至達 1.96 倍）。