DeepSeek開源大模型記憶模塊，梁文鋒署名新論文，下一代稀疏模型提前劇透

研究核心：引入「條件記憶」模組

最新論文直接在Transformer架構中加入「條件記憶」（Conditional Memory），補上了原生缺乏的知識查找機制。該模組透過哈希查找與上下文感知門控機制，優化靜態知識檢索，有效減少計算浪費。

論文明確指出，將條件記憶視為下一代稀疏大模型不可或缺的建模原語。此技術被認為是DeepSeek V4研究路線圖的重要預示，顯示其在結構上實現「查—算分離」，提升知識調用與推理效能。

該研究由梁文風與北京大學王選所趙東巖、張輝帥團隊合作完成。其提出的Engram架構，設計目標為將靜態模式儲存與動態計算過程分離，並透過可擴展的查找機制，實現高效能與低算力消耗的知識調用。

隨著Engram-40B模型展示持續性能提升，DeepSeek團隊認為記憶容量尚未飽和，未來擴展空間廣闊，預計將進一步推動大模型在推理與知識應用上的突破。