DeepSeek開源大模型記憶模塊,梁文鋒署名新論文,下一代稀疏模型提前劇透
研究核心:引入「條件記憶」模組
最新論文直接在Transformer架構中加入「條件記憶」(Conditional Memory),補上了原生缺乏的知識查找機制。該模組透過哈希查找與上下文感知門控機制,優化靜態知識檢索,有效減少計算浪費。
結論與展望:條件記憶為下一代稀疏模型關鍵
論文明確指出,將條件記憶視為下一代稀疏大模型不可或缺的建模原語。此技術被認為是DeepSeek V4研究路線圖的重要預示,顯示其在結構上實現「查—算分離」,提升知識調用與推理效能。
合作團隊與技術細節
該研究由梁文風與北京大學王選所趙東巖、張輝帥團隊合作完成。其提出的Engram架構,設計目標為將靜態模式儲存與動態計算過程分離,並透過可擴展的查找機制,實現高效能與低算力消耗的知識調用。
未來擴展空間
隨著Engram-40B模型展示持續性能提升,DeepSeek團隊認為記憶容量尚未飽和,未來擴展空間廣闊,預計將進一步推動大模型在推理與知識應用上的突破。
