剛剛,梁文鋒署名開源「記憶」模組,DeepSeek V4更細節了
DeepSeek 提出條件記憶與 Engram 模組
針對當前大模型訓練中的記憶穩定性問題,DeepSeek 提出了條件記憶(conditional memory)機制,並透過引入一個新模組「Engram」來實現。此模組旨在提升模型在長序列任務中的記憶能力,並與 MoE 的條件計算形成補充。
相關技術架構與研究背景
該研究由 DeepSeek 創始人梁文鋒參與撰寫,提出名為「流形約束超連接」(mHC)的架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時提升模型的可擴展性,並降低訓練進階人工智能系統所需的算力與能源消耗。
技術影響與公開資訊
此項研究成果已於 2026 年 1 月發表,並在多個媒體平臺如 36氪、財經網、Yahoo 財經等報導。相關論文與技術細節也已公開,進一步推動 DeepSeek 在大模型領域的發展。
相關論文與技術細節可參考:https://www.21jingji.com/article/20260102/herald/1d237b95f93065283fdc71a893d0754c.html
