梁文鋒署名新論文,DeepSeek V4架構首曝?直擊Transformer致命缺陷
DeepSeek提出全新mHC架構,解決Transformer記憶難題
深夜,梁文鋒署名的DeepSeek新論文發佈,提出名為mHC(流形約束超連接)的新網絡架構,旨在解決傳統Transformer在大規模模型訓練中的不穩定性問題,同時提升模型的記憶能力。
Engram模塊突破Transformer記憶瓶頸
該研究引入全新的Engram模塊,有效解決了Transformer架構中的記憶難題,使模型容量不再依賴於堆疊參數,大幅提升了訓練效率與穩定性。
技術細節與潛在缺陷
- mHC架構通過將傳統Transformer的單一殘差連接優化,引入流形約束機制,以增強模型對長期依賴關係的捕捉能力。
- 儘管mHC設計看似完美,但有分析指出其拆除了殘差連接中恆等映射的守恆特性,可能隱藏著能量守恆方面的致命缺陷。
多平臺報道與反響
該論文在36氪、新浪財經、知乎專欄及財經媒體等平臺廣泛報道,被視為DeepSeek在AI架構領域的重要突破,引發業界對下一代大模型設計的深度討論。
