DeepSeek新模型MODEL1代碼曝光,疑為全新架構
代碼首次出現於GitHub FlashMLA項目
據量子位報道,DeepSeek在GitHub更新的FlashMLA代碼中首次出現“MODEL1”名稱,覆蓋114個文件中28處提及,且與現有版本V32(DeepSeek-V3.2)並列,暗示MODEL1為下一代新架構模型。
技術優化重點
- KV緩存佈局:新模型在鍵值(KV)緩存佈局方面進行了優化,提升推理效率。
- 稀疏性處理:改進稀疏性處理機制,降低計算資源消耗。
- FP8解碼:採用FP8數據格式解碼,提升運算效率與模型性能。
市場推測與發佈時間
市場普遍推測“MODEL1”可能對應新架構或下一代旗艦模型,也有人認為其可能代表一個完全獨立於V系列的新模型。
關於發佈時間,業內存在“春節前後正式發佈”的推測。
相關背景與關聯技術
結合近期公開的mHC殘差連接機制與Engram記憶模塊,MODEL1有望整合多項自研創新,成為DeepSeek技術演進的重要里程碑。
來源:https://www.panewslab.com/zh/articles/d3887d2f-660a-4879-aa3d-489384eb10c3
