DeepSeek新模型「MODEL1」曝光
事件背景
在DeepSeek-R1發佈一週年之際,新模型「MODEL1」的項目名在開源社區悄然出現。DeepSeek官方於GitHub更新了FlashMLA代碼庫,其中橫跨114個文件中有28處提及「MODEL1」,並明確與現有V32模型(即DeepSeek-V3.2)作為不同模型出現。
技術特徵
代碼中的具體差異體現在KV緩存佈局、稀疏性處理和FP8解碼等方面,在內存優化上有多處不同,顯示MODEL1很可能採用全新架構,具備更高效的推理能力。
社區推測
多位開發者與技術分析指出,MODEL1極有可能是DeepSeek下一代旗艦模型,其技術架構可能在2026年農曆新年期間正式發佈,預計將整合優化的殘差連接與內存管理機制。
資訊來源
BlockBeats 消息,並參考《科創板日報》、智東西、財聯社等媒體相關報道。
