小米萬億模型全面開源:MIT 協議、1M 上下文,但還是打不過 DeepSeek
模型開源背景與授權
小米近日開源了 MiMo-V2.5 和 MiMo-V2.5-Pro 兩款大模型,採用寬鬆且對企業友好的 MIT License,使模型可被廣泛應用於商業環境中。用戶可依需求修改模型,並在本地或虛擬私有雲環境中進行運行。
模型技術細節
- 基礎版經歷多階段數據訓練,強化多模態感知底座。
- Pro 版總規模突破萬億參數,並大幅精簡活躍層。
- 系統引入局部滑動窗口與全局視線交錯的注意力機制,有效優化鍵值緩存。
訓練與優化流程
模型經過萬億 token 文本預訓練,奠定語言基礎;接著對齊自研音視頻編碼器,進行多模態預訓練,並將上下文擴展至 1M token;最終透過強化學習(RL)與多模態偏好優化(MOPD)進一步提升表現。
與 DeepSeek 的對比
儘管小米 MiMo-V2.5 系列在多項測評中表現亮眼,但整體實力仍難以與 DeepSeek 相抗衡。
