小米萬億模型全面開源:MIT 協議、1M 上下文,但還是打不過 DeepSeek

小米萬億模型全面開源:MIT 協議、1M 上下文,但還是打不過 DeepSeek

模型開源背景與授權

小米近日開源了 MiMo-V2.5 和 MiMo-V2.5-Pro 兩款大模型,採用寬鬆且對企業友好的 MIT License,使模型可被廣泛應用於商業環境中。用戶可依需求修改模型,並在本地或虛擬私有雲環境中進行運行。

模型技術細節

  • 基礎版經歷多階段數據訓練,強化多模態感知底座。
  • Pro 版總規模突破萬億參數,並大幅精簡活躍層。
  • 系統引入局部滑動窗口與全局視線交錯的注意力機制,有效優化鍵值緩存。

訓練與優化流程

模型經過萬億 token 文本預訓練,奠定語言基礎;接著對齊自研音視頻編碼器,進行多模態預訓練,並將上下文擴展至 1M token;最終透過強化學習(RL)與多模態偏好優化(MOPD)進一步提升表現。

與 DeepSeek 的對比

儘管小米 MiMo-V2.5 系列在多項測評中表現亮眼,但整體實力仍難以與 DeepSeek 相抗衡。

來源:https://36kr.com/p/3786252739353606

返回頂端