小米和MiniMax同時放大招,Agent定價戰正式開打

小米和MiniMax同時放大招,Agent定價戰正式開打

同一場考試,1/17 的學費

據 OpenRouter 和各公司官方定價頁數據,以 API 輸出價格(每百萬 tokens)計,MiniMax M2.7 是 1.2 美元,MiMo-V2-Pro 是 3 美元。作為參照,Claude Opus 4.6 的輸出價是 25 美元,GPT-5.2 是 14 美元,Claude Sonnet 4.6 是 15 美元。

價格差距是數量級的,但能力差距不是。在 SWE-bench Verified(當前衡量代碼工程能力最主流的 benchmark)上,MiMo-V2-Pro 拿到 78%,Sonnet 4.6 是 79.6%,差距不到兩個百分點。M2.7 的 SWE-Pro 成績為 56.22%,與 GPT-5.3-Codex 持平。在 VIBE-Pro(端到端項目交付能力)上,M2.7 拿到 55.6%,接近 Opus 4.6 的水平。

萬億參數 vs 自我進化

MiMo-V2-Pro 走的是「大力出奇跡」路線。據小米官方公告,V2-Pro 擁有超過 1 萬億總參數,激活參數 42B,支持 100 萬 tokens 的超長上下文。它的核心創新是 Hybrid Attention 混合注意力機制,將滑動窗口注意力(SWA)與全局注意力(GA)的比例調至 7:1——前代 V2-Flash 是 5:1。這套架構讓模型在處理長文檔、多工具並行調用的 Agent 場景時更穩定。在 PinchBench(Agent 工具調用能力評測)上,MiMo-V2-Pro 拿到 84%。

M2.7 走了一條完全不同的路。據 MiniMax 3 月 18 日發佈的官方技術博客,M2.7 的參數量未公開,但它展示了一種「自迭代進化」機制:模型自主運行 100 輪以上的優化循環,包括分析失敗軌跡、規劃修改、修改自身代碼架構、跑評估、再循環,最終在內部評估集上實現了 30% 的性能提升。在 MLE Bench Lite(機器學習競賽難度評測)的 22 道高難度題中,M2.7 拿下 9 金 5 銀 1 銅,平均獎牌率 66.6%。

從五個維度看,兩條路線的鋒芒朝向完全不同:MiMo-V2-Pro 在上下文長度和代碼工程維度上明顯佔優,M2.7 則在辦公自動化和自迭代能力上拉開距離。據 MiniMax 同篇技術博客,M2.7 在 GDPval-AA(辦公文檔處理評測)上拿到 ELO 1495,居開源模型首位,在覆蓋 40 多個複雜技能的 MM-Claw 測試中保持了 97% 的技能遵循率。

五個月四版本

據公開發布記錄,MiniMax 從 2025 年 10 月發佈 M2 到 2026 年 3 月發佈 M2.7,五個月內迭代了四個版本,平均每 49 天一個大版本。其中 M2.5 到 M2.7 的間隔只有約 30 天。

小米 MiMo 的節奏不同:2025 年 4 月發佈 MiMo-7B(7B 參數的開源推理模型),同年 12 月發佈 V2-Flash(309B 總參數),2026 年 3 月發佈 V2-Pro(1T 總參數)。每一代之間的參數規模跨越更大,但版本間隔也更長。

MiniMax 選擇了小步快跑,每次迭代幅度不大但頻率極高,M2.7 的自迭代機制本身就是為「持續進化」設計的。小米選擇了蓄力一擊,每個版本都是參數規模和架構的大幅躍遷。

匿名 8 天,登頂 OpenRouter

據 Reuters 報道,3 月 11 日,一個名為 Hunter Alpha 的匿名模型出現在全球最大 API 聚合平臺 OpenRouter 上。沒有品牌背書,沒有發佈會,沒有技術博客。它的 API 定價極低,性能卻出人意料地強。

社區開始猜測它的來歷。據 Republic World 和多家科技媒體報道,最主流的猜測是 DeepSeek V4,因為 MiMo 團隊負責人羅福莉此前曾在 DeepSeek 從事研究工作。調用量迅速攀升,匿名期內總調用量突破 1 萬億 tokens,登頂 OpenRouter 周榜第一。

3 月 19 日凌晨,小米揭榜:Hunter Alpha 就是 MiMo-V2-Pro。據 Reuters 同篇報道,揭榜後小米港股一度漲幅達 5.8%。

這是國產大模型第一次在全球平臺上以純盲測的方式證明自己。不靠品牌,不靠宣傳,用 8 天時間讓開發者用腳投票。

來源:https://m.theblockbeats.info/news/61632

返回頂端