倒反天罡,Gemini Flash 表現超越 Pro,「帕累托前沿已經反轉了」

文章指出,Google 最新釋出的 Gemini 3 Flash 在多項基準測試中出現「輕量版反超旗艦」的情況:不僅整體能力超越上一代 Gemini 2.5 Pro,在部分關鍵指標上甚至略勝自家 Gemini 3 Pro,引發外界對「帕累托前沿是否被反轉」的討論。

一、Flash 在核心評測上反超/逼近 Pro

  • SWE-Bench Verified(軟體工程能力):Gemini 3 Flash 取得 78%,高於 Gemini 3 Pro 的 76.2%
  • AIME 2025(數學基準,結合程式碼執行):Flash 得分 99.7%,逼近滿分。
  • Humanity’s Last Exam:在不使用工具情況下,Flash 得分 33.7%,與 Pro 的 37.5%接近,處於同一梯隊。

二、速度、成本與定價優勢

  • 文章提到,Flash 的推理速度約為 Gemini 2.5 Pro 的 3 倍,且 Token 消耗量降低約 30%
  • 價格方面:輸入 0.50 美元/每 100 萬 Token、輸出 3 美元/每 100 萬 Token;雖略高於 Gemini 2.5 Flash(輸入 0.3、輸出 2.5 美元/每 100 萬 Token),但文章強調其性能與速度使其仍具吸引力。

三、Google 對「Pro 的角色」給出的策略解釋

針對「既然 Flash 已經很強,為何還需要 Pro」的疑問,文章引用 Gemini 團隊的公開對談內容指出:在理想分工下,Pro 的目標是以不計成本的方式探索智能上限;而 Flash 則透過蒸餾等方式承接能力,並針對延遲、成本與吞吐量做極致化最佳化。文中並引述觀點稱「Pro 的作用就是蒸餾 Flash」,甚至提出未來 Pro 可能更像是用來「生成高品質 Flash」的上游模型。

四、Scaling Law 未失效,但擴展重心正在演變

  • 文章指出,團隊反駁「Scaling 結束論」,認為透過持續擴大規模仍能帶來顯著性能提升,並以「前方仍看不到牆」概括其判斷。
  • 同時也提到,單靠預訓練堆疊參數的路徑正在逼近極限,未來擴展重點可能轉向推理側擴展(Test-time Compute)
  • 多位負責人共同認為,後訓練(Post-training)仍是最值得開發的增長空間,尤其在開放式任務上仍有可觀提升幅度。

五、為何 Flash 能「反殺」:不只蒸餾,還結合強化學習

文章引述 Google DeepMind 研究員 Ankesh Anand 的說法稱,Flash 並非僅是 Pro 的簡單蒸餾版本,還整合了大量最新的 Agentic RL(代理式強化學習)成果;這也被用來說明「提升能力不必然只能靠堆疊參數」,小模型也可能在特定關鍵領域擊敗更大的旗艦模型。

來源:https://36kr.com/p/3606534975423749

返回頂端