倒反天罡，Gemini Flash 表現超越 Pro，「帕累托前沿已經反轉了」

文章指出，Google 最新釋出的 Gemini 3 Flash 在多項基準測試中出現「輕量版反超旗艦」的情況：不僅整體能力超越上一代 Gemini 2.5 Pro，在部分關鍵指標上甚至略勝自家 Gemini 3 Pro，引發外界對「帕累托前沿是否被反轉」的討論。

一、Flash 在核心評測上反超／逼近 Pro

SWE-Bench Verified（軟體工程能力）：Gemini 3 Flash 取得 78%，高於 Gemini 3 Pro 的 76.2%。
AIME 2025（數學基準，結合程式碼執行）：Flash 得分 99.7%，逼近滿分。
Humanity’s Last Exam：在不使用工具情況下，Flash 得分 33.7%，與 Pro 的 37.5%接近，處於同一梯隊。

二、速度、成本與定價優勢

文章提到，Flash 的推理速度約為 Gemini 2.5 Pro 的 3 倍，且 Token 消耗量降低約 30%。
價格方面：輸入 0.50 美元／每 100 萬 Token、輸出 3 美元／每 100 萬 Token；雖略高於 Gemini 2.5 Flash（輸入 0.3、輸出 2.5 美元／每 100 萬 Token），但文章強調其性能與速度使其仍具吸引力。

三、Google 對「Pro 的角色」給出的策略解釋

針對「既然 Flash 已經很強，為何還需要 Pro」的疑問，文章引用 Gemini 團隊的公開對談內容指出：在理想分工下，Pro 的目標是以不計成本的方式探索智能上限；而 Flash 則透過蒸餾等方式承接能力，並針對延遲、成本與吞吐量做極致化最佳化。文中並引述觀點稱「Pro 的作用就是蒸餾 Flash」，甚至提出未來 Pro 可能更像是用來「生成高品質 Flash」的上游模型。

四、Scaling Law 未失效，但擴展重心正在演變

文章指出，團隊反駁「Scaling 結束論」，認為透過持續擴大規模仍能帶來顯著性能提升，並以「前方仍看不到牆」概括其判斷。
同時也提到，單靠預訓練堆疊參數的路徑正在逼近極限，未來擴展重點可能轉向推理側擴展（Test-time Compute）。
多位負責人共同認為，後訓練（Post-training）仍是最值得開發的增長空間，尤其在開放式任務上仍有可觀提升幅度。

五、為何 Flash 能「反殺」：不只蒸餾，還結合強化學習

文章引述 Google DeepMind 研究員 Ankesh Anand 的說法稱，Flash 並非僅是 Pro 的簡單蒸餾版本，還整合了大量最新的 Agentic RL（代理式強化學習）成果；這也被用來說明「提升能力不必然只能靠堆疊參數」，小模型也可能在特定關鍵領域擊敗更大的旗艦模型。

來源：https://36kr.com/p/3606534975423749

倒反天罡，Gemini Flash 表現超越 Pro，「帕累托前沿已經反轉了」

訂閱電子報

Company

Categories

聯絡我們

相關文章

訂閱電子報

Company

Categories

聯絡我們