文章指出,Google 最新釋出的 Gemini 3 Flash 在多項基準測試中出現「輕量版反超旗艦」的情況:不僅整體能力超越上一代 Gemini 2.5 Pro,在部分關鍵指標上甚至略勝自家 Gemini 3 Pro,引發外界對「帕累托前沿是否被反轉」的討論。
一、Flash 在核心評測上反超/逼近 Pro
- SWE-Bench Verified(軟體工程能力):Gemini 3 Flash 取得 78%,高於 Gemini 3 Pro 的 76.2%。
- AIME 2025(數學基準,結合程式碼執行):Flash 得分 99.7%,逼近滿分。
- Humanity’s Last Exam:在不使用工具情況下,Flash 得分 33.7%,與 Pro 的 37.5%接近,處於同一梯隊。
二、速度、成本與定價優勢
- 文章提到,Flash 的推理速度約為 Gemini 2.5 Pro 的 3 倍,且 Token 消耗量降低約 30%。
- 價格方面:輸入 0.50 美元/每 100 萬 Token、輸出 3 美元/每 100 萬 Token;雖略高於 Gemini 2.5 Flash(輸入 0.3、輸出 2.5 美元/每 100 萬 Token),但文章強調其性能與速度使其仍具吸引力。
三、Google 對「Pro 的角色」給出的策略解釋
針對「既然 Flash 已經很強,為何還需要 Pro」的疑問,文章引用 Gemini 團隊的公開對談內容指出:在理想分工下,Pro 的目標是以不計成本的方式探索智能上限;而 Flash 則透過蒸餾等方式承接能力,並針對延遲、成本與吞吐量做極致化最佳化。文中並引述觀點稱「Pro 的作用就是蒸餾 Flash」,甚至提出未來 Pro 可能更像是用來「生成高品質 Flash」的上游模型。
四、Scaling Law 未失效,但擴展重心正在演變
- 文章指出,團隊反駁「Scaling 結束論」,認為透過持續擴大規模仍能帶來顯著性能提升,並以「前方仍看不到牆」概括其判斷。
- 同時也提到,單靠預訓練堆疊參數的路徑正在逼近極限,未來擴展重點可能轉向推理側擴展(Test-time Compute)。
- 多位負責人共同認為,後訓練(Post-training)仍是最值得開發的增長空間,尤其在開放式任務上仍有可觀提升幅度。
五、為何 Flash 能「反殺」:不只蒸餾,還結合強化學習
文章引述 Google DeepMind 研究員 Ankesh Anand 的說法稱,Flash 並非僅是 Pro 的簡單蒸餾版本,還整合了大量最新的 Agentic RL(代理式強化學習)成果;這也被用來說明「提升能力不必然只能靠堆疊參數」,小模型也可能在特定關鍵領域擊敗更大的旗艦模型。
