谷歌發佈Gemini 3.1 Flash-Lite，輸入價格為Pro的1/8，6項基準超GPT-5 mini和Claude 4.5 Haiku

模型定位與架構

谷歌於3月4日發佈Gemini 3.1 Flash-Lite預覽版，定位為Gemini 3系列中速度最快、成本最低的模型。該模型基於Gemini 3 Pro架構，採用混合專家（MoE）設計，僅激活部分參數以降低推理成本。

API定價為輸入$0.25/百萬token、輸出$1.50/百萬token，分別為Gemini 3.1 Pro（$2/$18）的約1/8。

性能方面，相比Gemini 2.5 Flash，首個token延遲縮短2.5倍，輸出速度提升45%，達到每秒363 token。支持最大100萬token輸入和6.4萬token輸出，接受文本、圖片、音頻和視頻輸入。

在11項內部基準測試中，Flash-Lite在6項上超過GPT-5 mini和Claude 4.5 Haiku，具體表現如下：

該模型內置可調「思考級別」（thinking levels），開發者可在AI Studio和Vertex AI中控制模型推理深度，在高頻場景中平衡質量與成本。目前通過Gemini API（Google AI Studio）和Vertex AI提供預覽版訪問。