谷歌發佈Gemini 3.1 Flash-Lite,輸入價格為Pro的1/8,6項基準超GPT-5 mini和Claude 4.5 Haiku
模型定位與架構
谷歌於3月4日發佈Gemini 3.1 Flash-Lite預覽版,定位為Gemini 3系列中速度最快、成本最低的模型。該模型基於Gemini 3 Pro架構,採用混合專家(MoE)設計,僅激活部分參數以降低推理成本。
API定價與性能表現
API定價為輸入$0.25/百萬token、輸出$1.50/百萬token,分別為Gemini 3.1 Pro($2/$18)的約1/8。
性能方面,相比Gemini 2.5 Flash,首個token延遲縮短2.5倍,輸出速度提升45%,達到每秒363 token。支持最大100萬token輸入和6.4萬token輸出,接受文本、圖片、音頻和視頻輸入。
基準測試結果
在11項內部基準測試中,Flash-Lite在6項上超過GPT-5 mini和Claude 4.5 Haiku,具體表現如下:
- GPQA Diamond(博士級科學問答):達86.9%
- MMMU-Pro(多模態推理):76.8%
- LiveCodeBench(代碼生成):72.0%
開發者功能與訪問方式
該模型內置可調「思考級別」(thinking levels),開發者可在AI Studio和Vertex AI中控制模型推理深度,在高頻場景中平衡質量與成本。目前通過Gemini API(Google AI Studio)和Vertex AI提供預覽版訪問。
