谷歌發佈Gemini 3.1 Flash-Lite,輸入價格為Pro的1/8,6項基準超GPT-5 mini和Claude 4.5 Haiku

谷歌發佈Gemini 3.1 Flash-Lite,輸入價格為Pro的1/8,6項基準超GPT-5 mini和Claude 4.5 Haiku

模型定位與架構

谷歌於3月4日發佈Gemini 3.1 Flash-Lite預覽版,定位為Gemini 3系列中速度最快、成本最低的模型。該模型基於Gemini 3 Pro架構,採用混合專家(MoE)設計,僅激活部分參數以降低推理成本。

API定價與性能表現

API定價為輸入$0.25/百萬token、輸出$1.50/百萬token,分別為Gemini 3.1 Pro($2/$18)的約1/8。

性能方面,相比Gemini 2.5 Flash,首個token延遲縮短2.5倍,輸出速度提升45%,達到每秒363 token。支持最大100萬token輸入和6.4萬token輸出,接受文本、圖片、音頻和視頻輸入。

基準測試結果

在11項內部基準測試中,Flash-Lite在6項上超過GPT-5 mini和Claude 4.5 Haiku,具體表現如下:

  • GPQA Diamond(博士級科學問答):達86.9%
  • MMMU-Pro(多模態推理):76.8%
  • LiveCodeBench(代碼生成):72.0%

開發者功能與訪問方式

該模型內置可調「思考級別」(thinking levels),開發者可在AI Studio和Vertex AI中控制模型推理深度,在高頻場景中平衡質量與成本。目前通過Gemini API(Google AI Studio)和Vertex AI提供預覽版訪問。

來源:https://m.theblockbeats.info/flash/334378

返回頂端