2B開源模型手機養蝦,谷歌Gemini 3技術下放:支持語音視頻多模態,全免費可商用

谷歌Gemini 3技術下放:支持語音視頻多模態,全免費可商用

Gemini 3 Pro 模型介紹

Google推出的Gemini 3 Pro模型,能夠利用其100萬token的上下文窗口,理解來自不同資訊來源(包括文本、音頻、圖片、視頻、PDF甚至整個代碼庫)的海量數據集與複雜問題。

多模態技術能力

Gemini 3模型具備頂尖的推理能力與多模態理解功能,能夠處理文本、圖片、視頻等多種內容,並支援企業級部署。

技術應用與發展

  • 在多模態領域,Gemini 3 Flash在視頻理解與複雜圖表分析上展現出顯著優勢,證明瞭谷歌內部「感知即推理」的能力已趨成熟。
  • 可讓使用者透過視頻分析,挑出動作問題並生成訓練建議,應用於運動或教學場景。
  • 支援多模態內容生成,如圖生代碼、自然語言生成代碼等,提升企業研發效率。

相關資源與連結

來源:https://36kr.com/p/3750362125468417

返回頂端