谷歌Gemini 3技術下放:支持語音視頻多模態,全免費可商用
Gemini 3 Pro 模型介紹
Google推出的Gemini 3 Pro模型,能夠利用其100萬token的上下文窗口,理解來自不同資訊來源(包括文本、音頻、圖片、視頻、PDF甚至整個代碼庫)的海量數據集與複雜問題。
多模態技術能力
Gemini 3模型具備頂尖的推理能力與多模態理解功能,能夠處理文本、圖片、視頻等多種內容,並支援企業級部署。
技術應用與發展
- 在多模態領域,Gemini 3 Flash在視頻理解與複雜圖表分析上展現出顯著優勢,證明瞭谷歌內部「感知即推理」的能力已趨成熟。
- 可讓使用者透過視頻分析,挑出動作問題並生成訓練建議,應用於運動或教學場景。
- 支援多模態內容生成,如圖生代碼、自然語言生成代碼等,提升企業研發效率。
