Google公開原生多模態嵌入模型Gemini Embedding 2,支援跨媒介檢索
模型功能與技術特色
Google於今(11)日宣佈,正式推出其首款原生多模態嵌入(multimodal embedding)模型「Gemini Embedding 2」,此模型能將文字、圖片、影片、音訊及PDF文件等多種媒介內容,映射到同一個向量空間,實現跨媒介語意檢索與比對。
支援的輸入格式與能力
- 文字:支援最多8,192個輸入token的擴展上下文。
- 圖片、影片、音訊:提供原生直接嵌入,無需轉錄或處理,大幅簡化AI複雜處理流程。
- 文件:支援最多6頁PDF文件的處理。
- 跨模態輸入:可同時傳入多種模態(如「圖像+文字描述」),讓模型能捕捉跨媒體的複雜語義關聯。
語系與應用範圍
Gemini Embedding 2支持超過100種語言的語義理解,並在文本、圖像及視頻任務的基準測試中超越現有主流模型,同時引入了此前嵌入模型所欠缺的語音處理能力。
服務與使用方式
該模型目前已透過Gemini API與Vertex AI以公開預覽形式提供,開發者可利用相同基礎模型處理跨媒介的檢索、分類與語意比對工作。
