Google公開原生多模態嵌入模型Gemini Embedding 2,支援跨媒介檢索

Google公開原生多模態嵌入模型Gemini Embedding 2,支援跨媒介檢索

模型功能與技術特色

Google於今(11)日宣佈,正式推出其首款原生多模態嵌入(multimodal embedding)模型「Gemini Embedding 2」,此模型能將文字、圖片、影片、音訊及PDF文件等多種媒介內容,映射到同一個向量空間,實現跨媒介語意檢索與比對。

支援的輸入格式與能力

  • 文字:支援最多8,192個輸入token的擴展上下文。
  • 圖片、影片、音訊:提供原生直接嵌入,無需轉錄或處理,大幅簡化AI複雜處理流程。
  • 文件:支援最多6頁PDF文件的處理。
  • 跨模態輸入:可同時傳入多種模態(如「圖像+文字描述」),讓模型能捕捉跨媒體的複雜語義關聯。

語系與應用範圍

Gemini Embedding 2支持超過100種語言的語義理解,並在文本、圖像及視頻任務的基準測試中超越現有主流模型,同時引入了此前嵌入模型所欠缺的語音處理能力。

服務與使用方式

該模型目前已透過Gemini API與Vertex AI以公開預覽形式提供,開發者可利用相同基礎模型處理跨媒介的檢索、分類與語意比對工作。

來源:https://www.ithome.com.tw/news/174373

返回頂端