Google公開原生多模態嵌入模型Gemini Embedding 2，支援跨媒介檢索

模型功能與技術特色

Google於今（11）日宣佈，正式推出其首款原生多模態嵌入（multimodal embedding）模型「Gemini Embedding 2」，此模型能將文字、圖片、影片、音訊及PDF文件等多種媒介內容，映射到同一個向量空間，實現跨媒介語意檢索與比對。

Gemini Embedding 2支持超過100種語言的語義理解，並在文本、圖像及視頻任務的基準測試中超越現有主流模型，同時引入了此前嵌入模型所欠缺的語音處理能力。

該模型目前已透過Gemini API與Vertex AI以公開預覽形式提供，開發者可利用相同基礎模型處理跨媒介的檢索、分類與語意比對工作。