Gemini Omni 多模態生成模型

Gemini Omni 多模態生成模型

概述

Google 在今年 I/O 期間發表了 Gemini Omni 多模態生成模型,由 DeepMind 執行長哈薩比斯(Demis Hassabis)親自宣佈。該模型能夠處理來自不同模態的資訊,包括圖片、視頻與文字,並能根據輸入內容生成相應的輸出。

技術特性

  • Gemini Omni 可透過接收圖片(如餅乾照片)生成文字食譜,並能根據文字指令產生圖像內容。
  • 該模型支援多模態輸入與輸出,例如同時處理文字、圖像與音訊,並能進行跨模態理解與生成。
  • Google 提供 Vertex AI 平臺中的 Gemini API,讓開發者可將文本、圖片與視頻等多模態內容作為提示,送入模型進行處理。

應用與發展

Google 推出的 Gemini Omni 模型被視為目前市面上最強大的多模態 AI 之一,打破了以往只能以文字下指令的限制,並透過大量資料訓練獲得強大的理解能力。

相關技術與應用也已延伸至多模態 RAG(檢索強化生成)系統,讓開發者能構建具備多模態功能的問答應用。

相關資訊

Google 亦在多個平臺與論文發表中提及 Gemini Omni,例如在 YouTube 與技術論壇中,有實測影片與技術分析顯示其在影片生成與跨模態互動上的表現。

多模態AI從多模態到全模態:AI 邁向理解世界的下一步OpenAI與谷歌多模態重磅更新利用Gemini Pro 構建具有多模態RAG 功能的問答應用最像電影裡的全能AI 助理?Google 推出多模態模型Gemini AI!設計多模態提示Gemini 1.5 vs GPT-4o 跨模態理解與生成能力實測【論文解讀】Qwen2.5-Omni:多模態大模型平民化的曙光?Qwen3-Omni:新一代原生全模態大模型!Gemini Omni悄悄測試!Google全新AI影片生成模型效果令人驚豔

來源:https://tw.news.yahoo.com/gemini-omni-%E5%9C%96-182912362.html

返回頂端