Gemini Omni 多模態生成模型

2026-05-20 03:11:51 / 1 閱讀所需時間

Gemini Omni 多模態生成模型

概述

Google 在今年 I/O 期間發表了 Gemini Omni 多模態生成模型，由 DeepMind 執行長哈薩比斯（Demis Hassabis）親自宣佈。該模型能夠處理來自不同模態的資訊，包括圖片、視頻與文字，並能根據輸入內容生成相應的輸出。

技術特性

Gemini Omni 可透過接收圖片（如餅乾照片）生成文字食譜，並能根據文字指令產生圖像內容。
該模型支援多模態輸入與輸出，例如同時處理文字、圖像與音訊，並能進行跨模態理解與生成。
Google 提供 Vertex AI 平臺中的 Gemini API，讓開發者可將文本、圖片與視頻等多模態內容作為提示，送入模型進行處理。

應用與發展

Google 推出的 Gemini Omni 模型被視為目前市面上最強大的多模態 AI 之一，打破了以往只能以文字下指令的限制，並透過大量資料訓練獲得強大的理解能力。

相關技術與應用也已延伸至多模態 RAG（檢索強化生成）系統，讓開發者能構建具備多模態功能的問答應用。

相關資訊

Google 亦在多個平臺與論文發表中提及 Gemini Omni，例如在 YouTube 與技術論壇中，有實測影片與技術分析顯示其在影片生成與跨模態互動上的表現。

多模態AI、從多模態到全模態：AI 邁向理解世界的下一步、OpenAI與谷歌多模態重磅更新、利用Gemini Pro 構建具有多模態RAG 功能的問答應用、最像電影裡的全能AI 助理？Google 推出多模態模型Gemini AI！、設計多模態提示、Gemini 1.5 vs GPT-4o 跨模態理解與生成能力實測、【論文解讀】Qwen2.5-Omni：多模態大模型平民化的曙光？、Qwen3-Omni：新一代原生全模態大模型！、Gemini Omni悄悄測試！Google全新AI影片生成模型效果令人驚豔

來源：https://tw.news.yahoo.com/gemini-omni-%E5%9C%96-182912362.html