Google的Gemini Omni將圖片、音訊與文字轉化為影片——這只是開始

Google的Gemini Omni將圖片、音訊與文字轉化為影片——這只是開始

什麼是Google Gemini Omni?

Google Gemini Omni是一種多模態人工智慧模型,能夠結合文字、圖片、音訊與影片的生成與編輯,透過簡單對話即可創造與修改影片。此模型被視為Google在人工智慧領域的重大進展,特別是其能跨模態進行推理與產出內容。

主要功能與應用

  • 文字轉影片:使用者只需輸入簡單的文字描述,Gemini Omni即可生成高品質的八秒影片,並搭配聲音。
  • 圖片轉影片:將個人照片上傳後,透過對話告訴Gemini想要的影片風格,即可自動轉化為帶有聲音的短影片。
  • 音訊與影像整合:Gemini Omni能理解音訊內容,並結合圖片與文字,生成具備情境與動態的影片。

技術背景與發展進度

根據相關報導,Gemini Omni在Google I/O大會上首次公開,其技術核心為多模態人工智慧,能以每秒一幀的方式處理影片內容,並在每一幀中進行類似圖像的分析與生成,顯示其在影片生成上的高度細緻與穩定性。

雖然目前部分功能仍處於測試階段,且影片生成功能需搭配Google One AI Premium訂閱才能使用,但Google已透過Pixel設備與Gemini應用程式,讓用戶體驗到多模態內容創作的便利性。

來源與進一步資訊

什麼是Google Gemini Omni?多模態AI影片模型解析

來源:https://techcrunch.com/2026/05/19/googles-gemini-omni-turns-images-audio-and-text-into-video-and-thats-just-the-start/

返回頂端