Google的Gemini Omni將圖片、音訊與文字轉化為影片——這只是開始

什麼是Google Gemini Omni？

Google Gemini Omni是一種多模態人工智慧模型，能夠結合文字、圖片、音訊與影片的生成與編輯，透過簡單對話即可創造與修改影片。此模型被視為Google在人工智慧領域的重大進展，特別是其能跨模態進行推理與產出內容。

根據相關報導，Gemini Omni在Google I/O大會上首次公開，其技術核心為多模態人工智慧，能以每秒一幀的方式處理影片內容，並在每一幀中進行類似圖像的分析與生成，顯示其在影片生成上的高度細緻與穩定性。

雖然目前部分功能仍處於測試階段，且影片生成功能需搭配Google One AI Premium訂閱才能使用，但Google已透過Pixel設備與Gemini應用程式，讓用戶體驗到多模態內容創作的便利性。