Google的Gemini Omni將圖片、音訊與文字轉化為影片——這只是開始
什麼是Google Gemini Omni?
Google Gemini Omni是一種多模態人工智慧模型,能夠結合文字、圖片、音訊與影片的生成與編輯,透過簡單對話即可創造與修改影片。此模型被視為Google在人工智慧領域的重大進展,特別是其能跨模態進行推理與產出內容。
主要功能與應用
- 文字轉影片:使用者只需輸入簡單的文字描述,Gemini Omni即可生成高品質的八秒影片,並搭配聲音。
- 圖片轉影片:將個人照片上傳後,透過對話告訴Gemini想要的影片風格,即可自動轉化為帶有聲音的短影片。
- 音訊與影像整合:Gemini Omni能理解音訊內容,並結合圖片與文字,生成具備情境與動態的影片。
技術背景與發展進度
根據相關報導,Gemini Omni在Google I/O大會上首次公開,其技術核心為多模態人工智慧,能以每秒一幀的方式處理影片內容,並在每一幀中進行類似圖像的分析與生成,顯示其在影片生成上的高度細緻與穩定性。
雖然目前部分功能仍處於測試階段,且影片生成功能需搭配Google One AI Premium訂閱才能使用,但Google已透過Pixel設備與Gemini應用程式,讓用戶體驗到多模態內容創作的便利性。
