微軟擴大MAI模型版圖,補齊語音與影像能力
三大自研AI模型正式推出
微軟週三(4月2日)於官方部落格宣佈,在Microsoft Foundry推出三款自研AI模型,包括語音辨識模型MAI-Transcribe-1、語音生成模型MAI-Voice-1,以及文字生成圖片模型MAI-Image-2,顯示其正擴大MAI模型版圖,補齊語音與影像能力,邁向多模態AI佈局。
模型整合至微軟產品體系
這三款模型目前已整合至微軟自家產品體系,包括Copilot、Bing與PowerPoint,並透過Azure Speech與Foundry平臺對外開放,讓開發者可建置語音互動、內容生成與影像創作等功能。
MAI-Image-2 生圖模型特色
微軟也表示,正逐步將MAI-Image-2整合至Copilot以及Bing影像建立者(Bing Image Creator)的底層架構中。待推送完成後,廣大的使用者就能在日常操作中直接體驗其強大功能。
該模型專為攝影師、設計師及視覺敘事者打造,顯著提升了照片的真實感與細節表現,並具備強大的場景構建能力,可呈現超現實概念與高細節構圖。
MAI-Voice-1 語音生成效能
MAI-Voice-1主打語音生成效率,僅需一張GPU、不到一秒鐘就能產生一分鐘的音訊,表現出極高的運算效率與自然度,被認為是目前表現力最豐富、最自然的語音生成模型之一。
未來發展方向
微軟已將這些模型納入產品整合階段,並規劃擴展至歐盟市場,持續推動AI技術在各領域的應用與普及。
