微軟擴大MAI模型版圖,補齊語音與影像能力
微軟推出三款自研AI模型
微軟週三(4月2日)於官方部落格宣佈,在Microsoft Foundry推出三款自研AI模型,包括語音辨識模型MAI-Transcribe-1、語音生成模型MAI-Voice-1,以及文字生成圖片模型MAI-Image-2,顯示其正擴大MAI模型版圖,補齊語音與影像能力,邁向多模態AI佈局。
模型整合至微軟產品體系
這三款模型目前已整合至微軟自家產品體系,包括Copilot、Bing與PowerPoint,並透過Azure Speech與Foundry平臺對外開放,讓開發者可建置語音互動、內容生成與影像創作等功能。
技術細節與應用前景
- MAI-Transcribe-1:被稱為全球最精確的文字轉寫模型,於25種語言上的平均詞錯誤率(WER)僅為3.9%,是目前全球精度最高的語音辨識模型之一。
- MAI-Voice-1:語音生成引擎,可實現自然語音輸出,應用於語音助手與互動式內容生成。
- MAI-Image-2:圖像生成模型,不僅畫風逼真,還能精準呈現文字內容,已逐步整合至Copilot與Bing影像建立者(Bing Image Creator)的底層架構中。
產業影響與未來發展
微軟自研AI模型的推出,不僅擺脫對OpenAI的依賴,也顯示其在基礎AI領域的技術實力。MAI系列模型的發展,預示著生成式AI將進一步深化應用,並可能引發產業競爭與技術演進。
