微軟擴大MAI模型版圖，補齊語音與影像能力

微軟推出三款自研AI模型

微軟週三（4月2日）於官方部落格宣佈，在Microsoft Foundry推出三款自研AI模型，包括語音辨識模型MAI-Transcribe-1、語音生成模型MAI-Voice-1，以及文字生成圖片模型MAI-Image-2，顯示其正擴大MAI模型版圖，補齊語音與影像能力，邁向多模態AI佈局。

這三款模型目前已整合至微軟自家產品體系，包括Copilot、Bing與PowerPoint，並透過Azure Speech與Foundry平臺對外開放，讓開發者可建置語音互動、內容生成與影像創作等功能。

MAI-Transcribe-1：被稱為全球最精確的文字轉寫模型，於25種語言上的平均詞錯誤率（WER）僅為3.9%，是目前全球精度最高的語音辨識模型之一。
MAI-Voice-1：語音生成引擎，可實現自然語音輸出，應用於語音助手與互動式內容生成。
MAI-Image-2：圖像生成模型，不僅畫風逼真，還能精準呈現文字內容，已逐步整合至Copilot與Bing影像建立者（Bing Image Creator）的底層架構中。

微軟自研AI模型的推出，不僅擺脫對OpenAI的依賴，也顯示其在基礎AI領域的技術實力。MAI系列模型的發展，預示著生成式AI將進一步深化應用，並可能引發產業競爭與技術演進。