微軟擴大MAI模型版圖，補齊語音與影像能力

三大自研AI模型正式推出

微軟週三（4月2日）於官方部落格宣佈，在Microsoft Foundry推出三款自研AI模型，包括語音辨識模型MAI-Transcribe-1、語音生成模型MAI-Voice-1，以及文字生成圖片模型MAI-Image-2，顯示其正擴大MAI模型版圖，補齊語音與影像能力，邁向多模態AI佈局。

這三款模型目前已整合至微軟自家產品體系，包括Copilot、Bing與PowerPoint，並透過Azure Speech與Foundry平臺對外開放，讓開發者可建置語音互動、內容生成與影像創作等功能。

微軟也表示，正逐步將MAI-Image-2整合至Copilot以及Bing影像建立者（Bing Image Creator）的底層架構中。待推送完成後，廣大的使用者就能在日常操作中直接體驗其強大功能。

該模型專為攝影師、設計師及視覺敘事者打造，顯著提升了照片的真實感與細節表現，並具備強大的場景構建能力，可呈現超現實概念與高細節構圖。

MAI-Voice-1主打語音生成效率，僅需一張GPU、不到一秒鐘就能產生一分鐘的音訊，表現出極高的運算效率與自然度，被認為是目前表現力最豐富、最自然的語音生成模型之一。

微軟已將這些模型納入產品整合階段，並規劃擴展至歐盟市場，持續推動AI技術在各領域的應用與普及。