Mistral AI開源文字轉語音模型Voxtral TTS

2026-03-27 16:11:30 / 1 閱讀所需時間

Mistral AI開源文字轉語音模型Voxtral TTS

模型簡介與技術特色

法國AI新創公司Mistral AI近日公開其首個文字轉語音（Text-to-Speech, TTS）模型Voxtral TTS，該模型為輕量級語音合成工具，可生成9種自然語音，支援英、法、德、西、荷等多種語言。

性能與應用場景

低延遲與高品質語音生成：僅需30億參數，即可模擬不同口音、情緒與語調，提供自然且人性化的語音輸出。
多語言支援：涵蓋英、法、德、西、荷等9種語言，適用於國際化語音應用。
長上下文處理能力：可處理長達30分鐘的語音內容，適合會議記錄、播客或長篇對話場景。
語義理解與直接問答：不僅能轉換語音，還能對語音內容進行語義理解，並直接回答問題或執行指令，適用於智能客服、語音助手等應用。

與其他模型對比

Voxtral TTS在性能上超越現有開源語音轉文字模型如Whisper large-v3，並在語音合成與語義理解方面表現優異，被視為OpenAI Whisper等工具的強勁競爭對手。

該模型系列包含Voxtral Mini（3B參數）與Voxtral Small（24B參數）兩個版本，提供不同規模與效能的選擇，滿足企業不同級別的應用需求。

來源：https://www.ithome.com.tw/news/174721