小米開源覆蓋600多語言的語音克隆TTS模型OmniVoice
模型概要
小米AI實驗室推出多語言語音克隆TTS模型OmniVoice,採用單一雙向Transformer極簡架構,支持646種語言語音合成,在中英文場景的合成質量和推理速度優於主流模型。
訓練數據與技術特點
- 基於約58萬小時、50個開源數據集訓練,涵蓋廣泛語言環境。
- 針對低資源語種採用動態上採樣策略,提升語音相似度與可懂度。
- 在24種與102種語言測試中,語音相似度和可懂度超越多款商用系統,部分指標接近甚至優於真實語音。
功能特性
- 支持跨語言語音克隆、自定義音色、帶噪參考音頻適配。
- 具備副語言控制與發音糾錯功能,提升語音自然度。
部署與使用
OmniVoice的訓練與推理代碼及模型權重已開源至GitHub與Hugging Face平臺,支持快速部署與實際應用。
模型具備40倍實時速度,實時因子(RTF)低至0.025,意味著合成速度遠超實時需求,效率顯著提升,適用於長文本語音生成場景。
在Seed-TTS中文測試集上的WER(詞錯誤率)僅為0.84%,在多語言基準測試中達到SOTA水平。
技術來源與平臺
來源:https://www.panewslab.com/zh/articles/019e0200-0d52-7066-9be2-9692853ba6c1
