小米開源覆蓋600多語言的語音克隆TTS模型OmniVoice

2026-05-07 18:52:19 / 1 閱讀所需時間

小米開源覆蓋600多語言的語音克隆TTS模型OmniVoice

模型概要

小米AI實驗室推出多語言語音克隆TTS模型OmniVoice，採用單一雙向Transformer極簡架構，支持646種語言語音合成，在中英文場景的合成質量和推理速度優於主流模型。

訓練數據與技術特點

基於約58萬小時、50個開源數據集訓練，涵蓋廣泛語言環境。
針對低資源語種採用動態上採樣策略，提升語音相似度與可懂度。
在24種與102種語言測試中，語音相似度和可懂度超越多款商用系統，部分指標接近甚至優於真實語音。

功能特性

支持跨語言語音克隆、自定義音色、帶噪參考音頻適配。
具備副語言控制與發音糾錯功能，提升語音自然度。

部署與使用

OmniVoice的訓練與推理代碼及模型權重已開源至GitHub與Hugging Face平臺，支持快速部署與實際應用。

模型具備40倍實時速度，實時因子（RTF）低至0.025，意味著合成速度遠超實時需求，效率顯著提升，適用於長文本語音生成場景。

在Seed-TTS中文測試集上的WER（詞錯誤率）僅為0.84%，在多語言基準測試中達到SOTA水平。

技術來源與平臺

GitHub – k2-fsa/OmniVoice

騰訊雲 – OmniVoice語音克隆模型介紹

知乎專欄 – OmniVoice完整使用指南

搜狐 – 小米開源OmniVoice語音克隆模型

YouTube – OmniVoice語音克隆技術解析

X平臺 – 小米開源OmniVoice模型發佈

SMZDM – OmniVoice模型技術細節

來源：https://www.panewslab.com/zh/articles/019e0200-0d52-7066-9be2-9692853ba6c1