小米開源覆蓋600多語言的語音克隆TTS模型OmniVoice

小米開源覆蓋600多語言的語音克隆TTS模型OmniVoice

模型概要

小米AI實驗室推出多語言語音克隆TTS模型OmniVoice,採用單一雙向Transformer極簡架構,支持646種語言語音合成,在中英文場景的合成質量和推理速度優於主流模型。

訓練數據與技術特點

  • 基於約58萬小時、50個開源數據集訓練,涵蓋廣泛語言環境。
  • 針對低資源語種採用動態上採樣策略,提升語音相似度與可懂度。
  • 在24種與102種語言測試中,語音相似度和可懂度超越多款商用系統,部分指標接近甚至優於真實語音。

功能特性

  • 支持跨語言語音克隆、自定義音色、帶噪參考音頻適配。
  • 具備副語言控制與發音糾錯功能,提升語音自然度。

部署與使用

OmniVoice的訓練與推理代碼及模型權重已開源至GitHub與Hugging Face平臺,支持快速部署與實際應用。

模型具備40倍實時速度,實時因子(RTF)低至0.025,意味著合成速度遠超實時需求,效率顯著提升,適用於長文本語音生成場景。

在Seed-TTS中文測試集上的WER(詞錯誤率)僅為0.84%,在多語言基準測試中達到SOTA水平。

技術來源與平臺

GitHub – k2-fsa/OmniVoice

騰訊雲 – OmniVoice語音克隆模型介紹

知乎專欄 – OmniVoice完整使用指南

搜狐 – 小米開源OmniVoice語音克隆模型

YouTube – OmniVoice語音克隆技術解析

X平臺 – 小米開源OmniVoice模型發佈

SMZDM – OmniVoice模型技術細節

來源:https://www.panewslab.com/zh/articles/019e0200-0d52-7066-9be2-9692853ba6c1

返回頂端