Mistral發表Voxtral Transcribe 2系列模型,即時語音轉文字延遲可低於200毫秒

Mistral發表Voxtral Transcribe 2系列模型,即時語音轉文字延遲可低於200毫秒

即時語音轉文字模型Voxtral Realtime

法國人工智慧新創Mistral推出語音轉文字模型家族Voxtral Transcribe 2,鎖定會議逐字稿、客服通話與即時語音互動等需求。該系列新增即時模型Voxtral Realtime,官方表示轉錄延遲可設定到200毫秒以下,讓即時互動更貼近對話節奏。

批次模型Voxtral Mini Transcribe V2功能強化

在批次模型Voxtral Mini Transcribe V2中,加入了說話者分離與詞級時間戳記等能力,強化會議與多方通話整理需求,提升語音內容的結構化與可讀性。

技術與應用場景

  • 開發者可在反應速度與轉錄準確度之間取捨,以滿足不同應用場景需求。
  • 語音模型支援多語言,涵蓋超過90種語言,包含中文,並能克服口音、背景噪音及低品質音訊等挑戰。
  • Voxtral系列模型在語音理解領域取得顯著進展,結合先進的自動語音識別(ASR)與自然語言理解(NLU)能力。

該模型系列已開放給開發者使用,並支援在Amazon SageMaker等平臺進行部署,適用於語音串流場景。

來源:https://www.ithome.com.tw/news/173785

返回頂端