Mistral發表Voxtral Transcribe 2系列模型,即時語音轉文字延遲可低於200毫秒
即時語音轉文字模型Voxtral Realtime
法國人工智慧新創Mistral推出語音轉文字模型家族Voxtral Transcribe 2,鎖定會議逐字稿、客服通話與即時語音互動等需求。該系列新增即時模型Voxtral Realtime,官方表示轉錄延遲可設定到200毫秒以下,讓即時互動更貼近對話節奏。
批次模型Voxtral Mini Transcribe V2功能強化
在批次模型Voxtral Mini Transcribe V2中,加入了說話者分離與詞級時間戳記等能力,強化會議與多方通話整理需求,提升語音內容的結構化與可讀性。
技術與應用場景
- 開發者可在反應速度與轉錄準確度之間取捨,以滿足不同應用場景需求。
- 語音模型支援多語言,涵蓋超過90種語言,包含中文,並能克服口音、背景噪音及低品質音訊等挑戰。
- Voxtral系列模型在語音理解領域取得顯著進展,結合先進的自動語音識別(ASR)與自然語言理解(NLU)能力。
該模型系列已開放給開發者使用,並支援在Amazon SageMaker等平臺進行部署,適用於語音串流場景。
