AI有嘴了,OpenAI 連發三語音模型

AI有嘴了,OpenAI 連發三語音模型

OpenAI 發佈三款全新語音模型

美東時間3月20日,OpenAI發佈了三款全新語音模型,分別是自動語音識別模型(ASR)GPT-4o Transcribe 和 GPT-4o Mini Transcribe,以及語音合成模型(TTS)GPT-4o Mini TTS。這些模型旨在提升語音轉錄的準確性與語音生成的自然度。

語音模型提升交互體驗

新推出的GPT-4o Transcribe模型採用多樣化、高質量音頻數據集進行長時間訓練,能更好地捕獲語音細微差別,減少誤識別,大幅提升轉錄可靠性。

研發雙向語音模型BiDi

OpenAI 正在開發一款名為BiDi的雙向語音模型,目標是讓使用者與ChatGPT的對話不再顯得機械化。該模型能在對話過程中即時調整回應,即使被用戶打斷也能立即響應,使通話更自然順暢。

技術突破與未來展望

此次發佈標誌著AI語音技術進入“聲優”時代,不僅在會議、翻譯、客服等場景中具備應用潛力,也預示著人機交互將更加貼近真實自然的對話體驗。

來源:https://36kr.com/p/3800101438993153

返回頂端