AI有嘴了，OpenAI 連發三語音模型

OpenAI 發佈三款全新語音模型

美東時間3月20日，OpenAI發佈了三款全新語音模型，分別是自動語音識別模型（ASR）GPT-4o Transcribe 和 GPT-4o Mini Transcribe，以及語音合成模型（TTS）GPT-4o Mini TTS。這些模型旨在提升語音轉錄的準確性與語音生成的自然度。

新推出的GPT-4o Transcribe模型採用多樣化、高質量音頻數據集進行長時間訓練，能更好地捕獲語音細微差別，減少誤識別，大幅提升轉錄可靠性。

OpenAI 正在開發一款名為BiDi的雙向語音模型，目標是讓使用者與ChatGPT的對話不再顯得機械化。該模型能在對話過程中即時調整回應，即使被用戶打斷也能立即響應，使通話更自然順暢。

此次發佈標誌著AI語音技術進入“聲優”時代，不僅在會議、翻譯、客服等場景中具備應用潛力，也預示著人機交互將更加貼近真實自然的對話體驗。