OpenAI發布三款Realtime API語音模型,將GPT-5等級推理帶進即時語音互動
新語音模型介紹
OpenAI 在 Realtime API 中推出了三款新語音模型,分別是 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper,專為即時語音互動設計,支援對話、翻譯與語音轉錄功能。
GPT-Realtime-2:具備GPT-5等級推理能力
GPT-Realtime-2 是首款具備 GPT-5 等級推理能力的語音模型,專為實時互動打造。它能在對話過程中進行推理、理解使用者需求、保留前後脈絡,並在必要時調用工具完成任務,確保語音助理的對話自然流暢且具備情境意識。
應用場景與功能特色
- 支援低延遲、即時語音互動,實現從語音輸入到語音輸出的完整流程。
- 能處理使用者的中斷與更正,並根據當前情境進行適應性回應。
- 整合多語言支援與工具呼叫,提升應用場景的彈性與實用性。
未來發展方向
OpenAI 亦計劃推出更多進階功能,包括 MCP 伺服器支援、圖像輸入與 SIP 電話通話支援,進一步擴展語音互動的應用範疇與風格化介面。
