Thinking Machines發表互動模型研究預覽,主打近即時語音與視訊互動
重點一:前OpenAI技術長Mira Murati創辦的Thinking Machines Lab推出研究預覽版「互動模型」
由前OpenAI技術長Mira Murati創辦的Thinking Machines Lab,於5月11日推出「互動模型」研究預覽版,主打多模態、近即時的人機協作,跳脫過去AI僅以輪流講話方式互動的限制。
重點二:採用原生多模態架構,實現全雙工音視訊對話
新模型採用「原生多模態」架構,不再依賴外部工具拼接語音與文本,能同時處理音訊與視訊輸入輸出,實現近乎即時的語音與視訊對話能力,並支持雙方自然地說話、聆聽與打斷。
重點三:模型可實現無縫對話管理與時間感知
該互動模型能進行無縫對話管理,並具備時間感知能力,可在對話中同時進行搜尋、呼叫工具或生成內容,大幅提升人與AI之間的互動自然度與實用性。
重點四:技術細節與未來展望
根據資料顯示,該模型以200毫秒的延遲完成語音與視訊處理,實現了極短延遲的即時反應。此技術被視為對人機互動體驗的重大革新,未來可能應用於多種場景,如虛擬助理、遠端醫療與教育等。
