Qwen發表Qwen3.5-Omni,支援最長10小時語音輸入
模型特色與功能
阿里千問團隊發表全模態大模型Qwen3.5-Omni,該模型支持超過10小時的語音輸入,並可處理超過400秒的720P(1 FPS)音視頻輸入。模型基於海量文本、視覺素材及超過1億小時的音視頻數據進行原生多模態預訓練,展現卓越的語音與多模態內容理解能力。
多模態與上下文能力
- 支援256K長上下文,適用於長篇文本與複雜對話情境。
- 原生支持WebSearch與複雜Function Call,不僅能進行對話,更能協助完成實際任務。
- 支援113種語言識別,涵蓋中文、英文、日韓、德法俄葡西義等主流語言及多種方言。
應用場景
Qwen3.5-Omni系列包含Plus、Flash、Light三種尺寸的Instruct版本,適用於長視頻分析、會議紀要、字幕生成、內容審核與音視頻互動等場景。
