阿里千問全模態大模型Qwen3.5-Omni上線
模型概要
阿里千問宣佈推出全模態大模型Qwen3.5-Omni,該系列包含Plus、Flash、Light三種尺寸的Instruct版本,支持長達256k的上下文長度。
多模態能力
Qwen3.5-Omni在海量文本、視覺及超過1億小時的音視頻數據上進行原生多模態預訓練,展現出卓越的全模態感知與生成能力。
模型支持超過10小時的音頻輸入及超過400秒的720P(1FPS)音視頻輸入,適用於長視頻分析、會議紀要、字幕生成、內容審核、音視頻交互等場景。
語言支持
相比Qwen3-Omni,Qwen3.5-Omni多語言能力顯著增強,支持113種語種和方言的語音識別,以及36種語種和方言的語音生成。
性能表現
在36項音頻及音視頻基準測試中,Qwen3.5-Omni表現優異,展現出在多模態理解與生成方面的領先優勢。
應用場景
- 長視頻分析
- 會議紀要生成
- 字幕生成
- 內容審核
- 音視頻交互
Qwen3.5-Omni採用統一架構整合語言推理與視覺感知,在效果、成本與多模態理解深度上超越Qwen3-Max與Qwen3-VL,開啟多模態模型的新階段。
來源:https://www.panewslab.com/zh/articles/019d3efc-4897-77e9-b73a-a34d5e969f4e
