阿里千問全模態大模型Qwen3.5-Omni上線

模型概要

阿里千問宣佈推出全模態大模型Qwen3.5-Omni，該系列包含Plus、Flash、Light三種尺寸的Instruct版本，支持長達256k的上下文長度。

Qwen3.5-Omni在海量文本、視覺及超過1億小時的音視頻數據上進行原生多模態預訓練，展現出卓越的全模態感知與生成能力。

模型支持超過10小時的音頻輸入及超過400秒的720P（1FPS）音視頻輸入，適用於長視頻分析、會議紀要、字幕生成、內容審核、音視頻交互等場景。

相比Qwen3-Omni，Qwen3.5-Omni多語言能力顯著增強，支持113種語種和方言的語音識別，以及36種語種和方言的語音生成。

在36項音頻及音視頻基準測試中，Qwen3.5-Omni表現優異，展現出在多模態理解與生成方面的領先優勢。

Qwen3.5-Omni採用統一架構整合語言推理與視覺感知，在效果、成本與多模態理解深度上超越Qwen3-Max與Qwen3-VL，開啟多模態模型的新階段。