Qwen發表Qwen3.5-Omni，支援最長10小時語音輸入

模型特色與功能

阿里千問團隊發表全模態大模型Qwen3.5-Omni，該模型支持超過10小時的語音輸入，並可處理超過400秒的720P（1 FPS）音視頻輸入。模型基於海量文本、視覺素材及超過1億小時的音視頻數據進行原生多模態預訓練，展現卓越的語音與多模態內容理解能力。

Qwen3.5-Omni系列包含Plus、Flash、Light三種尺寸的Instruct版本，適用於長視頻分析、會議紀要、字幕生成、內容審核與音視頻互動等場景。