阿里千問全模態大模型Qwen3.5-Omni上線

阿里千問全模態大模型Qwen3.5-Omni上線

模型概要

阿里千問宣佈推出全模態大模型Qwen3.5-Omni,該系列包含Plus、Flash、Light三種尺寸的Instruct版本,支持長達256k的上下文長度。

多模態能力

Qwen3.5-Omni在海量文本、視覺及超過1億小時的音視頻數據上進行原生多模態預訓練,展現出卓越的全模態感知與生成能力。

模型支持超過10小時的音頻輸入及超過400秒的720P(1FPS)音視頻輸入,適用於長視頻分析、會議紀要、字幕生成、內容審核、音視頻交互等場景。

語言支持

相比Qwen3-Omni,Qwen3.5-Omni多語言能力顯著增強,支持113種語種和方言的語音識別,以及36種語種和方言的語音生成。

性能表現

在36項音頻及音視頻基準測試中,Qwen3.5-Omni表現優異,展現出在多模態理解與生成方面的領先優勢。

應用場景

  • 長視頻分析
  • 會議紀要生成
  • 字幕生成
  • 內容審核
  • 音視頻交互

Qwen3.5-Omni採用統一架構整合語言推理與視覺感知,在效果、成本與多模態理解深度上超越Qwen3-Max與Qwen3-VL,開啟多模態模型的新階段。

來源:https://www.panewslab.com/zh/articles/019d3efc-4897-77e9-b73a-a34d5e969f4e

返回頂端