阿里发布Qwen3.5-Omni 多模态能力超越Gemini-3.1 Pro

CNMO科技

2026-03-31 10:05 ·北京

【CNMO科技消息】近日，阿里发布千问新一代全模态大模型Qwen3.5-Omni，在音视频理解、识别、交互等215项任务中取得SOTA（性能最佳），超越Gemini-3.1 Pro，成为目前全球最强的全模态大模型之一。它还拥有极强的音视频理解与实时交互能力，能够对音视频内容生成详细且可控的结构化描述，可识别多达113种语言和方言。

据CNMO了解，Qwen3.5-Omni采用混合注意力MoE架构，在海量文本、视觉以及超过1亿小时的音视频数据上进行了原生多模态预训练，可实现图片、视频、语音、文字等全模态内容的输入与输出。其在音视频理解、跨模态推理、Agent方面实现了性能飞跃，在音视频理解、语音识别、多语种翻译、对话等215项第三方性能测试任务中取得SOTA。比如，在聚焦视听交互能力的DailyOmni、QualcommInteractive、Omni Cloze等测试中，Qwen3.5-Omni得分大幅领先Gemini-3.1 Pro；在检测嘈杂环境抗干扰能力的WenetSpeech测试中，Qwen3.5-Omni错误率远低于Gemini，识别准确率极高；在考察多语言语音生成质量的Multi-Lingual (30lang) 测试中，Qwen3.5-Omni同样显著优于Gemini-2.5-Pro-TTS。