兄弟们,Qwen3.5 系列我写过十几篇了,涉及简介、测评、本地部署、微调等等

打开网易新闻 查看精彩图片

本来以为可以收手了,没想到还有高手!

它就是全面超越 Gemini 3.1 Pro 的全模态大模型——Qwen3.5-Omni

简介

Qwen3.5-Omni 是 Qwen3-Omni 的全面进化版,真正把“看、听、说、想”放进同一套开源底座里的模型,在海量文本、视觉,以及超过 1 亿小时的音视频数据上进行原生多模态预训练,支持文本、图片、音频、音视 频全模态理解与生成。

几个关键数字:

  • 256k 超长上下文 ,可支持超过 10 小时 的音频理解

  • 支持超过 400 秒的 720P 音视频 对话

  • 113 种语种和方言 语音识别, 36 种语种和方言 语音生成

  • 音频/音视频的理解、推理和交互任务上取得了 215 项 子任务 / Benchmark 的 SOTA

根据官方披露的数据,Qwen3.5-Omni-Plus 在通用音频理解、推理、识别、翻译、对话能力上全面超越了 Gemini 3.1 Pro,在多语言语音识别/生成上也显著优于 Gemini 3.1 Pro,215 项音频/音视频子任务达到 SOTA 成绩。

打开网易新闻 查看精彩图片

这次 Qwen3.5-Omni 分 Plus / Flash / Light 三档:

版本

定位

Plus

旗舰,音频/音视频理解 215 项 SOTA,对标顶级商业模型

Flash

平衡,速度与能力折中

Light

轻量,适合资源受限或高并发场景

API 接入分两种:离线 API(文件级批量处理)和实时 API(流式语音对话、实时交互),根据场景选就行。

实测 1、音频理解

输入音频让其转录成字幕,实测有些错别字,这点是任何模型都不可避免的,比如这个老张/老章。

打开网易新闻 查看精彩图片

我之前用剪映做字幕,那是相当难受,先语音识别,再导出字幕文件用本地编辑器打开(剪映自带的操作太难受了),逐个修改错别字。

有了 Qwen 3.5-Omni-Plus 我感觉完全可以这样:先用它录音转录成字幕,然后把口播稿给它,修复其中所有错别字,识别错误之处,然后给出的就是完美字幕文件了。

2、超长音频转录

Qwen 3.5-Omni-Plus超过 10 小时的音频输入,这有点太诱人了,又臭又长的会议录音有救了。但是网页端处理不了,好在阿里云百炼平台提供了 API,调用方式与之前一致。

我拿最近特别火的张小珺 7 小时马拉松对话做测试

打开网易新闻 查看精彩图片

用我的 B 站音、视频下载 skills 将其下载,抽取 MP3 音频

打开网易新闻 查看精彩图片

我写了一个脚本,用 Qwen3.5-Omni-Plus 将其完整,一口气把这个将近 7 个小时的 MP3 转成文字稿


# 代码太长了,仅展示一下提示词

PROMPT = (
"请将这段音频完整逐字转录为文字稿。要求:\n"
"1. 保留所有对话内容,不要遗漏或概括\n"
"2. 标注不同说话人(如 说话人A、说话人B)\n"
"3. 保留口语化表达、语气词\n"
"4. 如果有明显的话题转换,用空行分隔"
)

结果如下,整整 14 万字,如果加上一些提示词会更好,比如人名:

 3、联网搜索+工具调用+可变音色音频输出
打开网易新闻 查看精彩图片
3、联网搜索+工具调用+可变音色音频输出

看简介,Qwen 3.5-Omni-Plus 支持端到端语音控制,模型可以像人一样遵循指令来对声音的大小/语速/情绪等自由调节;还支持音色克隆,可以上传自己的声音,定制 AI 的专属音色。这个我很有兴趣,大家看我的视频配音,其实用的就是我的音色克隆,本地跑有点慢,不太稳定,后面决定试试 Omni-Plus。

但是,我更加感兴趣的是它的原生联网搜索支持与工具调用能力,加上输出音频的音色支持,完全可以复刻出一个大模型支持的智能音箱了(Qwen 3.5-Omni 有实时版本,也支持联网搜索),事实上,我正在做这个,把我那台要退休的 M1 Macmini 改造成支持语音唤醒的智能音响,大家静待佳音。

实际测试,它真的相当可以

打开网易新闻 查看精彩图片

大家感受一下

而且还可以切换音色

4、语义打断,视频通话

传统语音助手有个经典问题:你还没说完,它就抢话了;或者背景有点噪音,它以为你在叫它。Qwen3.5-Omni 支持语义打断,自动识别turn-talking意图,模型可以精准判断什么时候该接话,什么只是用户无意识的附和、停顿或背景声音。

打开网易新闻 查看精彩图片

也支持视频通话,我的 macmini 没有摄像头,所以没有测试

 5、视频理解
打开网易新闻 查看精彩图片
5、视频理解

整个活儿,鸡汤来了的视频,它是真实看懂了的,几个问题它都能精准找到答案

打开网易新闻 查看精彩图片

我确认了一下,看左下角时间轴,分秒不差

打开网易新闻 查看精彩图片

我还给了它我最近的一个视频让其总结

打开网易新闻 查看精彩图片

它对关键帧画面的理解很不错,而且对整理风格和内容也有总结:

 6、图像理解
打开网易新闻 查看精彩图片
6、图像理解

这个题目之前我测试过几个号称支持图像输入的旗舰大模型,都失败了。

Qwen3.5-Omni-Plus 表现的确实像真实看过的样子

打开网易新闻 查看精彩图片

意外发现,它自带 OCR 能力也相当可以,比如我常需要的 latex 公式识别

打开网易新闻 查看精彩图片

它可以自动识别,并渲染

打开网易新闻 查看精彩图片

然后它的 OCR 能力不输专业 OCR 大模型,比如我这张测试专用图片

打开网易新闻 查看精彩图片

核心内容完成 get 到了,右下角那个表格也准确识别

 7、图片生成
打开网易新闻 查看精彩图片
7、图片生成

这没什么好说的,应该是全模态大模型的基本功了,我试了一个之前 Gemini 中用过的提示词,Qwen3.5-Omni-Plus 表现也非常不错,细节很多,人物也很自然。

生图之后还支持局部修改,这种精准 PS 级别的操作,确实可以

 8、文档解析
打开网易新闻 查看精彩图片
8、文档解析

提示词:把这个 PDF 完整解析成结构清晰的 markdown 文档,翻译成中文,doublecheck 翻译质量,不要总结,不要遗漏

意外的是,它出奇的快,几乎是我按下 Enter 之后立即便开始输出了

打开网易新闻 查看精彩图片

对比了原文,质量也没问题

 如何体验 Qwen3.5-Omni
打开网易新闻 查看精彩图片
如何体验 Qwen3.5-Omni

官方提供两个正式渠道:

  1. 阿里云百炼 :API 调用,离线 API 和实时 API 分别适合批量处理和流式交互场景

    ● 非实时:https://help.aliyun.com/zh/model-studio/qwen-omni

    ● 实时:https://help.aliyun.com/zh/model-studio/realtime

  2. Qwen Chat :网页/App 端直接对话,上手最快 https://chat.qwen.ai/

总结

Qwen3.5-Omni 给我的整体感觉是,野心很大,完成度也不低。它真正有意思的地方,在于把文本、图像、音频、视频、实时语音回复放进了同一个统一框架里,把多模态从"能看图"推进到了"能听音频、看视频、还能直接说话",解决统一底座问题,工程上更省拼装成本。

大模型世界很缺"图像理解+音视频理解 + 语音输出"一体化底座,很多团队只能自己拼ASR、VLM、TTS、Agent;人机交互也正在从键盘窗口走向摄像头、麦克风、耳机、车机、眼镜,一个统一模型把交互层、理解层、生成层接起来,产品形态会快很多。

一旦跑顺,能做的事情太多了:私有化会议助手、本地视频问答、播客整理、素材打标、语音Agent、OCR + 多模态知识库……这类能力对播客摘要、音频检索、会议记录增强都有直接价值,很多人现在都盯着视频理解和实时助手,我反而觉得 audio caption这条线后面很可能会跑出不少特别实用的场景。

我判断,未来一两年 Omni 模型会成为很多设备助手和企业助手的默认底座,路线也很明确,后面会继续往低延迟、更轻量推进。真正爆发的场景大概率在车载、教育、客服、内容生产、个人知识管理这几类持续听、持续看、持续说的产品里。