Qwen3.5 还有高手，全模态大模型来了，实测很强|qwen|大模型|模态|翻译

兄弟们，Qwen3.5 系列我写过十几篇了，涉及简介、测评、本地部署、微调等等

本来以为可以收手了，没想到还有高手！

它就是全面超越 Gemini 3.1 Pro 的全模态大模型——Qwen3.5-Omni

简介

Qwen3.5-Omni 是 Qwen3-Omni 的全面进化版，真正把“看、听、说、想”放进同一套开源底座里的模型，在海量文本、视觉，以及超过 1 亿小时的音视频数据上进行原生多模态预训练，支持文本、图片、音频、音视频全模态理解与生成。

几个关键数字：

256k 超长上下文 ，可支持超过 10 小时 的音频理解
支持超过 400 秒的 720P 音视频 对话
113 种语种和方言 语音识别， 36 种语种和方言 语音生成
音频/音视频的理解、推理和交互任务上取得了 215 项 子任务 / Benchmark 的 SOTA

根据官方披露的数据，Qwen3.5-Omni-Plus 在通用音频理解、推理、识别、翻译、对话能力上全面超越了 Gemini 3.1 Pro，在多语言语音识别/生成上也显著优于 Gemini 3.1 Pro，215 项音频/音视频子任务达到 SOTA 成绩。

这次 Qwen3.5-Omni 分 Plus / Flash / Light 三档：

版本

定位

Plus

旗舰，音频/音视频理解 215 项 SOTA，对标顶级商业模型

Flash

平衡，速度与能力折中

Light

轻量，适合资源受限或高并发场景

API 接入分两种：离线 API（文件级批量处理）和实时 API（流式语音对话、实时交互），根据场景选就行。

实测 1、音频理解

输入音频让其转录成字幕，实测有些错别字，这点是任何模型都不可避免的，比如这个老张/老章。

我之前用剪映做字幕，那是相当难受，先语音识别，再导出字幕文件用本地编辑器打开（剪映自带的操作太难受了），逐个修改错别字。

有了 Qwen 3.5-Omni-Plus 我感觉完全可以这样：先用它录音转录成字幕，然后把口播稿给它，修复其中所有错别字，识别错误之处，然后给出的就是完美字幕文件了。

2、超长音频转录

Qwen 3.5-Omni-Plus超过 10 小时的音频输入，这有点太诱人了，又臭又长的会议录音有救了。但是网页端处理不了，好在阿里云百炼平台提供了 API，调用方式与之前一致。

我拿最近特别火的张小珺 7 小时马拉松对话做测试

用我的 B 站音、视频下载 skills 将其下载，抽取 MP3 音频

我写了一个脚本，用 Qwen3.5-Omni-Plus 将其完整，一口气把这个将近 7 个小时的 MP3 转成文字稿


# 代码太长了，仅展示一下提示词

 PROMPT = (
    "请将这段音频完整逐字转录为文字稿。要求：\n"
    "1. 保留所有对话内容，不要遗漏或概括\n"
    "2. 标注不同说话人（如 说话人A、说话人B）\n"
    "3. 保留口语化表达、语气词\n"
    "4. 如果有明显的话题转换，用空行分隔"
)

结果如下，整整 14 万字，如果加上一些提示词会更好，比如人名：

看简介，Qwen 3.5-Omni-Plus 支持端到端语音控制，模型可以像人一样遵循指令来对声音的大小/语速/情绪等自由调节；还支持音色克隆，可以上传自己的声音，定制 AI 的专属音色。这个我很有兴趣，大家看我的视频配音，其实用的就是我的音色克隆，本地跑有点慢，不太稳定，后面决定试试 Omni-Plus。

但是，我更加感兴趣的是它的原生联网搜索支持与工具调用能力，加上输出音频的音色支持，完全可以复刻出一个大模型支持的智能音箱了（Qwen 3.5-Omni 有实时版本，也支持联网搜索），事实上，我正在做这个，把我那台要退休的 M1 Macmini 改造成支持语音唤醒的智能音响，大家静待佳音。

实际测试，它真的相当可以

大家感受一下

而且还可以切换音色

4、语义打断，视频通话

传统语音助手有个经典问题：你还没说完，它就抢话了；或者背景有点噪音，它以为你在叫它。Qwen3.5-Omni 支持语义打断，自动识别turn-talking意图，模型可以精准判断什么时候该接话，什么只是用户无意识的附和、停顿或背景声音。

也支持视频通话，我的 macmini 没有摄像头，所以没有测试

整个活儿，鸡汤来了的视频，它是真实看懂了的，几个问题它都能精准找到答案

我确认了一下，看左下角时间轴，分秒不差

我还给了它我最近的一个视频让其总结

它对关键帧画面的理解很不错，而且对整理风格和内容也有总结：

这个题目之前我测试过几个号称支持图像输入的旗舰大模型，都失败了。

Qwen3.5-Omni-Plus 表现的确实像真实看过的样子

意外发现，它自带 OCR 能力也相当可以，比如我常需要的 latex 公式识别

它可以自动识别，并渲染

然后它的 OCR 能力不输专业 OCR 大模型，比如我这张测试专用图片

核心内容完成 get 到了，右下角那个表格也准确识别

这没什么好说的，应该是全模态大模型的基本功了，我试了一个之前 Gemini 中用过的提示词，Qwen3.5-Omni-Plus 表现也非常不错，细节很多，人物也很自然。

生图之后还支持局部修改，这种精准 PS 级别的操作，确实可以

提示词：把这个 PDF 完整解析成结构清晰的 markdown 文档，翻译成中文，doublecheck 翻译质量，不要总结，不要遗漏

意外的是，它出奇的快，几乎是我按下 Enter 之后立即便开始输出了

对比了原文，质量也没问题

官方提供两个正式渠道：

阿里云百炼 ：API 调用，离线 API 和实时 API 分别适合批量处理和流式交互场景
● 非实时：https://help.aliyun.com/zh/model-studio/qwen-omni
● 实时：https://help.aliyun.com/zh/model-studio/realtime
Qwen Chat ：网页/App 端直接对话，上手最快 https://chat.qwen.ai/

总结

Qwen3.5-Omni 给我的整体感觉是，野心很大，完成度也不低。它真正有意思的地方，在于把文本、图像、音频、视频、实时语音回复放进了同一个统一框架里，把多模态从"能看图"推进到了"能听音频、看视频、还能直接说话"，解决统一底座问题，工程上更省拼装成本。

大模型世界很缺"图像理解+音视频理解 + 语音输出"一体化底座，很多团队只能自己拼ASR、VLM、TTS、Agent；人机交互也正在从键盘窗口走向摄像头、麦克风、耳机、车机、眼镜，一个统一模型把交互层、理解层、生成层接起来，产品形态会快很多。

一旦跑顺，能做的事情太多了：私有化会议助手、本地视频问答、播客整理、素材打标、语音Agent、OCR + 多模态知识库……这类能力对播客摘要、音频检索、会议记录增强都有直接价值，很多人现在都盯着视频理解和实时助手，我反而觉得 audio caption这条线后面很可能会跑出不少特别实用的场景。

我判断，未来一两年 Omni 模型会成为很多设备助手和企业助手的默认底座，路线也很明确，后面会继续往低延迟、更轻量推进。真正爆发的场景大概率在车载、教育、客服、内容生产、个人知识管理这几类持续听、持续看、持续说的产品里。