AI 从来没有真正「听过」你说话｜Qwen3.5-Omni 评测|omni|模态|语音识别

阿里千问团队发布了 Qwen3.5-Omni 全模态模型。

我认为从 AI 产品设计的角度，它确实值得更高的讨论热度。

近几个月，大模型领域的注意力大多集中在 Vibe Coding 与 Agent 上。但全模态模型线也不断加速，3 月以来，小米发 MiMo-V2-Omni，美团发 LongCat-Next。

而作为国内 Omni 模型的主要开源贡献者，千问也在前两天发布了最新的 Qwen3.5-Omni。

聊全模态，先从 AI 语音通话聊起

不知道你是否还记得 ChatGPT 高级语音模式？

彼时，GPT 凭借随时可打断，真人音效的优势——挂着语音，开车聊、走路问，成了很多人日常使用 AI 的自然方式。（国内豆包也把语音通话做成了核心体验）

但体验不是一开始就如此自然。OpenAI 在发布 GPT-4o 时的原话是：

在 4o 之前，语音模式需要通过「你说话 → 语音识别转成文字 → 模型理解文字并生成回复 → 文字转语音念给你听」的旧管线
作为主要智能源的 AI，在旧管线中，并不能直接观察语气、说话者人数，也不能输出情感。

这也是大多数 AI 产品的语音交互的旧方案：

不难发现，管线的每一层都可能损耗信息：

语音识别（ASR）：语气、情绪、停顿节奏、声调变化、环境音、说话人特征全部丢失。你阴阳怪气说了一句话，转成文字后意思变得很平和，模型完全感知不到你的语气
级联错误：ASR 转录错了，后面所有环节跟着错。一个识别失误逐级放大，没有纠错机会
语音合成（TTS）：模型只能输出文字，不能输出语气。你所听到的语调，只是 TTS 从字面推断出来的语气

一个测试，用不同的语气、节奏，说「哎，好的，没问题」，拿同系列的 Qwen3.5 的非全模态模型与 Omni-Plus 全模态模型做直观的对比：

前者无法辨别语气，后者则能捕捉到说话人的心情与含义。

非全模态方案，声音抵达模型智能前，就损失了大量信息，这就是「模型从来没有听过你说话」。

全模态加速人 AI 交互的效率

语音通话的信息损耗，只是人 AI 交互的一种问题。

现实任务中，AI 还要处理图像、视频、音频的理解 or 输出。

每次中间环节转换，不仅丢失信息，还会大大降低人机交互的效率与准确性。

（比如部分模型依赖 OCR 识别照片内容后，才能交给 AI 推理，但无法理解照片内的文字笔锋、颜色深浅）

全模态模型要做的，是让模型直接听音频、看图像、看视频，并通过端到端输出语音、图像等模态，减少中间转换的损耗。（多模态在行业语境下，更侧重多模态理解，尤其指文本、图像理解）

例如，在 Qwen3.5-Omni 中，任何用户都可以对着 Excel 数据表，口述数据分析要求：

视频演示：对着数据表口述数据分析要求

AI 自动理解整个视频内的要求，进行指标计算：

并将结果保存到了新的 Sheet 中。

模型能端到端处理的模态越完善，AI 就越理解人的需求。人与 AI 的交互方式也越接近「让真实人类做事」的方式。

Qwen3.5-Omni，你所需知道的一切

话说回来，还是先速通 Qwen3.5-Omni 的发布信息。

Qwen3.5-Omni 是千问最新一代的全模态大模型，支持以下模态的端到端处理：

输入：文本、图片、音频、视频理解（视觉能力与 Qwen3.5-Plus 对齐）
输出：文本、音频

在模型规格方面：

三种尺寸：Plus、Flash、Light（线上暂无 light 版）
API 版本：分为 Offline、Realtime 两个版本。离线版支持长音视频文件处理，实时版可进行实时音视频通话
架构：Thinker-Talker 架构，均采用 Hybrid-Attention MoE
上下文：支持 256k 长上下文

核心能力提升明显，主打：

长音视频处理：目前在线 API 支持 3 小时音频、1 小时视频处理
语音输出：支持音色克隆，端到端情绪、音量、语速控制
多语种：113 种语言和方言语音识别，36 种语音生成
语义打断：区分「真实插话」与「附和 / 背景噪音」，不会被"嗯"一声或咳嗽误触发
实时工具调用：实时通话时，支持联网搜索 + Function Call，模型自判断是否触发工具

注：语种、部分参数 Plus 与 Flash 有一定差异

官方也给出了新模型与 Gemini 3.1 Pro 等海外顶级模型在音视频、图像理解、语音生成的榜单情况，得分靠前。

详情见

全模态，为什么值得更高的讨论度？

Omni 类模型，虽然还没大规模应用于 AI 产品，但真的挺好玩的。

我找了些使用案例与你分享，在这个过程中，可以多多关注对 AI 用法、产品设计的一些启发。

音视频实时通话：AI 产品的 Vibe 交互方式

AI时代的产品现在被分为 GUI 和 LUI 的两种模式。

GUI 依赖人学会使用按钮，框选与点击。

LUI 需要人用文本，相对准确地描述需求，等待 AI 回应。

那如果让 Omni 模型全程监控人在 AI 产品内的光标活动、说话声音呢？（当然简单一点，也可以是摄像头同时对着人和电脑屏幕）

⬇️

是不是就能更进一步降低 AI 产品的使用门槛，让更多不熟悉电脑操作、未经精准训练语言表达的用户，体验到 AI 时代的 Vibe 操作便利？

比如，随便写写画画、指指点点， Qwen3.5-omni-plus 更进一步拉低 AI Coding 的难度（左边是对着线框光标指点，右边是最终 Omni 的 Coding 效果。为了测试方便，采用了录屏；实际应用可以直接结合纸笔、手指指点来录像）

甚至扩大到更广泛的非技术 APP：比如前文的 Vibe Excel 操作，如果 Excel or 系统通用 Agent 支持观察应用内活动，，自然就能更加流畅（无脑）地调用 Agent 智能。

长音频处理：LifeLog 精细化识别（情绪、场景音）

然后是个人全天录音的识别，提取声音内容、建立个人日志。

前段时间买了大疆 mic3 ，打算用来记录个人的全天录音。早前设计了两套转录分析方案：

一套偏管线：Qwen3-ASR-Flash 转写 + pyannote 说话人分离 + 后置 LLM 分析
一套依赖海外全模态模型：Gemini 3 Flash 直接从录音原件总结当天日志

前者优势在于能够建立当天的文字记录，但无法识别声音情绪、背景信息，只能从语义进行推理。

后者能自然区分说话人，结合人声音调、环境背景推理更多 lifelog 信息。

恰好 Qwen3.5-Omni-Plus 模型发布，支持长音频识别，可分析音频内的声音细节与效果。

我给了一段 50 分钟的音频，是前两天在 GDPS 的 OPC 论坛上的实录：

Omni 模型根据录音中的主持人串词与嘉宾的发言，在 5 秒内就流式返回了当时的分享记录 ⬇️

特别的，还成功识别了过程中的人物语速、语调特征，更大程度地保留了 lifelog 信息。（实测对比。该任务表现中 Qwen 不弱于 Gemini ）

如果特化要求，细化语调情绪分析，甚至能做到「识别吐字、重音、音调走向」这种程度：

若要求 AI 进一步分析环境背景音：比如在这样 GDPS 这样的场子，就能依靠全模态模型，得到以下的结果。

PS：成功推测了出整体所处的环境空间特征。

多语种端到端语音：外语对练（多音色）

这个能力真的很好用。

Qwen3.5-Omni 既支持实时语音通话，又支持大量国外语言，还能端到端音频输出。

你可以在 Qwen Chat 的语音通话中进行体验：

这是我跟Qwen 的语音过程，测试了她在中英日德等多语种会话下的表现，语音切换自如，音色自然真实。

而且支持切换不同的音色（别的我也听不懂，但这英音是真英啊）：

每种音色也支持了多国语言，为出海产品提供了更多选择。

除了以上用法，还有一些能力没有展示，比如实时通话里自动触发的联网检索、音色克隆等。

总得来说，全模态模型发展至今，也是时候进入 AI 产品设计的考量了：

论设备，手机、车载、眼镜——这些设备的交互本来就不是纯文字的
论用户习惯，更多人并不擅长文本准确描述，更习惯口述+简单指点

当模型能直接处理语气、画面和环境，不需要先把用户的直觉反应“有损翻译”为文本，产品设计的空间就不一样了。

有了全模态模型的加持，人与 AI 的交互方式能更接近「让真实人类做事」的形式。

而兼具了全模态与 Agent Coding 能力的 Qwen3.5-Omni 是个开始，往后能做什么，越来越取决于产品侧的想象力。

如果想上手体验？

普通用户：请使用 Qwen Chat：https://chat.qwen.ai/

开发者：可通过阿里百炼 API 调用

【离线】https://help.aliyun.com/zh/model-studio/qwen-omni
【实时】https://help.aliyun.com/zh/model-studio/realtime

希望本文能对你有所启发，记得关注～

也感谢你的点赞与分享：)

AI 从来没有真正「听过」你说话｜Qwen3.5-Omni 评测

热搜

热门跟贴

热搜

热门跟贴

相关推荐

别急着教AI开车，先让它看懂世界

GPT-6，曝光了

靠7个员工和1只猫，年入2500万美元！这可能是AI时代最好的模板

逼AI当山顶洞人！Claude防话痨插件爆火，网友：受够了AI废话

2010美股闪崩预演! Claude黑进底层，谷歌预警: AI将血洗人类万亿财富

智能体上线就翻车？AWS 这款 “质检神器”，帮你把 Agent 稳稳送上生产线

中国AI Agent产业化参考范本：斑马口语攻克的四大技术难关

让多模态检索超越SOTA！ReCALL框架化解生成式与判别式的范式冲突

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

AI算力扩容的新瓶颈竟是铜缆，英伟达押注光互连

布加迪威航被拍出1305万元：无法上牌 不得上路行驶

刀片竖起来过安检机，安检机完全看不到刀片的图像，真的可以吗

陈光标卖劳斯莱斯捐了1000万元:张雪未来见面提车

给老婆放六年前的录音，她这次不装了，八百个心眼子！

高科技武器站，全功能智能操控

夫妻对话老公偷偷录音，这女的出轨了绝对的

毛新宇携家人到杨开慧烈士陵园祭扫

苹果首款折叠屏手机已在试产

徐州“公厕版瑞幸”火出圈，景区工作人员回应：曾是游客服务点而非公厕

堵！堵！堵！排队26公里

布加迪威航被拍出1305万元：无法上牌不得上路行驶