最近我在关注语音技术领域的进展,发现阿里云 Qwen 团队在 1 月 29 日开源了 Qwen3-ASR 系列模型。

打开网易新闻 查看精彩图片

作为一个长期关注 AI 基础设施的从业者,我认为这个发布值得认真说一说。

不是因为它又刷了什么榜单,而是因为它解决了一些实际问题——够稳定、能流式、多语言、还能唱歌识别。

这篇文章,我想不吹不黑,客观分析 Qwen3-ASRQwen3-ForcedAligner

Qwen3-ASR 是什么?

简单来说,Qwen3-ASR 是一套 语音识别模型 家族,支持 52 个语种与方言的语种识别与语音识别。整个系列包含两个核心模型:

模型

参数量

定位

Qwen3-ASR-1.7B

17 亿

追求极致识别精度的旗舰版

Qwen3-ASR-0.6B

6 亿

性能与效率的最佳平衡点

打开网易新闻 查看精彩图片

我发现,这两个模型的设计思路非常清晰:

1.7B 版本对标商业 API 的识别精度

0.6B 版本则瞄准生产环境的部署效率

部署方方面:普通电脑就能跑

我认为,如果你只是个人使用,门槛低到让你惊讶:

0.6B 版本: 只要 2GB 显存 就能跑起来。老掉牙的显卡(比如 GTX 1050)都能一战。

1.7B 版本:4GB 到 6GB 显存 是比较稳妥的配置。主流的 RTX 3060 或 4060 绰绰有余。

内存(RAM):我觉得 16GB 是标配,但如果你内存只有 8GB,其实也能跑,因为它模型文件本身就很小(1.7B 的模型文件也就 3GB 左右)。

技术架构:站在 Qwen3-Omni 的肩膀上

Qwen3-ASR 的核心架构由三部分组成:

  1. AuT 语音编码器:预训练的音频编码器,采用 12.5Hz 的 token 率(即每秒输出 12.5 个音频 token),支持 1 秒到 8 秒的动态注意力窗口
  2. Projector 投影层:连接音频编码器与语言模型
  3. Qwen3 语言模型:提供强大的语义理解能力

打开网易新闻 查看精彩图片

这个架构的关键在于 AuT 编码器的动态窗口机制。我发现,这使得 Qwen3-ASR 能够用同一套模型同时支持:

离线推理:一次性处理最长 20 分钟的音频

流式推理:2 秒分块实时转写

这种"一体两用"的设计,在实际部署中非常有价值——你不需要维护两套模型。

Qwen3-ForcedAligner-0.6B:重新定义时间戳精度

语音转写的时间戳标注一直是行业痛点,我发现这款非自回归(NAR)强制对齐模型给出了最优解。

它支持 11 种语言的文本 - 语音对齐,能为最长 5 分钟的语音生成字词级时间戳,平均时间戳误差(AAS)仅 42.9ms,远超 Nemo-Forced-Aligner、WhisperX 等主流模型。

什么是强制对齐?

强制对齐(Forced Alignment)是指:给定一段音频和对应的文本,精确标出每个词/字在音频中的起止时间。

这个能力在字幕生成、语音编辑、语音合成数据准备等场景中是刚需。

跑分解读:开源媲美商业闭源

先看下官方给出的跑分,然后解读下

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

最近我仔细研究了 Qwen3-ASR 的这几张跑分图,作为“参数党”,我真的被惊到了。跟你分享几个我最直观的发现看法,帮你快速吃透这两个模型。

我发现:它简直是语音界的“小钢炮”

我认为 Qwen3 最离谱的地方在于,它用 1.7B 这么小的体量,在准确率上竟然把 GPT-4o 和 Gemini 这种“大块头”给超了。尤其是英文识别,比 Whisper-large-v3 还要准。

它的“华语血脉”觉醒得很彻底。在粤语和各类方言测试中,它几乎是断层领先;最让我惊喜的是,它听带背景音乐的纯唱歌音频非常准,这点 Whisper 几乎做不到。

快到飞起: 看了推理数据,我觉得它对开发者太友好了。实时因子(RTF)低得惊人,处理一小时音频也就一两分钟的事,而且普通电脑就能跑。

⚠️ 但客观来说,我也发现了一些局限

广度稍逊:我认为它目前的强项还是中英和主流方言(约 52 种)。如果你要搞那种特别冷门的全球小语种,Whisper 的覆盖面(99+ 种)可能还是更稳一些。

0.6B 版本有“智商”门槛:我发现虽然 0.6B 版本最快,但在处理极端噪音和复杂方言时,性能比 1.7B 还是缩水了不少。如果追求极致准确,别在这个版本上省参数。

噪音依然是“天敌”: 虽然它比对手强,但遇到那种极端的工况噪音,错误率还是会飙升到 16% 左右。我觉得在极恶劣环境下,它还没到完美取代人工的地步。

一句话总结:我觉得Qwen3-ASR 是目前做中英翻译、方言识别和视频字幕“天花板” 选择。它不盲目追求大参数,而是把精度和速度做到了极致。

官方博客:

https://qwen.ai/blog?id=qwen3asr
开源地址:
https://github.com/QwenLM/Qwen3-ASR/tree/main