阿里Fun-ASR1.5：语音识别终于不"装傻"了

Ping值焦虑

2026-04-20 14:43 ·北京

语音识别有个老毛病：你说方言它装听不懂，你中英混说它直接罢工。阿里通义实验室今天发布的Fun-ASR1.5，干脆把"预设语种"这个选项删了——30种语言、汉语七大方言，模型自己判断，听到什么识别什么。

一、MoE架构：让模型学会"分工摸鱼"

传统语音识别像让一个人同时学30门外语，Fun-ASR1.5的做法是雇30个专家各管一摊。MoE（混合专家）架构下，听到上海话只激活方言专家模块，切到英语就换英语专家上场。

这种"按需唤醒"机制，让模型在保持庞大知识库的同时，推理成本可控。训练阶段的分级数据策略更关键：先让模型学标准发音打基础，再投喂带口音、噪声的真实场景数据，最后专攻古诗词、方言这类"边角料"场景。

结果很直接：中文方言平均字错误率（CER）比上版本下降56.2%。

二、方言识别：从"能听懂"到"写对字"

语音识别有个隐藏痛点：听对了，写错了。

上海话"侬"、苏州话"倷"都指"你"，但通用模型常统一转写成"你"，方言的语义和文化信息直接丢失。Fun-ASR1.5基于数十万小时真实方言数据训练，能原汁原味保留这些特色词汇。

这对下游应用很重要。方言语音助手、地方戏曲数字化、非遗口述史存档，都需要准确的原始语料作为基础。模型输出的"侬"和"你"，在后续的自然语言处理环节完全是两条路径。

古诗词场景更极端。研究团队构建了从先秦到近代的语音-文本对齐语料库，涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作的真人诵读录音。内部评测中，古诗词字符级准确率达到97%。

这个垂直场景选得很刁钻——既要识别古汉语发音，又要理解平仄韵律的断句逻辑，传统模型基本放弃治疗。

三、后处理自动化：省掉最后一道人工

语音识别输出的是"语音转文字"，但用户要的是"可直接使用的文本"。这中间差着标点、数字规范化、口语化表达清理三道工序。

Fun-ASR1.5把这三步打包进模型：

• 语义标点：根据上下文自动插入逗号、句号、问号、感叹号
• 数字转换："三千五百六十二"→"3562"
• 日期标准化："二零二六年三月二十九号"→"2026年3月29日"
• 金额规整："五万八千块"→"58000元"
• 电话识别："幺三八零零幺三八零零零"→"13800138000"

这些功能单看都不难，但集成到端到端模型里，意味着会议纪要、新闻采访、法律笔录等场景可以大幅减少后期人工编辑。B端客户买单的意愿，往往取决于这最后一公里的成本。

四、Code-Switching： multilingual场景的硬骨头

跨语言切换（Code-Switching）是语音识别的地狱难度。新加坡华人对话中夹杂英语单词、海归中英文混说、跨境电商客服场景，都要求模型无需预设语种标签就能自动识别切换。

Fun-ASR1.5的解决方案是取消语种预设环节，让模型自己判断。这依赖MoE架构的动态路由能力，也依赖训练数据中刻意加入的大量混语样本。

技术层面，这解决了"先检测语种再调用对应模型"的流水线延迟问题；产品层面，它让语音交互的入口更自然——用户不需要先告诉系统"我要说英语了"。

五、落地路径：API优先，场景深耕

Fun-ASR1.5已在阿里云百炼平台上线API服务，魔搭社区提供直接体验。这种"双轨"发布策略很明确：百炼面向企业客户集成，魔搭面向开发者社区扩散。

教育、传媒、金融、科技、文化——官方列出的五个行业，恰好对应高频语音转写场景。教育领域的在线课程字幕生成、传媒行业的采访录音整理、金融领域的电话客服质检、文化领域的方言与古籍数字化，都是能直接算账的刚需。

语音识别的商业化瓶颈从来不是技术演示，而是特定场景下的错误率能否低到客户愿意付费。56.2%的CER下降和97%的古诗词准确率，是阿里拿给B端客户的两个关键数字。

模型现已开放调用，地址：阿里云百炼平台、魔搭社区。要验证效果，最直接的方式是扔一段带方言、带数字、带口语化的真实录音进去——看它能不能一次出稿，不用返工。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴