语音识别有个老毛病:你说方言它装听不懂,你中英混说它直接罢工。阿里通义实验室今天发布的Fun-ASR1.5,干脆把"预设语种"这个选项删了——30种语言、汉语七大方言,模型自己判断,听到什么识别什么。

一、MoE架构:让模型学会"分工摸鱼"

打开网易新闻 查看精彩图片

传统语音识别像让一个人同时学30门外语,Fun-ASR1.5的做法是雇30个专家各管一摊。MoE(混合专家)架构下,听到上海话只激活方言专家模块,切到英语就换英语专家上场。

这种"按需唤醒"机制,让模型在保持庞大知识库的同时,推理成本可控。训练阶段的分级数据策略更关键:先让模型学标准发音打基础,再投喂带口音、噪声的真实场景数据,最后专攻古诗词、方言这类"边角料"场景。

结果很直接:中文方言平均字错误率(CER)比上版本下降56.2%。

二、方言识别:从"能听懂"到"写对字"

语音识别有个隐藏痛点:听对了,写错了。

上海话"侬"、苏州话"倷"都指"你",但通用模型常统一转写成"你",方言的语义和文化信息直接丢失。Fun-ASR1.5基于数十万小时真实方言数据训练,能原汁原味保留这些特色词汇。

这对下游应用很重要。方言语音助手、地方戏曲数字化、非遗口述史存档,都需要准确的原始语料作为基础。模型输出的"侬"和"你",在后续的自然语言处理环节完全是两条路径。

古诗词场景更极端。研究团队构建了从先秦到近代的语音-文本对齐语料库,涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作的真人诵读录音。内部评测中,古诗词字符级准确率达到97%。

这个垂直场景选得很刁钻——既要识别古汉语发音,又要理解平仄韵律的断句逻辑,传统模型基本放弃治疗。

三、后处理自动化:省掉最后一道人工

语音识别输出的是"语音转文字",但用户要的是"可直接使用的文本"。这中间差着标点、数字规范化、口语化表达清理三道工序。

Fun-ASR1.5把这三步打包进模型:

• 语义标点:根据上下文自动插入逗号、句号、问号、感叹号
• 数字转换:"三千五百六十二"→"3562"
• 日期标准化:"二零二六年三月二十九号"→"2026年3月29日"
• 金额规整:"五万八千块"→"58000元"
• 电话识别:"幺三八零零幺三八零零零"→"13800138000"

这些功能单看都不难,但集成到端到端模型里,意味着会议纪要、新闻采访、法律笔录等场景可以大幅减少后期人工编辑。B端客户买单的意愿,往往取决于这最后一公里的成本。

四、Code-Switching: multilingual场景的硬骨头

跨语言切换(Code-Switching)是语音识别的地狱难度。新加坡华人对话中夹杂英语单词、海归中英文混说、跨境电商客服场景,都要求模型无需预设语种标签就能自动识别切换。

Fun-ASR1.5的解决方案是取消语种预设环节,让模型自己判断。这依赖MoE架构的动态路由能力,也依赖训练数据中刻意加入的大量混语样本。

技术层面,这解决了"先检测语种再调用对应模型"的流水线延迟问题;产品层面,它让语音交互的入口更自然——用户不需要先告诉系统"我要说英语了"。

五、落地路径:API优先,场景深耕

Fun-ASR1.5已在阿里云百炼平台上线API服务,魔搭社区提供直接体验。这种"双轨"发布策略很明确:百炼面向企业客户集成,魔搭面向开发者社区扩散。

教育、传媒、金融、科技、文化——官方列出的五个行业,恰好对应高频语音转写场景。教育领域的在线课程字幕生成、传媒行业的采访录音整理、金融领域的电话客服质检、文化领域的方言与古籍数字化,都是能直接算账的刚需。

语音识别的商业化瓶颈从来不是技术演示,而是特定场景下的错误率能否低到客户愿意付费。56.2%的CER下降和97%的古诗词准确率,是阿里拿给B端客户的两个关键数字。

模型现已开放调用,地址:阿里云百炼平台、魔搭社区。要验证效果,最直接的方式是扔一段带方言、带数字、带口语化的真实录音进去——看它能不能一次出稿,不用返工。