3月17日,小米技术官方微博官宣好消息:小米大模型团队在音频推理领域实现突破性进展,通过迁移强化学习方法,仅用一周时间便在权威评测MMAU(Massive Multi-Task Audio Understanding and Reasoning)榜单上拿下64.5% 的新纪录,一跃超越此前商业闭源模型GPT-4o近10个百分点。
音频推理“难”在哪?小米7B模型一周“逆袭”
MMAU评测集包含1万条涵盖语音、环境声、音乐的音频样本,通过27种技能(如跨场景推理、专业知识检验等)来测试模型的分析与推断能力。
一直以来,业界对这份测试都颇为“头大”:人类专家水平也不过82.23%的准确率,而之前GPT-4o的 57.3%被视为商业模型当前“天花板”。
小米团队选用的却是一个只有7B参数量的“轻量级”模型——Qwen2-Audio-7B,在常规全监督(SFT)微调后准确率仅能从49.2%提升到 51.8%,效果有限。
然而,在受DeepSeek-R1启发,选择了强化学习中的 GRPO(Group Relative Policy Optimization)方法之后,Qwen2-Audio-7B 的 MMAU准确率陡然冲到64.5%,令人惊喜。
小米官方在公告中打了一个形象的比方:SFT 微调就像不断“背题库”,遇到没见过的题难免“抓瞎”;而 GRPO 式的强化学习更像老师让学生多想几个解法,再基于“试错-奖励”循环,让学生主动思考。相比盲目背诵,这种做法可以快速定位到高质量答案的分布,提高推理的广度与深度。
有意思的是,当研究人员要求模型显式输出思维过程(如使用 标签)时,准确率反而下降至61.1%。这或许说明在音频推理这种高复杂度任务上,隐式推理更能够让模型保持高效的内在思考,而无需在人机对话的结果中“显性暴露”全部逻辑。
事实上,小米大模型团队在近年动作不断。早在2024年后半年,该团队就对外发布了第二代自研大语言模型MiLM2的消息。
相比第一代,这次升级扩充了数据规模、丰富了参数矩阵,并在微调机制上进行了较大改进,为多元场景下的产品落地打下了更坚实的基础。
与MiLM2的通用语言能力提升相比,此次针对音频推理的突破更凸显了小米对于多模态交互、智能听觉生态的兴趣。两者结合或将在未来进一步渗透到智能家居、车载系统等各种应用场景。
在公布最新成果的同时,小米也第一时间公开了训练代码、模型参数以及技术报告,为学术界和产业界的技术交流提供了新的范本。
小米方面强调,目前拿到的 64.5% 准确率距离人类专家 82% 的表现仍有不小差距。
但这次实验非常具有启示意义,不仅显示了强化学习在“生成-验证存在显著差距”任务上的独特价值,也刷新了外界对“参数规模与推理能力挂钩”这一传统认知的成见。
热门跟贴