小米技术整活-大模型团队登顶音频推理 MMAU榜

亿欧

2025-03-17 20:25 ·北京

3月17日，小米技术官方微博官宣好消息：小米大模型团队在音频推理领域实现突破性进展，通过迁移强化学习方法，仅用一周时间便在权威评测MMAU（Massive Multi-Task Audio Understanding and Reasoning）榜单上拿下64.5% 的新纪录，一跃超越此前商业闭源模型GPT-4o近10个百分点。

音频推理“难”在哪？小米7B模型一周“逆袭”

MMAU评测集包含1万条涵盖语音、环境声、音乐的音频样本，通过27种技能（如跨场景推理、专业知识检验等）来测试模型的分析与推断能力。

一直以来，业界对这份测试都颇为“头大”：人类专家水平也不过82.23%的准确率，而之前GPT-4o的 57.3%被视为商业模型当前“天花板”。

小米团队选用的却是一个只有7B参数量的“轻量级”模型——Qwen2-Audio-7B，在常规全监督（SFT）微调后准确率仅能从49.2%提升到 51.8%，效果有限。

然而，在受DeepSeek-R1启发，选择了强化学习中的 GRPO（Group Relative Policy Optimization）方法之后，Qwen2-Audio-7B 的 MMAU准确率陡然冲到64.5%，令人惊喜。

小米官方在公告中打了一个形象的比方：SFT 微调就像不断“背题库”，遇到没见过的题难免“抓瞎”；而 GRPO 式的强化学习更像老师让学生多想几个解法，再基于“试错-奖励”循环，让学生主动思考。相比盲目背诵，这种做法可以快速定位到高质量答案的分布，提高推理的广度与深度。

有意思的是，当研究人员要求模型显式输出思维过程（如使用标签）时，准确率反而下降至61.1%。这或许说明在音频推理这种高复杂度任务上，隐式推理更能够让模型保持高效的内在思考，而无需在人机对话的结果中“显性暴露”全部逻辑。

事实上，小米大模型团队在近年动作不断。早在2024年后半年，该团队就对外发布了第二代自研大语言模型MiLM2的消息。

相比第一代，这次升级扩充了数据规模、丰富了参数矩阵，并在微调机制上进行了较大改进，为多元场景下的产品落地打下了更坚实的基础。

与MiLM2的通用语言能力提升相比，此次针对音频推理的突破更凸显了小米对于多模态交互、智能听觉生态的兴趣。两者结合或将在未来进一步渗透到智能家居、车载系统等各种应用场景。

在公布最新成果的同时，小米也第一时间公开了训练代码、模型参数以及技术报告，为学术界和产业界的技术交流提供了新的范本。

小米方面强调，目前拿到的 64.5% 准确率距离人类专家 82% 的表现仍有不小差距。

但这次实验非常具有启示意义，不仅显示了强化学习在“生成-验证存在显著差距”任务上的独特价值，也刷新了外界对“参数规模与推理能力挂钩”这一传统认知的成见。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴