在刚刚过去的ACL 2026大会上,美团履约AI算法团队一举发表三篇前沿论文,从低秩适配、概率流推理到可进化的用户模拟器,全面重塑大模型强化学习的效率与稳定性。本文将深度拆解这三项工作如何用数学之“锚”和连续之“流”,破解RLVR训练崩塌、冗余推理与交互环境僵化三大产业级难题。

第一项成果GeoRA直击RLVR(基于可验证奖励的强化学习)的致命伤:沿用监督微调的低秩适配方法会引发谱塌缩,导致训练失稳。团队首创几何感知低秩适配,利用强化学习更新子空间的各向异性,通过SVD提取主方向初始化适配器,并冻结残差分量作为结构锚点,既保住了预训练骨架,又实现了高效稠密计算。在QWen与Llama的1.5B到32B参数模型上,GeoRA在数学、医学、代码等场景中全面碾压PiSSA、MiLoRA等基线,且域外任务遗忘率显著更低。

打开网易新闻 查看精彩图片

第二项CoT-Flow则向推理效率开刀。当前思维链冗长且缺乏步骤信息增益的量化,团队创新性地将离散推理建模为连续概率流,将每一步视为一个迫近答案的“速度向量”,从而严格衡量每一步的瞬时贡献。基于此设计出的贪心解码策略,让回答长度平均縮減10%至15%,而AIME24准确率最高提升15.9%。更惊艳的是,同一理论导出的RL损失函数,在AIME24和GPQA上达到或超过GRPO等强基线,同时实现11%到37%的长度压缩,训练加速32%,堪称一次“数学引擎”对推理优化的降维打击。

第三项UserLM-R1重新定义了智能体训练环境。传统用户模拟器依赖静态画像,缺乏策略性思维,易被操控。团队构建了兼具静态角色与动态场景目标的综合画像,并引入目标驱动决策策略,在生成回复前先产出高质量的推理链,再通过监督微调与多奖励强化学习让模拟器学会质疑、议价等人类协商行为。实验证明,这一“会思考”的用户模型大幅提升了跨领域泛化能力与交互真实性,为智能体后训练提供了真正可进化的RL环境。

三篇论文技术理念一脉相承:用更精深的数学结构与更贴近人类认知的建模方式,让大模型在强化学习这条路上走得更稳、更快、更有人味儿。美团履约团队表示,这些技术已经深入赋能在即时配送、智能调度等业务的Agent自进化运营系统中,未来还将持续推动多模态理解与智能决策边界的拓展。