美团履约3篇ACL 2026论文：用几何低秩与概率流重塑大模型推理，RL效率提升超30%|rl|大模型|推理|数学|知名企业|美团|论文

在刚刚过去的ACL 2026大会上，美团履约AI算法团队一举发表三篇前沿论文，从低秩适配、概率流推理到可进化的用户模拟器，全面重塑大模型强化学习的效率与稳定性。本文将深度拆解这三项工作如何用数学之“锚”和连续之“流”，破解RLVR训练崩塌、冗余推理与交互环境僵化三大产业级难题。

第一项成果GeoRA直击RLVR（基于可验证奖励的强化学习）的致命伤：沿用监督微调的低秩适配方法会引发谱塌缩，导致训练失稳。团队首创几何感知低秩适配，利用强化学习更新子空间的各向异性，通过SVD提取主方向初始化适配器，并冻结残差分量作为结构锚点，既保住了预训练骨架，又实现了高效稠密计算。在QWen与Llama的1.5B到32B参数模型上，GeoRA在数学、医学、代码等场景中全面碾压PiSSA、MiLoRA等基线，且域外任务遗忘率显著更低。

第二项CoT-Flow则向推理效率开刀。当前思维链冗长且缺乏步骤信息增益的量化，团队创新性地将离散推理建模为连续概率流，将每一步视为一个迫近答案的“速度向量”，从而严格衡量每一步的瞬时贡献。基于此设计出的贪心解码策略，让回答长度平均縮減10%至15%，而AIME24准确率最高提升15.9%。更惊艳的是，同一理论导出的RL损失函数，在AIME24和GPQA上达到或超过GRPO等强基线，同时实现11%到37%的长度压缩，训练加速32%，堪称一次“数学引擎”对推理优化的降维打击。

第三项UserLM-R1重新定义了智能体训练环境。传统用户模拟器依赖静态画像，缺乏策略性思维，易被操控。团队构建了兼具静态角色与动态场景目标的综合画像，并引入目标驱动决策策略，在生成回复前先产出高质量的推理链，再通过监督微调与多奖励强化学习让模拟器学会质疑、议价等人类协商行为。实验证明，这一“会思考”的用户模型大幅提升了跨领域泛化能力与交互真实性，为智能体后训练提供了真正可进化的RL环境。

三篇论文技术理念一脉相承：用更精深的数学结构与更贴近人类认知的建模方式，让大模型在强化学习这条路上走得更稳、更快、更有人味儿。美团履约团队表示，这些技术已经深入赋能在即时配送、智能调度等业务的Agent自进化运营系统中，未来还将持续推动多模态理解与智能决策边界的拓展。