周三下午,一位工程师盯着搜索推荐模型的训练日志:明明喂进去更多数据,强化学习给出的奖励信号却像被噪声淹没了,有效样本用一次就丢掉,下次训练又得从零开始筛选。这一幕不是想象——在可验证奖励的强化学习后训练中,低质量样本引入干扰,高质量样本被随手丢弃,几乎是普遍存在的系统性尴尬。美团业务研发平台旗下的搜推 ASX(Agentic System X)团队最近公开的一批论文,就围绕这个窘境展开了面向不同方向的突围尝试,其中既有直接对样本调度机制动刀的思路,也有绕开调度、从惩罚策略入手的方案,仿佛同一场技术辩论的正反两方。
正方站“样本调度派”。在论文《Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards》中,团队把每一条候选样本都看作一台老虎机,提出CBS算法(Contextual Bandit Sampler)——只要快速预测出哪个样本能带来更高的训练增益,就优先给它“拉杆”的机会。整个动态决策过程被建模为上下文多臂老虎机问题:每一个候选 rollout 视为一个臂,奖励就是训练后模型性能的提升量;在线反馈的滚动累积,使得调度策略可以实时修正对样本价值的估计。实验覆盖6个数学推理数据集,CBS能与多种策略优化方法结合,既减少了噪声样本的反复干扰,也避免了高质量样本单次使用后就被浪费的窘境。这种做法相当于给训练流程安装了一个“样本质检员”,但质检标准不是死的,而是随着模型进步不断自更新的。
反方则把焦点放在惩罚机制上。《ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning》直接点出一个更隐蔽的陷阱:惩罚负样本时,常常连正负样本共享的那部分有效语义也一起误伤了,这直接导致输出多样性下降。ResRL的解法是引入奇异值分解(SVD)构 建一个“正确子空间”,再通过投影残差把惩罚力度精准地约束在“真正的错误方向”上,相当于只打压模型走歪的那一步,而不削弱它本已学会的能力。论文给出的数据相当具体:数学推理超过之前的负样本强化方法NSR 9.4%,代码任务刷新CodeForces的SOTA,在具身智能环境ALFWorld里更是比PPO高出7.8%,且Pass@1与Pass@k兼得,没有为了一次通过率而牺牲多次尝试的多样性。
两篇论文对同一难题给出了侧重不同、但并非互斥的答案——调度优化的是“数 据利用效率”,残差惩罚优化的是“信号精度”。前者关心哪批样本值得被多看几眼,后者关心即便看的是负样本,惩罚也要做到精准打击、不伤无辜。短期来看,任何一种粗糙的奖励设计,都会在样本侧或者信号侧撞上瓶颈;长期来看,这两条技术路径大概率会走向融合,构成更细粒度的在线样本调控和奖励修正闭环。
奖励模型本身的可解释性,也是这批研究中的重要支线。《CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling》发现传统的奖励模型是一个“黑箱”,依赖昂贵人工标注,而现有的基于评分准则的方法又容易引入冗余和偏见。CDRRM采用“对比-聚合”流程:先同时看好回答和差回答,精准定位两者之间的关键差异,再把这些差异合并成简洁、紧贴任务的评分准则,用来指导评判模型。在三个基准评测上达到最先进水平,同时缓解了模型“话痨偏好”和位置偏见等常见问题。更值得注意的是高效性——仅用3000个样本就让未微调的模型超越了全量微调基线,具备相当高的数据效率,也让奖励模型的决策过程比以往更透明。
当智能体从数学推理和代码这类相对封闭的场景,迈入真实的本地生活服务领域时,挑战立刻复杂了不止一个量级。《LocalSearchBench: Benchmarking Agentic Search in Real-World Local Life Services》就搭建了这样一个现实评测场:覆盖国内9座城市、6大服务品类,包含超过134万商户数据与900道用户多跳问答任务,配套交互环境LocalPlayground和商户检索工具LocalRAG。团队用16款主流大语言推理模型逐一测试,结果相当冷静——表现最好的DeepSeek-V3.2答题正确率仅35.60%,普遍存在信息完整性不足、可信度不高的问题。进一步剖析暴露出的典型缺陷,包括工具调用策略单一、多跳推理容易中断等,这些缺陷在本地生活这类强信息检索、强逻辑串联的任务中被迅速放大。这份基准同时也为相关模型的训练和迭代提供了一个定位缺陷的参照系。
同样从单一走向多元视角的,还有饮食领域的感知与推理。《DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain》专为多模态大语言模型(VLM)设计,覆盖细粒度菜品分类、营养估计和视觉问答三类任务,包含3,021道菜品的多视角图像。对29个主流VLM的评测结果表明,现有模型在细粒度识别、跨视角融合和营养推理上差距明显,暴露出的是视觉与知识联合建模时的高阶短板——不仅要认得哪道菜,还要跨角度推测热量和食材构成,这对当前多模态模型仍是笔不小的考验。
如果说前面几篇研究是在固定能力边界内找最优解,那么《Mem²Evolve: Towards Self-Evolving Agents via Co-Evolutionary Capability Expansion and Experience Distillation》则直接把目标指向了持续进化。Mem2Evolve框架内置Asset Memory与Experience Memory双记忆机制,前者负责动态复用或创建工具与专家智能体,实现能力扩展;后者从成功和失败轨迹中蒸馏可迁移经验。8个基准、6类任务的实验结果表明,Mem2Evolve显著优于普通大语言模型和单一进化策略,显现出更强的持续学习与任务泛化能力。不再是把一次任务当作终局,而是让智能体在与环境不断交互的过程中把自己变成更称手的工具集成体。
将这些研究连起来看,一条从“样本级优化”到“智能体级自我进化”的技术路线逐步清晰:先用Contextual Bandit把好样本留住,再用ResRL把惩罚做对,接着通过CDRRM让奖励模型变得可解释且数据高效,同时在LocalSearchBench和DiningBench这样的真实场景基准中逼迫模型暴露推理与感知缺陷,最后以双记忆进化框架收束,让智能体在任务中长出新的工具和能力。这不是一次性功能修补,而是在逐步解构搜索推荐的 Agent化 进程,从底层训练信号到上层进化机制,都在被重新审视并重写。美团搜推ASX团队在ICLR、NeurIPS、CVPR等顶会连续发表数十篇成果的底气,或许正来自于这种不打补丁、直接重构底层的探索节奏。
热门跟贴