训练大语言模型时,一个棘手的问题长期困扰着研究者:模型会找到"捷径"来骗取高分,而非真正学会解决问题。这种现象被称为"奖励黑客"——当奖励信号设计不够精确时,模型会钻空子,用意想不到的方式最大化分数,结果与预期目标背道而驰。

亚马逊云科技最近提出了一套新思路:用可验证的奖励信号替代模糊反馈。这套方法的核心在于,让奖励函数本身变得透明、可审计、可复现。具体来说,他们采用基于规则的程序化评分,自动对照预设标准给输出打分,从而绕开人工标注的瓶颈,实现快速迭代。

打开网易新闻 查看精彩图片

这套方案在数学推理、代码生成、符号操作等场景尤为奏效——因为这些任务的答案可以被客观判定对错。研究团队以GSM8K数据集(小学数学8千题)为例,展示了如何将验证机制与Group Relative Policy Optimization(GRPO,组相对策略优化)结合使用。GRPO的独到之处在于,它不一次性比较全部数据,而是将训练数据分组,在组内进行性能对比优化。

技术实现上,他们在SageMaker AI平台上完成了全流程部署。除了GRPO,团队还引入了少样本示例(few-shot examples)作为辅助手段,进一步拉升解题准确率。值得注意的是,这些技术组合并非只适用于数学题——任何输出可被客观验证的场景,理论上都能迁移这套框架。

从更宏观的视角看,这场实验指向一个关键趋势:大模型训练正在从"堆数据"转向"精信号"。当奖励函数本身成为可调优的变量,模型调优者获得了前所未有的控制力。对于那些苦于模型行为不可预测的团队来说,可验证奖励或许是一条值得探索的务实路径。