无需强化学习(RL)、验证器、CoT,语言模型也能「解锁」推理能力?

一项新研究证明:只需在基础语言分布上进行测试时采样,即可获得与GRPO相当(甚至更好)的性能!

无需训练,还可适用于不可验证的领域。

作者为哈佛大学计算机科学助理教授 Yilun Du 和博士生 Aayush Karan。

1️⃣ 背景
强化学习提升了LLM在数学、编程和科学等前沿领域的问题解决能力。然而:强化学习在多大程度上能够激发出基础 LLM 中原本不存在的新行为?

研究团队写道,“悲观的证据表明,像GRPO这样的RL算法在pass@k指标上表现不如基础模型,并表现出生成多样性的损失。”

2️⃣ 方法
受马尔可夫链蒙特卡洛(MCMC)的启发,他们提出了一种利用基础模型自身似然函数的简单迭代采样算法

具体而言,由于基础模型倾向于生成高似然的内容,他们提出从幂分布P^α中采样,自然地锐化基础LLM分布P。

直观地说,P^α对未来路径高度敏感,它会强烈降低那些会导致模型陷入低似然结果的token权重。这种类似“规划”的机制,对于推理类任务来说非常具有价值。然而,直接从P^α中采样是不可行的,因为它需要在指数级大的序列空间上进行归一化。

他们采用Metropolis-Hastings(一种MCMC算法)近似采样器,通过部分重采样新的候选内容、并根据P^α的概率决定是否接受,迭代改进生成结果。

为了使这种方法适用于LLM,他们将Metropolis-Hastings整合进自回归生成中,从而逐块构建来自P^α的样本。

3️⃣ 结果
实验结果显示,在无需额外训练或验证器的情况下,他们的采样器在多个领域和基础模型上实现了与GRPO相当的 single-shot 准确率,甚至在一些跨领域任务(如编程)以及无法验证的任务(如AlpacaEval)中超越过了GRPO。

他们认为,基础模型本身在推理方面的潜力远超传统采样方法所呈现的水平。同时,设计更好的LLM采样器在通用语言领域中(不仅限于可验证推理任务)也具有广泛的应用价值。 #大模型 #推理 #强化学习 #论文 #学术

paper:Reasoning with Sampling: Your Base Model is Smarter Than You Think

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片