你有没有过这种经历:做数学题时,自己顺着思路算半天得出错误答案,可看到同学的错题后,反而一眼看穿问题所在?现在,清华大学的研究团队把这个 “人类小技巧” 用在了大模型上,居然让 AI 的推理能力暴涨 ——关键是,不用额外训练、不用多花钱,只是换个提问方式!

论文《Asking LLMs to Verify First is Almost Free Lunch》就进行了这项研究。

打开网易新闻 查看精彩图片

核心思想特别简单:大模型提问题时,别让它直接 “一步一步想答案”,而是先扔给它一个候选答案(哪怕是随机猜的、无关紧要的),让它先验证 “这个答案对不对”,再自己写正确答案。就这么一个小改动,大模型的逻辑错误率直接下降,还没增加多少计算成本~

打开网易新闻 查看精彩图片

图 1:反向推理路径(验证过程)更易构建,且包含与正向推理路径(标准思维链,CoT)互补的信息。

原来大模型答题,也有 “自我中心” 的小毛病

我们先搞懂:为啥大模型明明很聪明,却总在简单推理题上翻车?

比如这道经典题:“蝙蝠和球一共1.1美元,蝙蝠比球贵1美元,球多少钱?” 很多人(包括大模型)会脱口而出 “0.1美元”—— 顺着 “1.1-1=0.1” 的思路走,完全没发现逻辑漏洞。

这就是大模型的 “老毛病”:现在主流的推理方法叫 CoT(逐步思考),让 AI “一步一步推导”。但 AI 是 “ autoregressive(自回归)” 生成的,简单说就是 “顺着自己的思路往下说”,更在乎表达流畅,反而容易忽略逻辑严谨性—— 就像人太相信自己的第一判断,陷入 “自我中心”,看不到错误。

而且之前想提升 AI 推理能力,要么得花大价钱训练模型,要么让 AI 多算几十遍采样答案,成本高得吓人。

“先挑错” 策略:给 AI 一个 “错题”,它反而更会做!✨

清华团队的 VF(Verification-First,先验证)策略,刚好戳中了 AI 的 “软肋”,还不用多花钱。核心是两个超有趣的认知规律:

  1. 验证答案,比自己算答案简单多了!

  2. 就像老师批改作业比自己做题快 —— 假设答案是 A,你只要倒着推 “这个答案能不能满足题目条件”,比从零开始推导简单太多。哪怕给的是错答案,AI 在验证时也会理清 “题目该怎么解”,相当于提前搭好了思路框架。从数学上来说,其实是让大模型的回答事先收敛到相关领域的大的特征空间里,再从大的特征空间里寻找准确的部分进行检索和回答。而非直接让大模型跳进最小的特征空间找答案。

  3. 让 AI “挑别人的错”,能激活批判性思维!

  4. 人在评价别人时,会不自觉跳出自己的思维定式;AI 也一样~ 让它先验证一个 “外部答案”,能避免它顺着自己的错误思路一条道走到黑,减少 “想当然” 的错误。

举两个例子,一看就懂!

打开网易新闻 查看精彩图片

图 2:带有随机 / 简单答案的 VF 提示(右侧),与标准的 CoT 提示(左侧)对比

这张图直接对比了 “普通 CoT” 和 “VF 策略” 的区别,两道题就能看出差距:

左栏是普通 CoT:AI 顺着思路推导,蝙蝠和球的题答错(算成 0.1 美元),“一年有几个月有 28 天” 也答错(只想到 2 月,忘了所有月份都有 28 号)。

右栏是 VF 策略:先给一个随机答案 “1”,让 AI 先验证——✅ 验证蝙蝠和球的题:“如果球是 1 美元,蝙蝠就是 2 美元,总价 3 美元,不对!” 然后顺理成章列出方程,算出正确答案 0.05 美元;✅ 验证月份题:“如果答案是 1,意味着只有 1 个月有 28 天,但题目问的是‘有 28 天’,不是‘只有 28 天’,所有 12 个月都符合!” 直接纠正错误。

是不是很神奇?一个随机的 “错题”,反而帮 AI 理清了思路~

升级款 Iter-VF:让 AI 自己迭代 “挑错”,越算越准

如果遇到复杂题,给一个随机答案不够用怎么办?团队又搞出了 “迭代版”——Iter-VF。

简单说就是:让 AI 自己生成第一个答案,然后用 VF 策略验证这个答案、生成新答案;再用新答案当 “候选答案”,重复验证 - 生成的过程,循环几次(次数可以控制,不浪费算力)。

打开网易新闻 查看精彩图片

图3:(a)使用先前生成的答案进行VF提示的说明,以及将此过程迭代为(b)用于测试时扩展的Iter-VF的说明。

图 3 左边展示了 “用 AI 之前的答案做验证”(比如编程题,没法给随机答案,就用 AI 第一次写的代码当候选),右边是 Iter-VF 的循环流程:从初始答案开始,迭代验证 - 生成,最后得到最优解。

关键优势是:AI 每次只关注上一个答案,不纠结之前的推导过程,不会因为 “想太多” 导致逻辑混乱(这是很多其他迭代方法的通病),还能控制计算成本~

实验结果:准确率暴涨,成本几乎可以忽略!

团队在数学题(GSM8K、MATH500)、研究生级科学题(GPQA)、编程题(HumanEval)、API 调用等多个任务上测试,结果超亮眼:

这里要贴论文图 4 和表 1

打开网易新闻 查看精彩图片

图4:VF提示法始终优于标准的CoT提示法。

图 4 能看到:不管是 10 亿参数的小模型,还是 720 亿参数的大模型,VF 策略都比普通 CoT 准确率高,数学题上的提升尤其明显(毕竟数学最需要逻辑严谨);

打开网易新闻 查看精彩图片

表1:推理基准测试的输出标记数量。

表 1 显示:VF 只比 CoT 多输出 20%-50% 的文字(token),计算成本几乎可以忽略—— 对比其他需要多算几十倍的方法,这简直是 “白嫖” 级提升!

打开网易新闻 查看精彩图片

表2:编码和API任务的性能比较。具有可比性结果的行未用水平线分隔。“HEval”是“HumanEval”的缩写。

表 2 证明:在编程、API 调用这些 “没法给随机答案” 的实际任务中,VF 用 AI 之前的答案做验证,表现也比 “让 AI 算两次”“让 AI 自己修改” 好,甚至 “算两次 VF” 的正确率能冲到 99.4%;

打开网易新闻 查看精彩图片

表3:与隐藏思维的大语言模型服务的性能对比。准确率%(输出令牌数量)。

表 3 更厉害:哪怕是 GPT-5 这种 “隐藏思考过程” 的商业大模型(我们看不到它怎么推导,没法让它 “修改思路”),用 VF 策略也能提升准确率,而且只多花一点点算力~

总结:简单却强大的 “答题技巧”,未来可期!

清华团队的这个方法,本质上是 “借力打力”:不用改模型、不用多花钱,只是利用 “验证比生成简单”“批判性思维能避坑” 的认知规律,就大幅提升了大模型的推理能力。

对我们来说,以后用 AI 做题、写代码、解决问题时,或许可以试试:先给 AI 一个 “随便猜的答案”,让它先挑错,再要正确结果 —— 说不定正确率会翻倍~

感兴趣的同学可以去看原文,里面还有更多实验细节和案例~ 不得不说,把人类的学习技巧用在 AI 上,真的太妙了!

✨ 科研不一定都要 “高大上”,有时候一个简单的思路转变,就能带来巨大突破~ 为研究团队点赞!

原标题:大模型答题总翻车(幻觉)?清华大学新方法:先挑错再写答案,正确率飙升还不花钱!

来源:计算科学

编辑:丁香叶子

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号