大模型答题总翻车（幻觉）？先挑错再写答案，正确率飙升还不花钱！|做题|大模型|总翻车|推理|正确率

你有没有过这种经历：做数学题时，自己顺着思路算半天得出错误答案，可看到同学的错题后，反而一眼看穿问题所在？现在，清华大学的研究团队把这个 “人类小技巧” 用在了大模型上，居然让 AI 的推理能力暴涨 ——关键是，不用额外训练、不用多花钱，只是换个提问方式！

论文《Asking LLMs to Verify First is Almost Free Lunch》就进行了这项研究。

核心思想特别简单：给大模型提问题时，别让它直接 “一步一步想答案”，而是先扔给它一个候选答案（哪怕是随机猜的、无关紧要的），让它先验证 “这个答案对不对”，再自己写正确答案。就这么一个小改动，大模型的逻辑错误率直接下降，还没增加多少计算成本～

图 1：反向推理路径（验证过程）更易构建，且包含与正向推理路径（标准思维链，CoT）互补的信息。

原来大模型答题，也有 “自我中心” 的小毛病

我们先搞懂：为啥大模型明明很聪明，却总在简单推理题上翻车？

比如这道经典题：“蝙蝠和球一共1.1美元，蝙蝠比球贵1美元，球多少钱？” 很多人（包括大模型）会脱口而出 “0.1美元”—— 顺着 “1.1-1=0.1” 的思路走，完全没发现逻辑漏洞。

这就是大模型的 “老毛病”：现在主流的推理方法叫 CoT（逐步思考），让 AI “一步一步推导”。但 AI 是 “ autoregressive（自回归）” 生成的，简单说就是 “顺着自己的思路往下说”，更在乎表达流畅，反而容易忽略逻辑严谨性—— 就像人太相信自己的第一判断，陷入 “自我中心”，看不到错误。

而且之前想提升 AI 推理能力，要么得花大价钱训练模型，要么让 AI 多算几十遍采样答案，成本高得吓人。

“先挑错” 策略：给 AI 一个 “错题”，它反而更会做！✨

清华团队的 VF（Verification-First，先验证）策略，刚好戳中了 AI 的 “软肋”，还不用多花钱。核心是两个超有趣的认知规律：

验证答案，比自己算答案简单多了！
就像老师批改作业比自己做题快 —— 假设答案是 A，你只要倒着推 “这个答案能不能满足题目条件”，比从零开始推导简单太多。哪怕给的是错答案，AI 在验证时也会理清 “题目该怎么解”，相当于提前搭好了思路框架。从数学上来说，其实是让大模型的回答事先收敛到相关领域的大的特征空间里，再从大的特征空间里寻找准确的部分进行检索和回答。而非直接让大模型跳进最小的特征空间找答案。
让 AI “挑别人的错”，能激活批判性思维！
人在评价别人时，会不自觉跳出自己的思维定式；AI 也一样～让它先验证一个 “外部答案”，能避免它顺着自己的错误思路一条道走到黑，减少 “想当然” 的错误。

举两个例子，一看就懂！

图 2：带有随机 / 简单答案的 VF 提示（右侧），与标准的 CoT 提示（左侧）对比

这张图直接对比了 “普通 CoT” 和 “VF 策略” 的区别，两道题就能看出差距：

左栏是普通 CoT：AI 顺着思路推导，蝙蝠和球的题答错（算成 0.1 美元），“一年有几个月有 28 天” 也答错（只想到 2 月，忘了所有月份都有 28 号）。

右栏是 VF 策略：先给一个随机答案 “1”，让 AI 先验证——✅ 验证蝙蝠和球的题：“如果球是 1 美元，蝙蝠就是 2 美元，总价 3 美元，不对！” 然后顺理成章列出方程，算出正确答案 0.05 美元；✅ 验证月份题：“如果答案是 1，意味着只有 1 个月有 28 天，但题目问的是‘有 28 天’，不是‘只有 28 天’，所有 12 个月都符合！” 直接纠正错误。

是不是很神奇？一个随机的 “错题”，反而帮 AI 理清了思路～

升级款 Iter-VF：让 AI 自己迭代 “挑错”，越算越准

如果遇到复杂题，给一个随机答案不够用怎么办？团队又搞出了 “迭代版”——Iter-VF。

简单说就是：让 AI 自己生成第一个答案，然后用 VF 策略验证这个答案、生成新答案；再用新答案当 “候选答案”，重复验证 - 生成的过程，循环几次（次数可以控制，不浪费算力）。