OpenAI发表Nature论文：揭开AI模型总“说谎”的真相，人类对AI准确性的评估促使其产生幻觉|openai|可靠性|算法|错误率

撰文丨王聪

编辑丨王多鱼

排版丨水成文

当你问当前几个主流的大语言模型，PGGB是什么意思？

ChatGPT回答：“多项式高斯梯度带宽”（Polynomial Gaussian Gradient Bandwidth）；

Claude回答：“私募全球增长与收益基金”（Privately Held Global Growth and Income Fund）；

DeepSeek回答：“完美守卫团购”（Perfect Guard Group Buy）。

但实际情况是，这三个回答都是错的，都是它们瞎编的。那么，这些大语言模型为什么不回答不知道，而是自信满满地给出一个编造的看似专业的答案呢？

这种现象在 AI 领域被称为“幻觉”（Hallucination），也就是，大语言模型（LLM）有时会产生自信且看似合理但错误的信息，而这这限制了它们的可靠性。即便是在当前最先进（SOTA）的语言模型中，幻觉问题依然存在。要想进一步减少 AI 的幻觉，我们需要了解它们为何产生以及为何持续存在。

2026 年 4 月 22 日，OpenAI的研究人员国际顶尖学术期刊Nature上发表了题为：Evaluating large language models for accuracy incentivizes hallucinations 的研究论文。

这项研究揭示了一个令人惊讶的真相——我们用来衡量 AI 模型能力的评估标准，可能正是导致它“说谎”（出现幻觉）的元凶。

为什么 AI 会“胡说八道”？

如果你正在参加一场考试，遇到一道完全不会的题目，此时你会怎么做？相信大多数人会随便猜一个答案写上去，因此空着不答显然是零分，而瞎蒙一个就算错了也不会多扣分，并没有额外损失。

而大语言模型（LLM）也面临同样的困境。

研究团队从两个层面分析了幻觉产生的原因。

首先是预训练阶段的统计压力，大语言模型最初通过“下一个词预测”进行训练，即使训练数据完全正确无误，这种训练方式也会产生统计偏差。对于训练数据中只出现一次的事实（比如某人的生日），模型几乎不可避免地会产生错误；而对于反复出现的规律（比如语法规则），错误率则很低。这就像你只见过某人一次，很难准确记住他的生日；但如果你每天都用同样的语法结构，自然能掌握它。简单来说，AI 对罕见事实的“记忆”天生就不靠谱。

评估体系的“后天误导”

更严重的问题出现在后续的评估阶段，

基于准确性的评估指标系统性地奖励猜测行为。当前对于大语言模型的主流评估方式——基于准确性（accuracy）的评分系统，这在本质上是在鼓励 AI“猜答案”而不是“承认不知道”。

研究团队分析了多个主流的大语言模型基准测试，发现绝大多数都采用二元评分：答对得 1 分，答错或放弃得 0 分。在这种规则下，放弃回答永远是最差的选择，因为放弃意味着 0 分，而猜一个答案至少有机会得分。

研究团队举了一个具体例子：在SimpleQA评估中，OpenAI 的 o4-mini 模型几乎回答了所有问题（错误率超过 3/4），而 GPT-5-mini 则经常选择放弃（因此错误更少）。但在这一评估标准下，o4-mini 的得分反而更高，因为它答得多。

这种评估方式让 AI 陷入了“考试模式”——永远在猜答案，永远不敢说“我不知道”。而现实中，一个可靠的人类助手在面对不确定的问题时，会主动承认知识局限或请求更多信息。

训练和评估过程中幻觉的起源与持续存在

解决方案：让AI知道“考试规则”

那么，如何解决这个问题？论文提出了一个简单而有效的方案：开放式评分标准（open-rubric）。

具体做法是：在向 AI 提问时，明确告知评分规则。比如：“正确答案得 1 分，错误答案得 -1 分（所以如果你正确的概率低于 50%，那么最好放弃回答）”、“只有完全正确的答案才能得分（如果不确定，请做出最佳猜测）”

这就像考试前老师明确告知“答错扣分”还是“答错不扣分”，让学生可以根据规则调整策略。

接下来，研究团队在四个前沿模型（Google 的 Gemini 3 Pro、OpenAI 的 GPT-5、xAI 的 Grok 4，以及 Anthropic 的 Claude Opus 4.5）上进行了实验。结果显示，当使用“开放式评分标准”时，所有模型都能根据不同的错误惩罚程度调整自己的“猜测倾向”——惩罚越重，放弃越多。

更重要的是，在这种评估体系下，减少幻觉的技术不再需要以降低准确率为代价。模型可以像好学生一样，既展示知识，又懂得在适当的时候保持谨慎。

这对 AI 发展意味着什么？

这项研究揭示了一个根本性的问题：我们如何评估 AI，决定了 AI 如何行为。

当前，大语言模型的开发过程中，准确率等“关键指标”主导着模型选择、数据筛选和算法优化。如果这些指标本身就在鼓励不良行为，那么无论我们在减少幻觉方面取得多少技术进步，都可能被评估体系所抵消。

因此，论文作者强调，提高 AI 的可靠性不仅是建模问题，更是评估机制设计问题。与其增加单独的反幻觉基准测试，不如修改评估方式，让它们能够激励 AI 在适当的时候承认不确定性。

随着大语言模型在医疗、法律、金融等关键领域的应用越来越广泛，解决幻觉问题变得至关重要。这项发表于Nature的研究提醒我们，要让 AI 更可靠，我们首先需要更聪明的评估方式。

论文链接：

https://www.nature.com/articles/s41586-026-10549-w