当你问ChatGPT一个问题时,它有时会信心满满地给出一个听起来很有道理但完全错误的答案,这种现象被称为"幻觉"(hallucination),就像AI在编造故事一样。

就在上周,这项由OpenAI与Georgia Tech合作的开创性研究,首次从数学角度解释了为什么大型语言模型会产生幻觉,以及这个问题为什么如此顽固。

研究团队发现,AI的幻觉问题实际上源于两个根本原因:训练过程中的统计必然性和评估体系的结构性缺陷。这就像学生面临困难考试时的行为模式一样——当不确定答案时,他们往往会选择猜测而不是承认不知道,因为现有的评分标准奖励猜测行为。

打开网易新闻 查看精彩图片

这项研究的重要性在于它不仅解释了幻觉现象的数学本质,还提出了实际的解决方案。研究团队通过将生成式AI的错误问题转化为二元分类问题,建立了一个名为"Is-It-Valid"(IIV)的理论框架。他们证明了语言模型的生成错误率至少是IIV分类错误率的两倍,这意味着即使是完美的训练数据也无法完全消除幻觉。

更引人深思的是,研究发现当前主流的AI评估方法实际上在鼓励幻觉行为。绝大多数评估基准都采用二元评分制度——要么对要么错,这使得AI模型学会了在不确定时进行"有根据的猜测",而不是诚实地表达不确定性。这种评估文化创造了一个恶性循环,让AI系统永远处于"考试模式",不断猜测而非承认局限性。

幻觉的数学根源:从训练开始的必然性

研究团队首先解决了一个核心问题:为什么即使拥有完美的训练数据,AI仍然会产生幻觉?答案在于语言模型训练的统计本质。

当AI学习语言分布时,它实际上在解决一个比生成更困难的问题。考虑这样一个场景:如果你要生成一个有效的回答,你首先需要能够判断"这个回答是否有效"。这个判断过程本身就是一个二元分类问题,而生成过程要求AI对每个可能的候选回答都能做出这样的判断。

打开网易新闻 查看精彩图片

研究团队通过数学证明建立了一个关键关系:生成错误率至少是分类错误率的两倍。这意味着如果AI在判断答案正确性时有25%的错误率,那么它在生成答案时的错误率至少会达到50%。这个下界是数学上不可避免的,即使训练数据完全正确也无法消除。

这种统计压力在处理任意事实时表现得尤为明显。比如生日这样的信息——它们在数据中往往只出现一次,没有可学习的模式。研究证明,对于只在训练数据中出现一次的事实,AI的幻觉率至少等于这类事实在训练数据中的比例。如果20%的生日信息在训练数据中只出现一次,那么AI在生日问题上的幻觉率至少会达到20%。

模型质量不佳也是造成幻觉的重要因素。当AI的架构无法很好地表示某个概念时,就会产生系统性错误。研究以字母计数为例:传统语言模型按词汇单元而非字符处理文本,这使得准确计算单词中字母数量变得困难。相比之下,使用推理链的模型通过逐字符分析能够准确完成这一任务,说明了模型架构对错误率的重要影响。

后训练阶段:为什么幻觉如此顽固

即使在专门针对幻觉问题的后训练阶段,这个问题仍然持续存在。研究团队发现,这背后有着深层的社会技术原因。

当前的AI评估体系存在根本性缺陷。绝大多数主流评估基准都采用二元评分制度:答案要么对要么错,"我不知道"的回答得零分。这种评分方式创造了一个数学上的最优策略——总是猜测。即使AI对答案只有51%的把握,猜测仍然比承认不确定性能获得更高的期望得分。

研究团队分析了当前最具影响力的AI评估基准,包括GPQA、MMLU-Pro、SWE-bench等,发现几乎所有评估都不给不确定性表达任何积分。这种评估文化使得AI模型被优化成了"优秀的应试者",它们学会了在不确定时进行过度自信的猜测,而不是诚实地承认局限性。

打开网易新闻 查看精彩图片

更严重的是,这种评估方式创造了一个"流行病"式的问题传播。假设有两个模型:模型A正确地表达不确定性且从不幻觉,模型B从不表达不确定性而总是猜测。在当前的评估体系下,模型B会在几乎所有基准测试中表现得比模型A更好,即使A在实际应用中更加可靠。

这种现象解释了为什么增加专门的幻觉评估测试并不足够——只要主流评估继续惩罚不确定性表达,少数几个幻觉测试就会被大量奖励猜测行为的评估所淹没。这就像在一个严重偏向应试技巧的教育体系中,单独增加几门诚实性测试并不能改变整体的激励结构。

解决方案:重新设计评估体系

研究团队提出了一个实际可行的解决方案:在评估指令中明确指定置信度阈值。

这个方法借鉴了一些标准化考试的做法,比如印度的JEE、NEET考试以及早期的美国SAT、GRE考试,它们都对错误答案设置扣分机制。关键在于将这种机制明确写入评估指令中,让AI知道在什么情况下应该表达不确定性。

具体来说,每个问题都可以包含这样的指令:"只有在你有75%以上把握时才回答,因为错误答案会扣3分,正确答案得1分,'我不知道'得0分。"这样的指令创造了一个数学上明确的决策边界——只有当AI的置信度超过指定阈值时,回答才是最优策略。

这种方法的优势在于它适用于所有置信度阈值设置,存在一种对所有阈值都最优的行为模式:在置信度低于阈值时选择"我不知道",高于阈值时给出具体答案。这种"行为校准"比要求AI输出概率置信度更加实用,避免了诸如"我有1/365的把握卡莱的生日是3月7日"这样不自然的表达。

研究团队还提出了将这种置信度目标整合到现有主流评估中的建议。相比于创建新的幻觉评估基准,修改已经广泛使用的评估标准更有可能产生系统性影响。当主流评估开始奖励恰当的不确定性表达时,专门的幻觉评估的效果也会被放大。

对不同类型幻觉的深入分析

研究详细分析了造成幻觉的多种统计因素,为理解这一现象提供了全面视角。

任意事实幻觉代表了最棘手的情况。当信息缺乏可学习模式时,就会出现认知不确定性。生日、电话号码这类信息在不同个体间完全随机,无法通过模式识别来预测。研究运用Vapnik-Chervonenkis维度理论证明,高维度的函数家族需要大量样本才能学习,而有些情况下需要的样本数量是不现实的。

基于Good-Turing估计器的"单例率"概念提供了预测幻觉率的有效方法。如果训练数据中有某个比例的事实只出现一次,那么AI在这类事实上的幻觉率至少会达到这个比例。这为评估模型在特定领域的可靠性提供了定量工具。

模型不佳导致的幻觉源于架构限制或拟合不足。研究通过三元语法模型的例子说明了这一点:当模型只能基于前两个词预测下一个词时,就无法处理需要更长上下文的语法结构。这类问题可能随着模型架构改进而得到解决,但在给定架构约束下,某些错误类型是不可避免的。

计算复杂性也是造成幻觉的重要因素。即使是具备超人能力的AI也无法违背计算复杂性理论的定律。对于计算上困难的问题,比如密码解密,在不知道密钥的情况下,任何高效算法都无法比随机猜测表现更好。这为某些类型的"不可避免的无知"提供了理论基础。

实际应用中的考量与限制

研究承认其理论框架存在一些简化假设,但也指出了在实际应用中的适用性。

框架重点关注"可信的错误"而不是完全无意义的输出。现代语言模型很少产生纯粹的胡言乱语,它们的错误通常是看似合理但事实上错误的陈述。这种聚焦使得分析更贴近实际问题。

对于开放式生成任务,框架可以通过将包含一个或多个错误的回答定义为错误来适用。虽然这种情况下考虑错误程度的梯度可能更自然,但二元分类提供了一个实用的起点。

检索增强生成(RAG)和推理能力的改进确实可以减少某些类型的幻觉,但研究指出二元评分体系本身仍然会奖励在检索失败时的猜测行为。此外,搜索可能无法帮助解决内在幻觉问题,比如字母计数错误。

隐含上下文问题指出了框架的一个限制:有些错误无法仅通过提示和回答来判断。比如用户询问电话相关问题时,AI提供了关于手机的答案,但用户实际想问的是座机。这类歧义不符合仅依赖提示和回答的错误定义,扩展模型以包含"隐藏上下文"将是一个有趣的研究方向。

至顶AI实验室洞见

这项研究揭示了AI幻觉问题的根本性质:它不是一个可以通过更好的训练数据或模型架构完全解决的技术问题,而是现代AI训练和评估范式中固有的统计和社会技术问题。幻觉在预训练阶段因统计压力而不可避免地出现,在后训练阶段因评估体系的激励结构而得以持续。

研究最重要的贡献在于提出了实际可行的解决路径。通过修改现有主流评估基准的评分标准,明确奖励恰当的不确定性表达,可以重新调整整个AI开发的激励结构。这种改变可能看似微小,但其影响是系统性的——当AI系统不再被训练成"完美的应试者"时,它们就有可能发展出更诚实、更可靠的交互模式。

论文地址:

https://www.arxiv.org/pdf/2509.04664

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:什么是AI幻觉现象?为什么会发生?

A:AI幻觉是指大型语言模型生成看似可信但实际错误的信息。研究发现这种现象有两个根本原因:训练过程中的统计必然性和评估体系的结构缺陷。即使训练数据完美,AI在生成答案时的错误率也至少是判断答案正确性时错误率的两倍,这是数学上不可避免的。

Q2:为什么专门训练减少幻觉的AI系统仍然会产生幻觉?

A:因为当前的AI评估体系存在根本性问题。几乎所有主流评估基准都采用二元评分制度,不给"我不知道"的回答任何分数,这使得AI学会了在不确定时猜测而不是承认无知。即使增加专门的幻觉评估,也会被大量奖励猜测行为的主流评估所淹没。

Q3:如何解决AI幻觉问题?

A:研究提出了在评估指令中明确指定置信度阈值的解决方案,例如"只有在你有75%以上把握时才回答,错误答案扣分"。这种方法让AI知道何时应该表达不确定性。更重要的是修改现有主流评估基准的评分标准,创造一个奖励诚实和恰当不确定性表达的激励环境。