2024年,谷歌DeepMind的Gemini在医学测试中虚构了3篇参考文献,审稿专家无一人察觉。这个被反复报道的"AI幻觉"案例,藏着一组被忽略的数据:人类记忆的错误重构率常年维持在15%-40%,而我们对自身的宽容度远高于对机器。
幻觉不是bug,是学习的副产品
大语言模型的训练逻辑决定了它必然越界。模型从海量文本中学习的是统计关联,而非事实本身。当查询超出训练数据的覆盖范围,它不会说"我不知道"——而是基于模式匹配生成"最可能的答案"。
这种机制的核心缺陷叫"确定性校准失败":模型对胡说八道的信心,和对正确答案的信心,在数值上几乎无法区分。
更棘手的是生成结构的优先级排序。语义连贯性被硬编码为更高权重,事实准确性反而成了可牺牲的变量。一篇看起来格式规范、术语专业的医学文献引用,在统计层面只是"合理的字符串组合",与真实发表的论文共享相同的生成概率分布。
这与人类撒谎有本质区别。AI没有欺骗的意图,它只是在做被训练做的事:预测下一个token。把这种现象称为"幻觉"本身就有误导性——它暗示了一种病理状态,而非系统设计的结构性特征。
人类才是幻觉的老玩家
神经科学对记忆的研究提供了尴尬的对照。海马体与腹内侧前额叶皮层的交互,让记忆从不是录像回放,而是实时重建。每次回忆都是一次改写:情绪状态、当下需求、社会压力都会扭曲细节。
这种现象有专门术语叫"虚构症"(confabulation)。脑损伤患者会流利地讲述从未发生的事件,且深信不疑。健康人群同样如此:研究表明,人们对童年记忆的信心程度,与真实发生概率的相关性弱得惊人。
历史写作是这个机制的放大版。修昔底德承认自己的 speeches "尽可能接近实际所说的内容",希罗多德混合了道听途说与亲身观察。文明建立在叙事连贯性的需求之上,而非事实核查的严谨性。
我们容忍人类的这种"创造性填补",却对AI执行同样的操作时感到被冒犯。这种双重标准的根源,可能是对"意图"的道德加权——无意识的错误比有意识的欺骗更容易被原谅,而AI被默认置于"无意识"范畴,却承受着"有意识欺骗"的指责。
校准难题:谁来判断谁在胡说
当前的主流解决方案是检索增强生成(RAG,Retrieval-Augmented Generation),让模型先查资料再回答。但这只是把幻觉的战场转移了:检索结果的选择偏见、来源本身的权威性争议、多源信息的冲突整合,每一步都引入新变量。
更深层的问题在于"元认知"的缺失。人类能感知"我不太确定"——这种模糊感本身是一种认知信号。AI的置信度分数是事后计算的概率值,与内部处理过程脱节。换句话说,模型不知道自己不知道,它只是输出了一个数字。
一些研究者尝试让模型在生成时显式标注不确定性,比如用"据我所知"或"这可能不准确"作为前缀。但用户行为研究显示,这类警告被注意到的概率低于12%,且会显著降低对正确答案的信任度——即使答案是对的。
人机协作的困境在此显现:我们既希望AI提供确定性的便利,又要求它诚实面对局限。这两个目标在工程层面相互矛盾。
共存协议:接受某种程度的不可靠
完全消除幻觉在理论上不可能。哥德尔不完备定理的机器学习版本表明,任何足够复杂的符号系统都无法自证一致性。追求零幻觉的AI,等同于追求不会犯错的记忆——这在生物学上已被证明不可行。
更务实的路径或许是建立"幻觉预算":在特定场景(医疗诊断、法律建议)强制启用多源验证,在创意写作、头脑风暴等场景放宽约束。关键不是消灭错误,而是让错误可被追溯、可被纠正。
这要求重新设计交互界面。当前聊天机器人的单轮对话模式,掩盖了推理的脆弱链条。一些实验性产品开始展示"思维链"——不是为了让用户读懂,而是为了在出错时定位断裂点。
最终的标准可能来自用户而非工程师。当AI的幻觉率低于人类专家的平均水平,且成本差距足够大时,社会接受度会发生非线性跃迁。这个阈值目前无人知晓,但历史表明,技术采纳 rarely 等待完美。
2025年初,一位Reddit用户分享了他与Claude的对话记录:模型为一道物理题提供了完整但错误的推导,却在被追问时坦然承认"我的前一步假设可能有误"。这条获赞2400次的评论写道——"它犯错的方式,比我对某些同事更有礼貌。"
热门跟贴