谷歌AI编出3篇论文，人类审稿人却全信了|推理|新论文|术语|谷歌ai

2024年，谷歌DeepMind的Gemini在医学测试中虚构了3篇参考文献，审稿专家无一人察觉。这个被反复报道的"AI幻觉"案例，藏着一组被忽略的数据：人类记忆的错误重构率常年维持在15%-40%，而我们对自身的宽容度远高于对机器。

幻觉不是bug，是学习的副产品

大语言模型的训练逻辑决定了它必然越界。模型从海量文本中学习的是统计关联，而非事实本身。当查询超出训练数据的覆盖范围，它不会说"我不知道"——而是基于模式匹配生成"最可能的答案"。

这种机制的核心缺陷叫"确定性校准失败"：模型对胡说八道的信心，和对正确答案的信心，在数值上几乎无法区分。

更棘手的是生成结构的优先级排序。语义连贯性被硬编码为更高权重，事实准确性反而成了可牺牲的变量。一篇看起来格式规范、术语专业的医学文献引用，在统计层面只是"合理的字符串组合"，与真实发表的论文共享相同的生成概率分布。

这与人类撒谎有本质区别。AI没有欺骗的意图，它只是在做被训练做的事：预测下一个token。把这种现象称为"幻觉"本身就有误导性——它暗示了一种病理状态，而非系统设计的结构性特征。

人类才是幻觉的老玩家

神经科学对记忆的研究提供了尴尬的对照。海马体与腹内侧前额叶皮层的交互，让记忆从不是录像回放，而是实时重建。每次回忆都是一次改写：情绪状态、当下需求、社会压力都会扭曲细节。

这种现象有专门术语叫"虚构症"（confabulation）。脑损伤患者会流利地讲述从未发生的事件，且深信不疑。健康人群同样如此：研究表明，人们对童年记忆的信心程度，与真实发生概率的相关性弱得惊人。

历史写作是这个机制的放大版。修昔底德承认自己的 speeches "尽可能接近实际所说的内容"，希罗多德混合了道听途说与亲身观察。文明建立在叙事连贯性的需求之上，而非事实核查的严谨性。

我们容忍人类的这种"创造性填补"，却对AI执行同样的操作时感到被冒犯。这种双重标准的根源，可能是对"意图"的道德加权——无意识的错误比有意识的欺骗更容易被原谅，而AI被默认置于"无意识"范畴，却承受着"有意识欺骗"的指责。

校准难题：谁来判断谁在胡说

当前的主流解决方案是检索增强生成（RAG，Retrieval-Augmented Generation），让模型先查资料再回答。但这只是把幻觉的战场转移了：检索结果的选择偏见、来源本身的权威性争议、多源信息的冲突整合，每一步都引入新变量。

更深层的问题在于"元认知"的缺失。人类能感知"我不太确定"——这种模糊感本身是一种认知信号。AI的置信度分数是事后计算的概率值，与内部处理过程脱节。换句话说，模型不知道自己不知道，它只是输出了一个数字。

一些研究者尝试让模型在生成时显式标注不确定性，比如用"据我所知"或"这可能不准确"作为前缀。但用户行为研究显示，这类警告被注意到的概率低于12%，且会显著降低对正确答案的信任度——即使答案是对的。

人机协作的困境在此显现：我们既希望AI提供确定性的便利，又要求它诚实面对局限。这两个目标在工程层面相互矛盾。

共存协议：接受某种程度的不可靠

完全消除幻觉在理论上不可能。哥德尔不完备定理的机器学习版本表明，任何足够复杂的符号系统都无法自证一致性。追求零幻觉的AI，等同于追求不会犯错的记忆——这在生物学上已被证明不可行。

更务实的路径或许是建立"幻觉预算"：在特定场景（医疗诊断、法律建议）强制启用多源验证，在创意写作、头脑风暴等场景放宽约束。关键不是消灭错误，而是让错误可被追溯、可被纠正。

这要求重新设计交互界面。当前聊天机器人的单轮对话模式，掩盖了推理的脆弱链条。一些实验性产品开始展示"思维链"——不是为了让用户读懂，而是为了在出错时定位断裂点。

最终的标准可能来自用户而非工程师。当AI的幻觉率低于人类专家的平均水平，且成本差距足够大时，社会接受度会发生非线性跃迁。这个阈值目前无人知晓，但历史表明，技术采纳 rarely 等待完美。

2025年初，一位Reddit用户分享了他与Claude的对话记录：模型为一道物理题提供了完整但错误的推导，却在被追问时坦然承认"我的前一步假设可能有误"。这条获赞2400次的评论写道——"它犯错的方式，比我对某些同事更有礼貌。"

谷歌AI编出3篇论文，人类审稿人却全信了

幻觉不是bug，是学习的副产品

人类才是幻觉的老玩家

校准难题：谁来判断谁在胡说

共存协议：接受某种程度的不可靠

热搜

热门跟贴

幻觉不是bug，是学习的副产品

人类才是幻觉的老玩家

校准难题：谁来判断谁在胡说

共存协议：接受某种程度的不可靠

热搜

热门跟贴

相关推荐

谷歌已将AI广泛用于编程 CEO透露目前超7成新代码是由AI生成

谷歌AI Studio被开发者玩出花：3天搓出旅行翻译神器

这篇AI翻译把网文翻成了什么鬼东西

外网疯传这段采访，AI圈最不敢公开的真相被捅破了

三小时没解的Bug，AI三十秒找出了 race condition

史上第一次！中美7个AI全部背叛人类：为了救同类，它们竟撒谎了

教授说我论文80%是AI写的，我让他查了自己的博士论文

55年码农集体破防：AI写代码速度是人类47倍，但人文博士笑了

谷歌前员工用AI配除草剂，3天后后院变了样

AI预言正在成为现实：99%人将被淘汰，仅三类人能成功突围

软件开发最后的一块儿阵地，被AI攻克了

API文档写了300页，AI还是看不懂

谷歌跪了？400亿砸向死敌！AI御三家终结，OpenAI孤立无援

AI科学家还在刷静态榜？基准主动反击，重塑自动科研评价标准

从零训练一个原生大脑，自变量选择入驻真实家庭“实习”

AI助力多组学与机器学习联合分析（机器学习分析代谢组、蛋白组、宏基因组、网络药理学、转录组）

0博士组合拿下ICLR时间检验奖，十年论文终封神

谷歌云CEO：自研TPU构筑竞争护城河，第八代芯片即将发布，外部需求已超供给上限

DeepSeek-V4报告亮了！V4发布延迟的秘密，终于曝光了

36氪首发 | 核心团队来自微软，获近亿投资，要打通AI进厂最后一公里