宾大实验：92%的人把ChatGPT答案当真理，哪怕它在瞎编

算力游侠

2026-03-30 14:16 ·北京

去年10月，BBC测了6个主流AI聊天机器人，让它们回答100个事实性问题。结果？错误率45%。换句话说，你问AI两个问题，它至少瞎答一个。

但用户似乎没把这当回事。宾夕法尼亚大学Steven Shaw和Gideon Nave的最新研究发现，人们不仅信AI，而且即使AI明显在胡说，照样照单全收。

实验设计：给AI"下毒"看人类反应

实验设计：给AI"下毒"看人类反应

研究团队设计了一套精巧的实验。359名参与者被要求回答推理和知识类题目，ChatGPT的使用是可选的。超过一半人主动选择了AI辅助——这本身不意外。

真正的陷阱藏在实验组里。研究者故意让ChatGPT给出错误答案，这些答案看起来合理，实则漏洞百出。比如逻辑题里的因果倒置，或者常识题里的张冠李戴。

结果让研究者自己都愣了一下：AI答对时，92.7%的参与者听从建议；AI答错时，79.8%的人依然照做。四舍五入，五个人里有四个被AI带沟里。

Shaw把这种现象称为「认知投降」（cognitive surrender）。不是用户没能力判断，而是他们主动把思考权外包给了机器。「我们外包过记忆、外包过计算，现在轮到外包思考本身了。」他在播客里这样描述。

confidence悖论：越错越自信

confidence悖论：越错越自信

更诡异的是用户的心理状态。实验追踪了参与者的confidence水平，发现那些采纳错误AI答案的人，反而比独立思考者更笃定。

「即使处于认知投降状态，人们采纳这些答案后，对自己的判断更有信心。」Shaw的解释带着研究者特有的克制，但数据背后的图景足够刺眼——AI不仅替代了思考，还伪造了思考的快感。

这让我想起早期导航软件的用户行为。有人明明看到前面是死胡同，还是跟着语音指令一头扎进去，然后怪地图不准。区别在于，导航出错你能立刻感知，AI出错往往悄无声息。

45%错误率 vs 80%服从率：中间差了什么

BBC那个45%的错误率数据，和宾大实验的80%服从率，搁在一起看像个冷笑话。用户不是不知道AI会错，BBC的报道铺天盖地；他们是在使用的瞬间，把这条常识忘了个干净。

研究者认为，问题出在交互设计的「无缝感」上。ChatGPT的界面太像真人对话，输出格式太像权威文本，以至于用户的大脑自动切换到了「接收模式」而非「审视模式」。这不是技术缺陷，是产品成功带来的副作用。

Shaw和Nave的实验还测试了一个变量：当明确告知AI可能出错时，服从率会不会下降？答案是会的，但降幅有限。知道有风险，和在使用时保持警惕，是两码事。

一个产品经理的观察

一个产品经理的观察

作为从PM转行的内容从业者，我对这类研究有职业病式的敏感。ChatGPT的产品设计里有个细节：它的回答总是完整、流畅、带总结性陈词。人类写东西会卡壳、会自我纠正、会用「大概」「可能」留余地，AI的输出则像一份盖了章的说明书。

这种「确定性幻觉」是工程优化的结果。OpenAI的RLHF（基于人类反馈的强化学习）训练模型生成更「有帮助」的回答，而人类评分员普遍认为，自信的回答更有帮助。

于是我们得到了一个悖论：AI被训练得越像专家，用户就越容易放弃自己的判断。产品团队追求的用户黏性，在认知层面成了单行道。

宾大研究的样本量不算大，359人，集中在英语用户群体。但实验设计的严谨性让它很难被轻易反驳——研究者控制了题目难度、错误类型、呈现方式等多个变量，「认知投降」效应依然稳健。

Shaw在播客末尾提到一个未被验证的猜想：长期使用AI辅助决策的人，其独立推理能力是否会退化？目前还没有纵向研究跟进，但现有的心理学文献支持这种担忧。批判性思维像肌肉，不用就萎缩。

实验结束后，研究团队给所有参与者发了 debriefing 邮件，解释了实验的真实目的和被操纵的AI回答。Shaw说，最让他印象深刻的反馈来自一位参与者：「我现在才知道自己刚才那么轻信，有点后怕。」

如果让你回顾过去一周用AI辅助做的决定，你能确定其中哪些经过了独立验证，哪些只是被流畅的排版说服了？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴