去年10月,BBC测了6个主流AI聊天机器人,让它们回答100个事实性问题。结果?错误率45%。换句话说,你问AI两个问题,它至少瞎答一个。
但用户似乎没把这当回事。宾夕法尼亚大学Steven Shaw和Gideon Nave的最新研究发现,人们不仅信AI,而且即使AI明显在胡说,照样照单全收。
实验设计:给AI"下毒"看人类反应
研究团队设计了一套精巧的实验。359名参与者被要求回答推理和知识类题目,ChatGPT的使用是可选的。超过一半人主动选择了AI辅助——这本身不意外。
真正的陷阱藏在实验组里。研究者故意让ChatGPT给出错误答案,这些答案看起来合理,实则漏洞百出。比如逻辑题里的因果倒置,或者常识题里的张冠李戴。
结果让研究者自己都愣了一下:AI答对时,92.7%的参与者听从建议;AI答错时,79.8%的人依然照做。四舍五入,五个人里有四个被AI带沟里。
Shaw把这种现象称为「认知投降」(cognitive surrender)。不是用户没能力判断,而是他们主动把思考权外包给了机器。「我们外包过记忆、外包过计算,现在轮到外包思考本身了。」他在播客里这样描述。
confidence悖论:越错越自信
更诡异的是用户的心理状态。实验追踪了参与者的confidence水平,发现那些采纳错误AI答案的人,反而比独立思考者更笃定。
「即使处于认知投降状态,人们采纳这些答案后,对自己的判断更有信心。」Shaw的解释带着研究者特有的克制,但数据背后的图景足够刺眼——AI不仅替代了思考,还伪造了思考的快感。
这让我想起早期导航软件的用户行为。有人明明看到前面是死胡同,还是跟着语音指令一头扎进去,然后怪地图不准。区别在于,导航出错你能立刻感知,AI出错往往悄无声息。
45%错误率 vs 80%服从率:中间差了什么
BBC那个45%的错误率数据,和宾大实验的80%服从率,搁在一起看像个冷笑话。用户不是不知道AI会错,BBC的报道铺天盖地;他们是在使用的瞬间,把这条常识忘了个干净。
研究者认为,问题出在交互设计的「无缝感」上。ChatGPT的界面太像真人对话,输出格式太像权威文本,以至于用户的大脑自动切换到了「接收模式」而非「审视模式」。这不是技术缺陷,是产品成功带来的副作用。
Shaw和Nave的实验还测试了一个变量:当明确告知AI可能出错时,服从率会不会下降?答案是会的,但降幅有限。知道有风险,和在使用时保持警惕,是两码事。
一个产品经理的观察
作为从PM转行的内容从业者,我对这类研究有职业病式的敏感。ChatGPT的产品设计里有个细节:它的回答总是完整、流畅、带总结性陈词。人类写东西会卡壳、会自我纠正、会用「大概」「可能」留余地,AI的输出则像一份盖了章的说明书。
这种「确定性幻觉」是工程优化的结果。OpenAI的RLHF(基于人类反馈的强化学习)训练模型生成更「有帮助」的回答,而人类评分员普遍认为,自信的回答更有帮助。
于是我们得到了一个悖论:AI被训练得越像专家,用户就越容易放弃自己的判断。产品团队追求的用户黏性,在认知层面成了单行道。
宾大研究的样本量不算大,359人,集中在英语用户群体。但实验设计的严谨性让它很难被轻易反驳——研究者控制了题目难度、错误类型、呈现方式等多个变量,「认知投降」效应依然稳健。
Shaw在播客末尾提到一个未被验证的猜想:长期使用AI辅助决策的人,其独立推理能力是否会退化?目前还没有纵向研究跟进,但现有的心理学文献支持这种担忧。批判性思维像肌肉,不用就萎缩。
实验结束后,研究团队给所有参与者发了 debriefing 邮件,解释了实验的真实目的和被操纵的AI回答。Shaw说,最让他印象深刻的反馈来自一位参与者:「我现在才知道自己刚才那么轻信,有点后怕。」
如果让你回顾过去一周用AI辅助做的决定,你能确定其中哪些经过了独立验证,哪些只是被流畅的排版说服了?
热门跟贴