同一问题答5真5假！ChatGPT一致性差引决策担忧

SENSORO升哲科技

2026-03-20 18:27 ·北京

华盛顿州立大学教授梅苏特·齐切克（Mesut Cicek）及其研究团队，用科学论文中的假设反复测试ChatGPT，目的是验证AI能否正确判断这些假设是否有研究支持——即判断真假。

团队共评估了700多个假设，每个假设重复提问10次以测试回答的一致性。

一、准确率看似可观，实际仅略胜随机猜测

2024年首次测试中，ChatGPT的正确率为76.5%；2025年跟进测试时，准确率小幅提升至80%。但扣除随机猜测的概率后，结果就没那么亮眼了：AI的表现仅比随机猜测高出约60%，相当于勉强及格的水平，远达不到可靠标准。

AI在识别错误假设时表现最差，正确率仅16.4%；同时存在明显的一致性问题：即使完全相同的问题提问10次，ChatGPT给出一致答案的情况仅约73%。

二、同一问题反复横跳：一致性缺失引担忧

齐切克是华盛顿州立大学卡森商学院营销与国际商务系副教授，也是该研究的第一作者，他指出：“我们不仅关注准确率，更在意不一致性——如果你反复问同一个问题，得到的答案却不一样。”

“我们用完全相同的提问重复10次，AI一会儿说‘真’，一会儿说‘假’，甚至出现5次真、5次假的情况。”

三、流利≠理解：AI缺乏真正的概念认知

这项发表于《罗格斯商业评论》的研究强调，依赖AI做重要决策需格外谨慎，尤其是涉及复杂推理的场景。生成式AI能产出流畅可信的语言，但尚未具备人类级别的概念理解能力。

齐切克认为，这些结果表明，能真正“思考”的通用人工智能（AGI）可能比预期更遥远：“当前的AI工具不像人类那样理解世界——它们没有‘大脑’，只是记忆信息，能给出一些表面见解，但并不理解自己在说什么。”

四、研究设计：聚焦复杂商业假设测试

齐切克与南伊利诺伊大学的塞文居尔·乌卢（Sevincgul Ulu）、罗格斯大学的坎·乌斯莱（Can Uslay）、东北大学的凯特·卡尼乌奇纳（Kate Karniouchina）合作完成了这项研究。

团队选取了2021年以来商业期刊发表的719个科学假设，这些假设通常涉及复杂因素，需要细致推理才能简化为“真/假”判断。研究分别在2024年测试了免费版ChatGPT-3.5，2025年测试了更新版ChatGPT-5 mini，两者表现相近：扣除50%的随机正确率后，AI的有效表现仅比随机猜测高出约60%。

五、专家警示：AI决策需验证，不可盲目依赖

研究人员建议企业领导者，对AI生成的信息要保持怀疑并验证，同时需开展培训以明确AI的能力边界。齐切克提到，其他AI工具的类似测试也得到了相似结果，且2024年一项全国调查显示，消费者对主打AI营销的产品购买意愿更低。

“永远保持怀疑，我并不反对AI，自己也在使用，但必须非常谨慎。”

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴