华盛顿州立大学教授梅苏特·齐切克(Mesut Cicek)及其研究团队,用科学论文中的假设反复测试ChatGPT,目的是验证AI能否正确判断这些假设是否有研究支持——即判断真假。
团队共评估了700多个假设,每个假设重复提问10次以测试回答的一致性。
一、准确率看似可观,实际仅略胜随机猜测
2024年首次测试中,ChatGPT的正确率为76.5%;2025年跟进测试时,准确率小幅提升至80%。但扣除随机猜测的概率后,结果就没那么亮眼了:AI的表现仅比随机猜测高出约60%,相当于勉强及格的水平,远达不到可靠标准。
AI在识别错误假设时表现最差,正确率仅16.4%;同时存在明显的一致性问题:即使完全相同的问题提问10次,ChatGPT给出一致答案的情况仅约73%。
二、同一问题反复横跳:一致性缺失引担忧
齐切克是华盛顿州立大学卡森商学院营销与国际商务系副教授,也是该研究的第一作者,他指出:“我们不仅关注准确率,更在意不一致性——如果你反复问同一个问题,得到的答案却不一样。”
“我们用完全相同的提问重复10次,AI一会儿说‘真’,一会儿说‘假’,甚至出现5次真、5次假的情况。”
三、流利≠理解:AI缺乏真正的概念认知
这项发表于《罗格斯商业评论》的研究强调,依赖AI做重要决策需格外谨慎,尤其是涉及复杂推理的场景。生成式AI能产出流畅可信的语言,但尚未具备人类级别的概念理解能力。
齐切克认为,这些结果表明,能真正“思考”的通用人工智能(AGI)可能比预期更遥远:“当前的AI工具不像人类那样理解世界——它们没有‘大脑’,只是记忆信息,能给出一些表面见解,但并不理解自己在说什么。”
四、研究设计:聚焦复杂商业假设测试
齐切克与南伊利诺伊大学的塞文居尔·乌卢(Sevincgul Ulu)、罗格斯大学的坎·乌斯莱(Can Uslay)、东北大学的凯特·卡尼乌奇纳(Kate Karniouchina)合作完成了这项研究。
团队选取了2021年以来商业期刊发表的719个科学假设,这些假设通常涉及复杂因素,需要细致推理才能简化为“真/假”判断。研究分别在2024年测试了免费版ChatGPT-3.5,2025年测试了更新版ChatGPT-5 mini,两者表现相近:扣除50%的随机正确率后,AI的有效表现仅比随机猜测高出约60%。
五、专家警示:AI决策需验证,不可盲目依赖
研究人员建议企业领导者,对AI生成的信息要保持怀疑并验证,同时需开展培训以明确AI的能力边界。齐切克提到,其他AI工具的类似测试也得到了相似结果,且2024年一项全国调查显示,消费者对主打AI营销的产品购买意愿更低。
“永远保持怀疑,我并不反对AI,自己也在使用,但必须非常谨慎。”
热门跟贴