信息来源:https://www.nature.com/articles/d41586-026-01726-y
一名研究志愿者提交的调查回复里,出现了这样一句话:"我不会像人类那样感到困惑。"
这句话来自大型语言模型,而不是一个真实的人。柏林马克斯·普朗克人类发展研究所的心理学博士生拉鲁卡·里拉(Raluca Rilla)意识到,这只是一个更大危机的冰山一角。她和同事估计,他们收到的在线调查回复中,多达45%是直接从AI模型的输出结果中复制粘贴而来的。这些答案背后,可能根本就没有人类,注册、阅读题目、提交回复,整个流程都是机器在操作。
这不是科幻场景,而是正在发生的现实。
调查数据正在被AI"污染",研究者束手无策
社会科学的研究根基,是真实人类的真实反应。一旦这个根基动摇,建立在其上的一切结论都会变得可疑。
问题的源头并不难理解。亚马逊Mechanical Turk和Prolific等众包平台会向完成调查的志愿者支付小额报酬,这天然制造了作弊动机。现在,只需让AI替自己作答,就能轻松赚到这笔钱,而且AI的回答往往比真人更"标准"、更整洁,反而更难被发现。
研究人员开始在问卷里埋"蜜罐":在源代码中藏入极小字号的文本(复制粘贴后就会暴露)、插入隐藏指令要求AI输出一串"XXXX"、或者设置逻辑陷阱题。里拉说,这是一场旷日持久的军备竞赛,而且防守方明显处于劣势,因为AI工具的作弊能力在持续升级,躲避检测的能力也越来越强。
德国莱比锡大学心理学家比约恩·霍梅尔(Björn Hommel)措辞悲观:"我认为,随着AI污染的持续威胁,人们对行为科学和社会科学的信任度将逐渐下降,而我们现在对此几乎无能为力。"
污染的边界远不止调查问卷本身。
《组织科学》(Organization Science)期刊今年4月公布的数据显示,自2022年11月ChatGPT首次公开发布以来,该期刊收到的投稿数量激增42%。编辑们使用AI文本检测工具分析后发现,增量几乎完全由AI生成内容驱动:截至今年2月,近三分之一的投稿摘要大部分或全部由AI撰写,另有40%含有部分AI生成的文字。投稿量上去了,但写作质量却在下滑。预印本服务器PsyArXiv也因论文量暴增而不得不临时增加人工审核环节。
东北大学政治与计算机科学家大卫·莱泽(David Lazer)还演示了一个更令人不安的场景:他让AI分析一个包含约百万人受访数据的大型调查数据集,仅用一小时就生成了一篇28页的完整论文,包含文献综述、统计结果表格和图表,格式规范,论证看似自洽。
他随即陷入了一种不安:"我是否把我一部分至关重要的创造力,外包给了AI?这真的让我感到非常痛苦。"
更危险的是,AI可以极速放大一种已经存在多年的研究歪风,统计学上称之为"P值操纵",即反复调整数据分析方式,直到得出一个看似"显著"的统计结果。AI代理可以在几分钟内构建和测试数十种分析变体,一旦找到"想要"的结果,再对假设进行逆向包装,生成一篇外观严谨的论文。
同一把刀,也可以是手术刀
但故事并没有在此走向单纯的悲观。
哈佛大学统计学家尼克·菲什曼(Nick Fishman)提出了一个完全不同的视角:AI可以让社会科学变得更严谨,而不是更堕落,关键在于怎么用。
他指出,AI系统将使研究人员更容易普及所谓的"多元宇宙分析"(或称"规范曲线分析"):同时使用所有合理的分析方法组合来处理同一批数据,呈现完整的结果分布,而不是只挑一种最"好看"的分析方式上报。如果一个研究结论在大多数分析路径下都成立,它的可靠性就会大大提升;如果它只在某种精心筛选的分析条件下才显著,这本身就是一个警告信号。
过去,这类全面的稳健性检验工作量极大,普通研究团队难以负担。而现在,AI可以在几小时内跑完几千种分析方案。
"我非常乐观。我认为这才是我们一直以来应该做的,"菲什曼说。
纽约大学政治学家约书亚·塔克(Joshua Tucker)也看到了另一层机遇:过去只有资源雄厚的顶尖大学才能享有大量研究助手,而如今每月不到100美元的AI订阅费,可以给任何一位研究者提供几乎无限的分析辅助能力。这在一定程度上拉平了研究资源的不平等。
西北大学计算机科学家杰西卡·赫尔曼(Jessica Hullman)则直接预言:既然把一篇论文转化为全面的多元宇宙分析变得轻而易举,审稿人和期刊编辑对研究的严格程度必然要跟着水涨船高。
但她也补充了一句不该被忽视的提醒:"你不能用一系列检查来取代严谨的科学思考。"
AI能跑完几千种分析方法,却无法判断哪个问题值得研究、哪种假设真正有意义。在AI让研究的执行变得越来越便宜、越来越快的时代,研究者对问题本身的判断力和思考深度,反而变得比任何时候都更加稀缺,也更加重要。
热门跟贴