AI污染社会科学？它也可能是救星|宇宙|心理学|社会科学|统计学|论文

信息来源：https://www.nature.com/articles/d41586-026-01726-y

一名研究志愿者提交的调查回复里，出现了这样一句话："我不会像人类那样感到困惑。"

这句话来自大型语言模型，而不是一个真实的人。柏林马克斯·普朗克人类发展研究所的心理学博士生拉鲁卡·里拉（Raluca Rilla）意识到，这只是一个更大危机的冰山一角。她和同事估计，他们收到的在线调查回复中，多达45%是直接从AI模型的输出结果中复制粘贴而来的。这些答案背后，可能根本就没有人类，注册、阅读题目、提交回复，整个流程都是机器在操作。

这不是科幻场景，而是正在发生的现实。

调查数据正在被AI"污染"，研究者束手无策

社会科学的研究根基，是真实人类的真实反应。一旦这个根基动摇，建立在其上的一切结论都会变得可疑。

问题的源头并不难理解。亚马逊Mechanical Turk和Prolific等众包平台会向完成调查的志愿者支付小额报酬，这天然制造了作弊动机。现在，只需让AI替自己作答，就能轻松赚到这笔钱，而且AI的回答往往比真人更"标准"、更整洁，反而更难被发现。

研究人员开始在问卷里埋"蜜罐"：在源代码中藏入极小字号的文本（复制粘贴后就会暴露）、插入隐藏指令要求AI输出一串"XXXX"、或者设置逻辑陷阱题。里拉说，这是一场旷日持久的军备竞赛，而且防守方明显处于劣势，因为AI工具的作弊能力在持续升级，躲避检测的能力也越来越强。

德国莱比锡大学心理学家比约恩·霍梅尔（Björn Hommel）措辞悲观："我认为，随着AI污染的持续威胁，人们对行为科学和社会科学的信任度将逐渐下降，而我们现在对此几乎无能为力。"

污染的边界远不止调查问卷本身。

《组织科学》（Organization Science）期刊今年4月公布的数据显示，自2022年11月ChatGPT首次公开发布以来，该期刊收到的投稿数量激增42%。编辑们使用AI文本检测工具分析后发现，增量几乎完全由AI生成内容驱动：截至今年2月，近三分之一的投稿摘要大部分或全部由AI撰写，另有40%含有部分AI生成的文字。投稿量上去了，但写作质量却在下滑。预印本服务器PsyArXiv也因论文量暴增而不得不临时增加人工审核环节。

东北大学政治与计算机科学家大卫·莱泽（David Lazer）还演示了一个更令人不安的场景：他让AI分析一个包含约百万人受访数据的大型调查数据集，仅用一小时就生成了一篇28页的完整论文，包含文献综述、统计结果表格和图表，格式规范，论证看似自洽。

他随即陷入了一种不安："我是否把我一部分至关重要的创造力，外包给了AI？这真的让我感到非常痛苦。"

更危险的是，AI可以极速放大一种已经存在多年的研究歪风，统计学上称之为"P值操纵"，即反复调整数据分析方式，直到得出一个看似"显著"的统计结果。AI代理可以在几分钟内构建和测试数十种分析变体，一旦找到"想要"的结果，再对假设进行逆向包装，生成一篇外观严谨的论文。

同一把刀，也可以是手术刀

但故事并没有在此走向单纯的悲观。

哈佛大学统计学家尼克·菲什曼（Nick Fishman）提出了一个完全不同的视角：AI可以让社会科学变得更严谨，而不是更堕落，关键在于怎么用。

他指出，AI系统将使研究人员更容易普及所谓的"多元宇宙分析"（或称"规范曲线分析"）：同时使用所有合理的分析方法组合来处理同一批数据，呈现完整的结果分布，而不是只挑一种最"好看"的分析方式上报。如果一个研究结论在大多数分析路径下都成立，它的可靠性就会大大提升；如果它只在某种精心筛选的分析条件下才显著，这本身就是一个警告信号。

过去，这类全面的稳健性检验工作量极大，普通研究团队难以负担。而现在，AI可以在几小时内跑完几千种分析方案。

"我非常乐观。我认为这才是我们一直以来应该做的，"菲什曼说。

纽约大学政治学家约书亚·塔克（Joshua Tucker）也看到了另一层机遇：过去只有资源雄厚的顶尖大学才能享有大量研究助手，而如今每月不到100美元的AI订阅费，可以给任何一位研究者提供几乎无限的分析辅助能力。这在一定程度上拉平了研究资源的不平等。

西北大学计算机科学家杰西卡·赫尔曼（Jessica Hullman）则直接预言：既然把一篇论文转化为全面的多元宇宙分析变得轻而易举，审稿人和期刊编辑对研究的严格程度必然要跟着水涨船高。

但她也补充了一句不该被忽视的提醒："你不能用一系列检查来取代严谨的科学思考。"

AI能跑完几千种分析方法，却无法判断哪个问题值得研究、哪种假设真正有意义。在AI让研究的执行变得越来越便宜、越来越快的时代，研究者对问题本身的判断力和思考深度，反而变得比任何时候都更加稀缺，也更加重要。