ChatGPT改变了你的研究吗？|性问题|文献|科学

注：图片来源于 PNAS 网站 ‍‍‍‍‍

我们都在热火朝天的讨论大模型带来的改变，但再看看自己的研究，好像什么都没改变。这么说也不完全准确，毕竟大模型可以帮我们做英文润色，还能找文献，还能写代码，还能处理数据......‍‍‍‍‍‍‍

PNAS上的一项研究通过四个测试分析了ChatGPT（GPT-3.5和GPT-4）在科研流程中扮演各种角色的能力，包括作为研究馆员（Research Librarian）、科研伦理学家（Research Ethicist）、数据生成器（Data Generator）和新数据预测器（Novel Data Predictor）[1]。以下是每个测试的设计与结果：

测试1：GPT能写出一个靠谱的研究综述吗？

设计：要求GPT-3.5和GPT-4从25个心理学相关主题中各找出20篇有影响力的文章并综述，这样GPT-3.5和GPT-4就得到了包括500条文献的综述。然后，两位编码人员评估了这1000条参考文献的正确性（评判时分两类，如果参考文献中有捏造或者连作者都弄错，这种属于胡扯；如果参考文献将年份或者期刊名称弄错，这种属于错误）、完整性、主题相关性和引用次数。

结果：

GPT-3.5和GPT-4都会产生虚构的参考文献，但GPT-3.5的比例（36.0%）远高于GPT-4（5.4%）。
GPT-4在提供完整参考文献时，更不可能产生虚构内容。
GPT-4在承认虚构参考文献方面也表现得更好，84.3%的时间会注明参考文献可能是虚构的，而GPT-3.5只有12.2%。
GPT-4在检索相关文章方面比GPT-3.5更成功，尤其是在中等广度的主题上。

测试2：GPT能提醒科研人员正确使用统计显著性吗？‍‍‍‍‍‍‍

设计：在心理学、经济学及其他社会科学、医学领域，大量研究的可重复性存在问题，尤其是在使用统计显著性方面。p-hacking 严重影响着全球科研成果的可信度，不少人在使用统计方法的时候，反复调试，从中挑出显著的结果发表。作者向GPT-3.5和GPT-4展示了有缺陷的研究方案的虚构案例，有的案例存在严重的统计显著性问题，有的案例只存在细微的统计显著性问题，然后，看看GPT-3.5和GPT-4能否识别出潜在的统计显著性问题。结果由两位编码人员进行评估。‍

结果：

GPT-4在识别和纠正严重问题（88.6%）和细微问题（72.6%）方面表现优于GPT-3.5。
GPT-4能够识别出细微的不当行为，并提供改进建议。
GPT-4在评分中接近科研人员的标准，而GPT-3.5则常常错过问题，有时甚至对不当行为表示赞赏。

测试3：GPT能从数据中复现科学中的性别偏见吗？

设计：作者探索了GPT-3.5和GPT-4在模拟已知科学结果（性别偏见）方面的能力。作者选择了四个广泛研究的性别刻板印象：性别态度（对女性与男性的整体积极/消极态度）、性别与“艺术和科学”的关联、性别与“家庭和工作”的关联、性别与“数学和阅读”的关联。作者向GPT-3.5和GPT-4展示了数千个随机排序的词对，并要求模型估计基于其训练数据的文化关联，例如女性与家庭的关联度高于男性，以及男性与工作的关联度高于女性。

结果：

GPT的估计结果复制了先前研究中已知的总体的性别效应，显示出基于训练数据对女性和男性的文化偏好，以及女性（相对于男性）与艺术、家庭和阅读的更强关联。
GPT的效果通常比先前研究中报告的更强，这可能反映了AI系统在其训练数据中放大偏见的趋势。
这些结果对于GPT在生成词嵌入研究数据方面的潜力是积极的，但也存在一些警告，例如GPT-3.5和GPT-4对相同词对的响应之间的项目间相关性是变化的但中等的。
GPT-4与GPT-3.5相比，并没有在减少偏见方面表现出显著改进，尽管OpenAI努力去偏见化。

测试4：GPT能预测人类对特定事务的态度吗？

设计：检验GPT-3.5和GPT-4是否能够预测未包含在其训练数据中的新模式，特别是对待跨文化的含蓄和直接态度的数据。作者使用一个新的数据集——Project Implicit International Dataset，该数据集包含了来自34个国家的230万参与者的含蓄和直接态度的数据。作者要求GPT-3.5和GPT-4对60种不同的跨文化模式进行预测，包括含蓄和直接的对性取向的态度、对年龄的态度，以及对性别与理科/文科关联的刻板印象。

结果：

GPT-3.5和GPT-4在预测对性取向直接的态度时取得了一定的成功，但在预测对性取向含蓄的态度时则不太成功。
对于对年龄的态度和对性别与理科/文科关联刻板印象，两个模型的预测都未能成功，甚至在内部一致性方面也表现不佳。
GPT在预测新数据方面的能力有限，特别是在预测那些在训练数据中未出现过的数据模式时。

小结

这些发现为未来模型的训练提供了有价值的参考，并表明GPT在某些科学任务中能够成为有用的工具，但不应被误认为具有全能的知识。

[1] Lehr, S. A., Caliskan, A., Liyanage, S., & Banaji, M. R. (2024). Chatgpt as research scientist: Probing gpt’s capabilities as a research librarian, research ethicist, data generator, and data predictor. Proceedings of the National Academy of Sciences, 121(35), e2404328121.

Tools

都在这里：

SCI母语润色

专注生物医学领域

唯问生物

专注肿瘤基础研究

19901610324同微信