打开网易新闻 查看精彩图片

注:图片来源于 PNAS 网站 ‍‍‍‍‍

我们都在热火朝天的讨论大模型带来的改变,但再看看自己的研究,好像什么都没改变。这么说也不完全准确,毕竟大模型可以帮我们做英文润色,还能找文献,还能写代码,还能处理数据......‍‍‍‍‍‍‍

PNAS上的一项研究通过四个测试分析了ChatGPT(GPT-3.5和GPT-4)在科研流程中扮演各种角色的能力,包括作为研究馆员(Research Librarian)、科研伦理学家(Research Ethicist)、数据生成器(Data Generator)和新数据预测器(Novel Data Predictor)[1]。以下是每个测试的设计与结果:

测试1:GPT能写出一个靠谱的研究综述吗?

设计:要求GPT-3.5和GPT-4从25个心理学相关主题中各找出20篇有影响力的文章并综述,这样GPT-3.5和GPT-4就得到了包括500条文献的综述。然后,两位编码人员评估了这1000条参考文献的正确性(评判时分两类,如果参考文献中有捏造或者连作者都弄错,这种属于胡扯;如果参考文献将年份或者期刊名称弄错,这种属于错误)、完整性、主题相关性和引用次数。

结果

  • GPT-3.5和GPT-4都会产生虚构的参考文献,但GPT-3.5的比例(36.0%)远高于GPT-4(5.4%)。

  • GPT-4在提供完整参考文献时,更不可能产生虚构内容。

  • GPT-4在承认虚构参考文献方面也表现得更好,84.3%的时间会注明参考文献可能是虚构的,而GPT-3.5只有12.2%。

  • GPT-4在检索相关文章方面比GPT-3.5更成功,尤其是在中等广度的主题上。

测试2:GPT能提醒科研人员正确使用统计显著性吗?‍‍‍‍‍‍‍

设计:在心理学、经济学及其他社会科学、医学领域,大量研究的可重复性存在问题,尤其是在使用统计显著性方面。p-hacking 严重影响着全球科研成果的可信度,不少人在使用统计方法的时候,反复调试,从中挑出显著的结果发表。作者向GPT-3.5和GPT-4展示了有缺陷的研究方案的虚构案例,有的案例存在严重的统计显著性问题,有的案例只存在细微的统计显著性问题,然后,看看GPT-3.5和GPT-4能否识别出潜在的统计显著性问题。结果由两位编码人员进行评估。‍

结果

  • GPT-4在识别和纠正严重问题(88.6%)和细微问题(72.6%)方面表现优于GPT-3.5。

  • GPT-4能够识别出细微的不当行为,并提供改进建议。

  • GPT-4在评分中接近科研人员的标准,而GPT-3.5则常常错过问题,有时甚至对不当行为表示赞赏。

测试3:GPT能从数据中复现科学中的性别偏见吗?

设计:作者探索了GPT-3.5和GPT-4在模拟已知科学结果(性别偏见)方面的能力。作者选择了四个广泛研究的性别刻板印象:性别态度(对女性与男性的整体积极/消极态度)、性别与“艺术和科学”的关联、性别与“家庭和工作”的关联、性别与“数学和阅读”的关联。作者向GPT-3.5和GPT-4展示了数千个随机排序的词对,并要求模型估计基于其训练数据的文化关联,例如女性与家庭的关联度高于男性,以及男性与工作的关联度高于女性。

结果

  • GPT的估计结果复制了先前研究中已知的总体的性别效应,显示出基于训练数据对女性和男性的文化偏好,以及女性(相对于男性)与艺术、家庭和阅读的更强关联。

  • GPT的效果通常比先前研究中报告的更强,这可能反映了AI系统在其训练数据中放大偏见的趋势。

  • 这些结果对于GPT在生成词嵌入研究数据方面的潜力是积极的,但也存在一些警告,例如GPT-3.5和GPT-4对相同词对的响应之间的项目间相关性是变化的但中等的。

  • GPT-4与GPT-3.5相比,并没有在减少偏见方面表现出显著改进,尽管OpenAI努力去偏见化。

测试4:GPT能预测人类对特定事务的态度吗?

设计:检验GPT-3.5和GPT-4是否能够预测未包含在其训练数据中的新模式,特别是对待跨文化的含蓄和直接态度的数据。作者使用一个新的数据集——Project Implicit International Dataset,该数据集包含了来自34个国家的230万参与者的含蓄和直接态度的数据。作者要求GPT-3.5和GPT-4对60种不同的跨文化模式进行预测,包括含蓄和直接的对性取向的态度、对年龄的态度,以及对性别与理科/文科关联的刻板印象。

结果

  • GPT-3.5和GPT-4在预测对性取向直接的态度时取得了一定的成功,但在预测对性取向含蓄的态度时则不太成功。

  • 对于对年龄的态度和对性别与理科/文科关联刻板印象,两个模型的预测都未能成功,甚至在内部一致性方面也表现不佳。

  • GPT在预测新数据方面的能力有限,特别是在预测那些在训练数据中未出现过的数据模式时。

小结

这些发现为未来模型的训练提供了有价值的参考,并表明GPT在某些科学任务中能够成为有用的工具,但不应被误认为具有全能的知识。

[1] Lehr, S. A., Caliskan, A., Liyanage, S., & Banaji, M. R. (2024). Chatgpt as research scientist: Probing gpt’s capabilities as a research librarian, research ethicist, data generator, and data predictor. Proceedings of the National Academy of Sciences, 121(35), e2404328121.

Tools

都在这里:

SCI母语润色

专注生物医学领域

唯 问 生 物

专注肿瘤基础研究

19901610324同微信

打开网易新闻 查看精彩图片

京东有售:https://item.jd.com/12824943.html(点击左下角阅读原文)

关注我们加入群聊