1970 年秋天,一家名为学期论文无限(Term papers Unlimited)的公司在波士顿 Htintington 大街正式创立,他们的门头赫然写着一句话:“我们不容忍抄袭”。

似乎,这家企业是一个坚守学术伦理的道德楷模?

的确,他们确实不容忍抄袭,因为他们的主营业务是贩卖论文,如果都去抄袭,就没人来买论文了。

这家公司由两位英语硕士成立,他们致力于从其他学生手里购买相对出色的论文,或是招聘那些失业的硕士来撰写论文,然后再将他们卖给其他学生,帮助这些没有意愿也没有能力自己动手撰写论文的学生来完成学术任务。

从一开始的几乎白手起家到营业额达 120 万美元,这家公司只花了一年。

打开网易新闻 查看精彩图片

图丨1971 年对这家公司的报道(来源:The New York Times)

这家公司,就算得上是最早的一批开拓“行业蓝海”的“规范”的论文工厂之一了,甚至可以说,他们为整个行业奠定了基调。

但这种行为,无疑有害于学术界的健康发展,甚至最终危害于科学的权威和有效性。这些论文工厂的问题在当时也很快引起了学术界的担忧,最终也被取缔。

但四十多年后的今天,这个问题也并未被彻底解决,而且似乎愈演愈烈。

5 月 14 日,美国著名的学术出版公司 Wiley 宣布,停刊其子公司Hindawi旗下的 19 种科学期刊。

由于虚假研究泛滥,在过去的两年内,Wiley 已从 Hindawi 作品集中撤回了 11,300 多篇论文,仅在去年八月一个月,就撤回了 3,936 篇。

在 Wiley 2024 年 Q2 财报中承认,这种混乱,导致其出版收入下降了 1800 万美元。而其中很大一部分原因就在于论文工厂的泛滥。

今年一月,Wiley 签署了“United2Act”这一行业倡议,其目的就在于打击论文工厂。但是,并非只有 Wiley 受困于论文工厂的问题。

2021 年,Nature就发表过一篇文章,对论文工厂的问题进行了揭露。据统计,从 2020 年 1 月到 2021 年 3 月期间,各大期刊撤回了至少 370 篇公开涉嫌学术造假的论文,并且文章估计,之后还会有更多的撤回。

打开网易新闻 查看精彩图片

图丨相关文章(来源:Nature)

而 Nature 2023 年的另一项分析表明,2022 年发表的所有科学论文中有 1.5-2% 的文章极有可能是由论文工厂所制造的。尤其是在生物学和医学论文中,这一比例上升至3%。

打开网易新闻 查看精彩图片

图丨论文工厂所制造论文的比例(来源:Nature)

而这种虚假论文的泛滥,由于 AI 技术的发展,尤其是大语言模型的出现,变得更为严重。

人工智能并非导致虚假研究的唯一因素,但无疑它让学术造假更加容易。

尽管 Wiley 的发言人表示,业界认识到论文工厂利用人工智能来生成欺诈性内容,所以他们以及其他出版商等都推出了检测虚假论文的 AI 工具。

然而,这些工具的有效性可能还存疑。

此前的一项研究就探讨了利用人工智能技术编写高仿真的虚假医学论文的可能性。研究者以神经外科为主题,借助ChatGPT在短短一小时内起草了一篇文章。在撰写过程中,他们给 AI 提供了一系列精心设计的指令来提升文章的专业性和欺骗性。

打开网易新闻 查看精彩图片

图丨相关论文(来源:National Library of Medicine)

研究团队随后利用了专门的人工智能鉴别软件 Content at Scale 进行测试。这款软件宣称其能以高达 98% 的准确率区分人类创作和AI生成的文本。

但针对这篇伪造文章,Content at Scale 给出的结果是,其只有 48% 的概率是 AI 的产物,远未达到可靠识别的阈值。

用另一款来自Open AI的 AI Text Classifier 的工具在评估该文是否由AI创作时,也得出了“不确定”的结论。

所以,即使采用了先进的人工智能检测工具,目前要准确无误地辨认出这些高仿真度的AI生成内容依旧存在挑战。

学术出版商们似乎更愿意享受 AI 带来的好处,而不希望他们有任何缺点。

例如Springer Nature就于去年 10 月推出了 AI 写作助手 Curie,以帮助非英语母语的科研人员更好地撰写学术文章。

打开网易新闻 查看精彩图片

图丨Springer Nature 推出的 AI 写作助手 Curie(来源:Curie)

而在 Wiley 2024 Q3 的财报中,该出版商还表示其学习部门的收入会因为“第四季度用于训练 AI 模型的内容版权交易”而提高。

随着 AI 在学术出版的应用愈发广泛,对有效检测工具的需求也愈发提高。

尽管学界也推出更多方法来检测 AI 内容,如给大模型生成的文本与图片打上水印等,但有研究表明,这些措施也并不完全有效。

打开网易新闻 查看精彩图片

图丨相关论文(来源:arXiv)

所以,我们还需要开发更多更先进的手段来检测 AI 生成的内容,否则,这些出版商恐怕很难坦然享受 AI 带来的好处了。

参考资料:

[1].https://www.theregister.com/2024/05/16/wiley_journals_ai/

[2].https://theconversation.com/fake-academic-papers-are-on-the-rise-why-theyre-a-danger-and-how-to-stop-them-224650

[3]. https://www.nature.com/articles/d41586-021-00733-5

本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。