2026年4月21日,一篇文章提交到了预印本平台arXiv上,这篇文章构建了一个新数据集,汇集了社交媒体平台和论文代写网站的上万条论文工厂广告。从这个数据集中可以看出,论文的虚假署名市场价位齐全,能够满足不同预算的需求。

打开网易新闻 查看精彩图片

图. 预印本原文链接:https://arxiv.org/abs/2604.24576

该文章的第一作者为芝加哥西北大学研究员里斯·理查森(Reese Richardson的音译)。理查森的另一研究发现,论文工厂的扩张速度,已远远超过撤稿或PubPeer标注等纠正措施所能跟上的步伐

对论文署名明码标价

研究所构建的数据集名为"BuyTheBy",汇总了2020年3月至2026年4月期间不同时间点收集的、来自在印度、伊拉克、乌兹别克斯坦、拉脱维亚、乌克兰、俄罗斯和哈萨克斯坦运营的七家论文工厂的18,000多条文本广告

研究发现,服务价格因地域差异很大,第一作者的价格从56美元到5,631美元不等

理查森说,找到这些广告“易如反掌”。为了追踪论文代写活动,他已加了数十个群聊,包括Facebook、微信、Telegram、Instagram和LinkedIn。

高价通常来自一家俄罗斯论文工厂,其服务对象是当地和哈萨克斯坦的研究人员。最便宜的价格来自一家印度论文工厂,全部低于150美元。这家印度工厂的Telegram群在2022年3月至2024年7月期间发布了超过1000条广告。

理查森将这种价格差距归因于论文工厂所在国家的收入差异。某些领域,如医学和材料科学,似乎比商科和教育等领域更昂贵。

为何构建这个数据集

"BuyTheBy"数据集的创建者称,这是整顿论文代写市场的首次系统性尝试

一些广告与随后在目标期刊上发表的论文相符,甚至论文标题与广告中的完全相同。一些专家认为,利用此类数据集打击这个行业很困难,尤其是现在论文工厂的商业模式随着人工智能迅速演变。

理查森估计,在超过5,500项独立产品的广告列表中,简简单单的一个搜索,应该就能发现相当多已发表的论文与之匹配,如果花时间仔细梳理能发现更多。

但他指出,论文工厂往往会更改文章标题和目标期刊,这样的话,凭广告来识别最终发表的论文变得困难。

他还表示,该数据集仅覆盖了七家论文工厂,此外,该数据集既未追踪交易的实际完成情况,也未记录论文的最终发表状态,因此远未实现全面覆盖

相比于在预印本中进行全面深入的分析,理查森更希望"BuyTheBy"数据集能成为期刊、出版商及其他相关机构采取行动的起点。"我们汇编这个数据集,是为了让其他人可以使用它。"

该数据集有助于识别潜在的欺诈行为并进行纠正,足以应对这个随着人工智能生成文本而快速演变的行业。

案例介绍

上文提及的印度论文工厂几乎专攻电气与电子工程师学会(IEEE)的会议论文集以及小型地区性期刊,其明确提及具体出版物的广告里,约有20%针对IEEE。

2024年6月的一则广告就以IEEE Xplore为目标,出售四篇论文的作者位,承诺文章被Scopus收录,且每篇论文的作者数不超过六人。

打开网易新闻 查看精彩图片

图.广告截图

一家伊拉克论文工厂在2024年3月发布了一则广告,目标期刊是施普林格·自然旗下的《Energy Systems》。作者署名的标价为350至600美元。广告称,该论文已通过“返修(revision)

《Energy Systems》在2024年9月发表了一篇标题完全相同的论文。

打开网易新闻 查看精彩图片

图.《Energy Systems》发表的论文

这篇论文的第一作者卡西·哈桑(Qusay Hassan的音译)曾文发表后期作者变更而有多篇论文被撤稿,在相关撤稿声明中,他无法证明新增作者的实际贡献。

尽管如此,卡西·哈桑仍获得了伊拉克高等教育部和科学研究部颁发的多项奖项。

施普林格·自然的科研诚信主管蒂姆·克斯耶斯(Tim Kersjes的音译)在一份电子邮件声明中表示,他们将调查这个新数据集中展示的案例。他指出,部分广告相关的投稿在发表前已被拦截,而且论文最终也不一定在广告上说的期刊发表。他表示,他们会将涉及此类行为的个人列入内部监控名单,限制其发表,阻止其担任同行评审和编辑委员会职务。

文章整理自:https://retractionwatch.com/2026/04/23/paper-mill-authorship-cost-advertisements-buytheby-dataset/-134733