本文整理自《The Transmitter》的独家报道:“Exclusive: Springer Nature retracts, removes nearly 40 publications that trained neural networks on ‘bonkers’ dataset”。
据《The Transmitter》报道,出版商Springer Nature开始撤回数十篇论文,这些论文所依赖的数据集存在伦理与可靠性问题。该出版商的科研诚信部门负责人Tim Kersjes表示:自11月16日起,已有5篇论文被撤回,另有33篇计划撤回。
这些论文使用的数据集包含儿童面部照片,尝试训练神经网络以区分自闭症与非自闭症儿童。
数据集存在伦理与可靠性问题
根据数据集的相关描述,是已退休工程师Gerald Piosenka于2019年创建了该数据集。他从一些“自闭症主题网站”下载儿童照片,并将其上传至谷歌旗下的机器学习公共数据集平台Kaggle。数据集中包含2900多张儿童面部照片,其中一半被标注为自闭症,另一半被标注为非自闭症。
在阅读了一篇使用该数据集的论文后,牛津大学发育神经心理学荣誉教授Dorothy Bishop去下载了数据集,看完之后表示:“我极度震惊,尤其是看到该数据集的创建方式时,第一反应是荒谬。”
Dorothy Bishop表示,在未确认每个孩子身份的情况下,根本无法核实这些儿童是否患有自闭症。这些照片的光照条件、拍摄角度与表情都不一样,会给数据集引入过多干扰因素。“即便自闭症与非自闭症存在面部特征差异,依靠这些照片也很难将其识别出来,因为存在太多与病情无关的变量”。
澳大利亚儿童研究所首席研究员Gail Alvares认为,图片是从不同网站下载的,这些儿童及其家庭是否同意将其用于研究值得怀疑。“将图片上传至互联网,并不意味着授权其用于科研目的”。
一位Kaggle用户曾在评论区提出相同的质疑,Gerald Piosenka回应称未侵犯隐私,所有图片均属公开资源,他表示“还有比'促进儿童自闭症早期检测与治疗'更符合伦理的吗?”。
就其数据集影响到多篇论文导致撤稿一事,Gerald Piosenka并未予以回应。
该数据集已引起多个出版商关注
Tim Kersjes透露,Springer Nature在上个月针对两篇论文的独立调查中,首次注意到这个数据集。
当时,科研诚信团队正着手调查一篇“特别关注”的论文,收到图卢兹大学计算机科学教授Guillaume Cabanac的提醒,要关注另一篇包含“扭曲短语”的论文,可能是由AI生成的。
调查团队注意到,这两篇论文均使用了上文提及的这个数据集,并认为该数据集可靠性存疑,且图片收集未获伦理审批或知情同意。Tim Kersjes指出:“这一重大方法学缺陷,动摇了已发表成果的结论有效性”。
2022年5月10日,该数据集的创建者Gerald Piosenka在Kaggle上留言,称因违反平台服务条款,删除了数据集。但随后,他又将数据集文件存至Google Drive。Springer Nature团队还发现了两个由其他Kaggle用户上传的数据集,疑似原始数据集的复制版本。
《The Transmitter》联系了Gerald Piosenka和谷歌后,其他用户上传的数据集从Kaggle上消失了,Piosenka分享数据集链接的评论也被删除了。
Tim Kersjes及其团队系统审查了Springer Nature的出版物,以发现是否有其他文章使用了该数据集。最终计划撤稿38篇论文、会议论文集和书籍章节,并下架其中的37篇(这些下架出版物可保留撤稿声明、论文标题、作者、DOI等信息,但论文本身无法访问)。
除了自查,Springer Nature还联系了其他出版商就该数据集问题提出预警。
《The Transmitter》通过谷歌学术搜索,发现至少90篇出版物引用了该数据集,其中25篇发表于IEEE(电气电子工程师学会)旗下期刊。IEEE发言人回应:“已知悉该问题,正在调查中”。
Wiley曾于2023年撤回了两篇使用该数据集的论文。其发言人表示:“这两篇论文是因其他原因被撤稿。我们近期关注到针对该数据集的质疑,正在核查旗下其他论文”。
上文提出质疑的两位学者Dorothy Bishop和Gail Alvares都强调,面部特征不能用于诊断自闭症。自闭症是复杂且具异质性的病症,临床行为特征评估才是诊断金标准。
Gail Alvares指出,“面部特征与自闭症诊断的关联性”曾经是研究热点,五年前关注度最高。有人提出了“面部特征的差异可能反映了大脑发育的差异”的假设。此类研究需要获得知情同意、经过临床确诊的大规模严格对照图像样本,而这个数据集“完全不符合可用于科研的数据库的准确性标准”。
文章整理自:https://www.thetransmitter.org/retraction/exclusive-springer-nature-retracts-removes-nearly-40-publications-that-trained-neural-networks-on-bonkers-dataset/
热门跟贴