ICLR (International Conference on Learning Representations,国际学习表征会议)、 ICML(International Conference On Machine Learning,国际机器学习大会)与 NeurIPS(Conference on Neural Information Processing Systems,神经信息处理系统大会)被视为国际机器学习领域最具影响力的三个会议。

近日,ICML 公布了 2024 年度大会的录用结果,ICLR 也揭晓了本届 ICLR 的杰出论文奖和荣誉提名论文以及首个时间检验奖。

其中,ICML2024 投稿量创下了历史新高,达到了 9473 篇,比去年的 6538 篇增加了近 3000 篇,其录用率达到了 27.5%

ICLR2024 的投稿量也同样突破新高,达到了 7262 篇,录用率则约为 31%。

华人学者成绩突出

值得一提的是,华人学者在这次 ICLR 大会上的表现突出,在投稿量排名靠前的榜单中大部分都是华人名字的作者,甚至前六名全部为华人名字,第一名 Tongliang Liu 投 35 中 14 的成绩相当出众。

而在 ICLR 前不久公布揭晓的杰出论文奖与荣誉提名论文中,也有不少华人取得成就。

来自 UC Berkeley 的 Sherry Yang (杨梦娇)与 MIT 的 Yilun Du 等人合作的论文 《学习交互式真实世界模拟器》(Learning Interactive Real-World Simulators)就获得了杰出论文奖

而获得荣誉论文提名的华人学者则有三组,分别是:

北大、北京智源人工智能研究院的张博航、盖景初、杜逸恒、叶启威、贺笛、王立威合作的论文《超越魏斯费勒-雷曼: GNN 表达能力的定量框架》(Beyond Weisfeiler-Lehman: A Quantitative Framework for GNN Expressiveness)。

来自香港城市大学、腾讯 AI 实验室、西安交通大学等的 Yichen Wu、Long-Kai Huang、Renzhen Wang、Deyu Meng、魏颖(Ying Wei)合作的论文《元连续学习重温:通过减小方差隐含地增强在线黑森逼近法》(Meta Continual Learning Revisited: Implicitly Enhancing Online Hessian Approximation via Variance Reduction)。

来自伊利诺伊大学厄巴纳 - 香槟分校、微软的:Suyu Ge、Yunan Zhang、Liyuan Liu、Minjia Zhang、Jiawei Han、Jianfeng Gao 合作的论文《模型告诉你该丢弃什么 LLM 的自适应 KV 缓存压缩》(Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs)。

其余获奖者,详见:https://blog.iclr.cc/2024/05/06/iclr-2024-outstanding-paper-awards/

审稿问题引发争议

然而,除了会议的火热与成果的瞩目,与此同时,两个顶级会议也因审稿程序而引发了不少争议。

其中,审稿人的不负责和审稿质量的下滑就受到不少人的诟病。

例如,有网友就吐槽审稿意见过于糟糕,甚至“表现得像个本科生”,给出了“有 2021 年之前的参考资料,它们太过时了”、 “结果并不是所有使用的数据集上最好的,所以该方法不起作用”、“仅使用小数据集”(论文明确用于小数据学习)等让人无语的理由。

也有网友抱怨自己的论文因为审稿人的耽误而被拒稿。

ICML 的 Area Chair,Peter Richtarik 就批评道:因为一些审稿人明显错误的陈述,就毁掉了整个论文

而 ICLR 这边更是如此,例如,此前就有国内网友爆出自己得分 8/8/8 的论文因 AC 的错误意见而拒绝。

此外,ICLR 还被质疑有接受非匿名论文,审稿人与论文作者串通的情况发生。

对此,ICLR 官方也回应道,已经调查到了一些违反道德准则的现象,包括抄袭、双重提交以及审稿人和作者团体串通等,正在进行后续的处理,并表示“有理由相信它们正在许多顶级人工智能会议上发生”。

另外,AI 审稿的现象也引起不少争议。

之前我们就提到,据斯坦福大学 Weixin Liang 团队的研究显示(没错,又是这篇论文),在 ICLR 2024 等国际顶级会议的同行评审过程中,LLMs 参与已经越来越多,其中有 6.5% 到 16.9% 的评审可能经过了 LLMs 的实质性修改。

图丨ICLR 2024 同行评审中大概率由人工智能生成的词汇的出现频率变化(来源:arXiv)

而近期又有研究人员根据 ICLR 2024 的数据进行检测,发现有大约 15.8% 的 ICLR 2024 会议论文评审有 AI 的辅助参与,这一数据也与 Weixin Liang 团队的研究结果接近。

并且,他们还进一步发现,AI 辅助审核的评分要平均比人工审核高 0.14 分,而对于那些人类评审的分数等于 1(即最低分)时,AI 辅助评审的分数甚至要比人类评审的分数高 0.45 分(这也与此前我们提到的 Mike Thelwall 的研究结果类似)。

图丨人工智能辅助评论和人类评论之间的平均提交水平差异与人类参考分数的关系(来源:arXiv)

同时也会提升论文的接受率,研究发现,被 AI 辅助审核的论文被接受的可能性要比人类审核高出 3.1 个百分点,对那些处在接受“边缘”的论文(平均分在 5 到 6 之间)的效果尤其明显,接受率增加了 4.9 个百分点。

因此,AI 在同行评审过程中的参与,可能会对论文的接受与否产生影响。

值得一提的是,研究团队还提供了他们基于 GPTzero 制作的检测工具,可以帮人们检查自己的论文是否接收到了 AI 的辅助评审。

虽然,由于会议热度的持续上升,审稿人的审稿压力的确越来越大,使得他们愿意使用 AI 来帮助自己完成审稿,提高工作效率。

这篇文章的作者也认为,LLMs 可以向审稿人提供反馈,以提高写作清晰度,发现有缺陷的批评以减少误解,甚至可能提供新的方法来解决当前同行评审流程未能解决的问题等。

但是,考虑到 LLMs 的种种局限,为了学术界的良好发展,还是有必要制定将 LLMs 纳入同行评审的统一指南加以规范,以确保同行评审的完整性、有效性和透明度。

参考资料:

[1].https://blog.iclr.cc/2024/05/06/iclr-2024-outstanding-paper-awards/

[2]. https://blog.iclr.cc/2024/05/06/code-of-ethics-cases-at-iclr-2024/

[3]. https://arxiv.org/abs/2405.02150