快速阅读:CVPR一年收录4000篇论文,ICLR超过5300篇。顶会录取还算不算一种认可?这个问题本身可能问错了方向。

打开网易新闻 查看精彩图片

有人在Reddit上发了个梗:CVPR/ICLR录取通知一到,感觉就像《玩具总动员》里巴斯光年骄傲地说"我做到了",镜头一拉,会场里站着5000个一模一样的巴斯光年。

打开网易新闻 查看精彩图片

这个梗之所以传播,是因为它精准戳中了一种集体焦虑。

录取率其实没怎么变,变的是分母。投稿人数爆炸式增长,录取数字自然水涨船高。所以从概率角度讲,通过审稿这件事本身的难度并没有降低多少。真正在松动的,是录取背后隐含的那层意思:这篇文章值得读。

有网友一针见血:会议正在变成"带餐饮服务的预印本服务器"。

问题出在审稿端。一位CVPR 2024的审稿人提到,他一个周末要处理12篇稿子,到第8篇时,他已经开始靠经验直觉下判断了——代码能不能跑、baseline是不是这个年代的。这种状态下,真正需要仔细品读的工作很容易被错判。

更麻烦的是benchmark的信用崩塌。大模型的训练数据吞噬了互联网上几乎所有内容,一个benchmark刚发出来,数据污染可能就已经发生了。模型在某个测试集上表现优异,换一种问法分数就大幅下滑——这不是模型在学习,这是在记忆。有观点认为,benchmark只适合做"事后评价",一旦公开,它作为标准的有效性就开始倒计时。

有网友提出了另一种信号:GitHub star数量、主流框架是否集成某项技术,比审稿人的评分更能说明一篇论文是否真的有用。这话有道理,现实中确实有很多人靠这个筛论文。只是,这套逻辑有个历史盲区——神经网络在2012年之前的三十年,几乎通不过任何"大众审查",黎曼几何等了60年才等到爱因斯坦。被冷落的东西,不一定是错的。

有观点认为,当前ML领域的学术发表已经不再以推进科学为目标,而是在服务一个日益商业化的职业通道。这个判断有些刻薄,但不是完全没有根据。

一个值得观察的现象是:方法类论文在求职中的含金量远高于benchmark类论文,即便后者的工作量不一定更少。这不是学术评价标准在起作用,而是行业筛选逻辑在反向塑造论文的生产方向。

也有人说,引用量才是更真实的信号,"会议录取"只是第一轮过滤,"被引用"才是真正的验证。这个说法没错,但引用数据同样可以被刷,操纵引用并不比操纵审稿更难。

真正没有人给出好答案的问题是:在这个规模下,同行评审还能做到什么程度的"同行"?

一个审稿人,面对12篇跨子领域的论文,在一个周末内完成评分,这本质上已经不是专家评审,而是一种有组织的快速过滤。也许会议的功能从来就不只是质量认证,而更多是一个社群定期聚集、交换信息的仪式。只是当参与者把它当成职业勋章时,所有人都在为一个自己其实不太相信的系统维持着体面。

简评:

问题的根源不是论文太多或审稿太敷衍,而是激励结构和评价功能的根本错配。顶会录取被市场化为职业货币,但学术会议的原始设计从来不是为了给HR提供筛选依据。当一个仪式性场合被迫承担质量认证的功能,它要么崩溃,要么异化。巴斯光年们没有错,错的是有人把嘉年华入场券当成了行医执照。真正值得追问的是:为什么我们的职业系统如此饥渴,以至于非要从一个学术聚会里榨取信用?顶会不是变水了,是被迫承载了它不该承载的重量。

www.reddit.com/r/MachineLearning/comments/1rc3nez/d_is_conference_prestige_slowing_reducing/