作者 | 杨晓凡
编辑 | Camel
AI 科技评论按:2019 年马上就要结束了,这一年里我们又一同见证了雪片般密集(越来越密集)的论文,见证了全世界研究人员在各种问题上的新探索。
AI 科技评论参考 TopBots、Heartbeat、New World AI 等机构的 2019 论文榜单,总结出 2019 年发表的具有研究风向代表性的、有学术影响力、内容也精彩的 AI 论文。其中一些论文把现有的技术思路改进得更加完善,有一些加深了我们对机器学习/深度学习整件事的理解,也有的尝试了全新的假说、打开了新的探索方向。当然,这一年有许多论文都具有显著的学术价值,下面总结出的只是冰山一角。如果你觉得还有哪些论文是同样值得被回顾的,欢迎在评论区留言和我们讨论。 除此之外,我们还准备了一篇 「2019 年十大新奇论文」,总结了这一年中尤其新颖有趣、甚至出格招致批评的论文。
2019 年精彩学术论文 Top10 (按首字母排序)
[ 一 ] 论文:A Style-Based Generator Architecture for Generative Adversarial Networks ( CVPR 2019 )
[ 二 ]
论文:Bridging the Gap between Training and Inference for Neural Machine Translation ( ACL 2019 ) 弥补神经机器翻译模型训练和推理之间的缺口 作者: 中科院计算所智能信息处理重点实验室,中国科学院大学,微信 AI 模式识别中心,伍斯特理工学院,华为诺亚方舟实验室 推荐理由: 神经机器翻译模型的训练方式是给定上下文,预测某一些被掩模的词,但推理过程(真正的翻译过程)是需要从零生成整个句子。这种偏差问题其实在序列到序列转换任务中长期普遍存在。这篇论文就研究了这种偏差,并探讨如何弥补这种偏差。 作者们提出的解决方案是,生成条件在「基于参考文本中的词」和「解码器自己的输出中预选择词」两种之间切换,论文的实验做得非常完善,结果令人信服。根据 ACL 2019 论文奖评选委员会的意见,这种方法适用于当前的纯学习训练范式,也能为规划采样带来改进;而且,这不仅可能影响本来针对的机器翻译任务的未来研究和应用,也能用来普遍地改进其它的序列到序列转换模型。这篇论文也被选为 ACL 2019 最佳论文。 论文地址: https://arxiv.org/abs/1906.02448
[ 三 ] 论文:Grandmaster Level in StarCraft II Using Multi-agent Reinforcement Learning ( Nature )
AI 在游戏中胜过人类当然不是第一次了,不过 DeepMind 开发 AlphaStar 并不仅仅(和其它游戏 AI 一样)使用了大量的计算能力,他们使用的群体强化学习(群体进化、保留多种不同策略)等设计也改善了通常强化学习做法的问题,提高了智能体在复杂环境中的表现。不完全信息、高维连续行动空间的长序列建模问题的解决方案日趋成熟。 论文地址: https://www.nature.com/articles/s41586-019-1724-z (开放阅读版 https://storage.googleapis.com/deepmind- media/research/alphastar/AlphaStar_unformatted.pdf ) 详细介绍: https://www.leiphone.com/news/201901/aDDh5MOlOsU22WvK.html
[ 四 ]
[ 五 ]
论文:The Lottery Ticket Hypothesis:Finding Sparse, Trainable Neural Networks ( ICLR 2019 ) 彩票假说:找到稀疏、可训练的神经网络 作者: MIT 计算机科学与人工智能实验室 Jonathan Frankle, Michael Carbin 推荐理由 :作为缩小网络体积、降低运算资源需求的技术路线,网络稀疏化和知识蒸馏一起得到了越来越多的关注。目前最常用的稀疏化方法是先训练一个大网络然后剪枝,稀疏的网络也可以得到和稠密网络差不多的性能。 既然稀疏的网络可以有和稠密网络差不多的性能,这篇论文里作者们就提出一个大胆的假设,看作是想要的稀疏网络本来就在稠密网络里,我们只需要把它找出来就可以 —— 更具体地,如果从随机初始化的网络随机做 n 次迭代可以得到训练好的稠密网络,从随机初始化的网络里做类似数目的迭代也可以找到表现差不多的稀疏网络。只不过,找到那个稀疏网络非常依赖好的初始值,而想在随机出好的初始值简直就像抽彩票。这就是论文核心的「彩票假说」。 作者们设计了算法确认「是否抽到了好的号码」,也用一系列实验验证了假说、展示了好的初始值的重要性。甚至,从好的初始值出发得到的稀疏网络可以得到比稠密网络更好的表现。这篇论文获得了 ICLR 2019 的最佳论文奖。 大胆的「彩票假说」立刻引发了激烈讨论。作者们做了后续研究发表了 Stabilizing the Lottery Ticket Hypothesis(arxiv.org/abs/1903.01611);Uber AI 实验室发表了一篇论文 Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask(arxiv.org/abs/1905.01067)介绍了他们对这个现象的深入探究结果,揭示了「彩票假说」在碰运气之外的合理性;论文 Sparse Networks from Scratch: Faster Training without Losing Performance(arxiv.org/abs/1907.04840)也紧接着提出「彩票假设」之类的稀疏网络生成方式计算代价太高,他们的新方法可以直接从稀疏的网络结构开始训练,对计算资源需求更少、训练更快,并达到和稠密网络相近的表现;FB 田渊栋组也发表了 One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers(arxiv.org/abs/1906.02773)并被 NeurIPS 2019 接收。 论文地址: https://arxiv.org/abs/1803.03635 详细介绍: https://www.leiphone.com/news/201905/ZwDWnaSGZHDveLiO.html 代码开源: https://github.com/google-research/lottery-ticket-hypothesis
[ 六 ]
论文:On the Variance of the Adaptive Learning Rate and Beyond 关于自适应学习率的变化以及更多 作者: UIUC Liyuan Liu、韩家炜,微软研究院 高剑峰 等 推荐理由: 这篇来自韩家炜团队的论文研究了深度学习中的变差管理。在神经网络的训练中,Adam、RMSProp 等为了提升效果而加入了自适应动量的优化器都需要一个预热阶段,不然在训练刚刚启动的时候就很容易陷入不好的、可能有问题的局部最优,而这篇论文中提出的 RAdam 能为优化器提供好的初始值。借助一个动态整流器,RAdam 可以根据变差大小来调整 Adam 优化器中的自适应动量,并且可以提供一个高效的自动预热过程;这些都可以针对当前的数据集运行,从而为深度神经网络的训练提供一个扎实的开头。
[ 七 ]
[ 八 ]
[ 九 ]
[ 十 ]
More ……
除此之外,以下这 10 篇论文也曾在我们的候选列表里,它们各突出之处,我们列举如下:
AI surpasses humans at six-player poker ( Science Magazine)
https://science.sciencemag.org/content/365/6456/864
在 6 人德州扑克游戏中胜过人类的扑克 AI(这也是 Science 杂志总结的 2019 年 10 大科学突破第 10 名)
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
https://arxiv.org/abs/1909.11942v1
简化版 BERT,但不是简单的缩小了事,他们用更少的参数获得了更好的表现
A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
https://www.ri.cmu.edu/publications/a-theory-of-fermat-paths-for-non-line-of-sight-shape-reconstruction/
「非视线内的物体形状重建」,也就是「如何看到墙角后面的东西」是这篇论文的研究课题。虽然这个任务略显冷门,但这篇论文表明计算机视觉技术有潜力让更多看似不可能的事情变得可能。获得了 CVPR 2019 最佳论文
Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems ( ACL 2019 )
https://arxiv.org/abs/1905.08743
面向任务的多轮对话系统通常会为不同的任务设计预定义的模版,但不同模版之间的数据共享、数据迁移是一大难点。这篇论文就提出了有效的知识追踪、共享、迁移方法
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
https://arxiv.org/abs/1811.06152
基于单视角视频,根据运动物体的移动解算三维空间结构的做法在传统计算机视觉中就有很多研究,这篇论文里把它和深度学习结合以后带来了更好的效果,作者们增加的在线学习能力也让这个方法对不同的数据集、不同的场景有更好的适应性。
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
https://arxiv.org/abs/1905.11946
研究 CNN 模型的缩放和可拓展性,用更小的模型得到更高的准确率,而且为不同规模的计算资源提供了一系列优化过的模型。ICML 2019 Spotlight 论文
Emergent Tool Use From Multi-Agent Autocurricula
https://arxiv.org/abs/1909.07528v1
通过隐式的课程学习中,在一个具备互动和竞争机制的环境中,不同的智能体之间可以持续地找到新任务,它们也就可以持续地学会新的策略
RoBERTa: A Robustly Optimized BERT Pretraining Approach
https://arxiv.org/abs/1907.11692
专门研究 BERT 的预训练过程并提出一种新的改进思路,用新的预训练目标做更充分的训练。也就是说,设计一个大模型容易,但还要想办法确定是否已经训练够了。
SinGAN: Learning a Generative Model from a Single Natural Image
https://arxiv.org/abs/1905.01164
这篇论文尝试从单张图像学习 GAN,多种不同尺度的 GAN 组成的金字塔结构分别学习图像中不同大小的小块,整个模型的学习效果得以同时兼顾图像中的全局结构和细节纹理。ICCV 2019 最佳论文
Towards Artificial General Intelligence with Hybrid Tianjic Chip Architecture
https://www.nature.com/articles/s41586-019-1424-8
清华大学团队设计的天机芯片用融合架构同时支持来自计算机科学的、基于数值的非线性变换的人工神经网络,以及来自神经科学的、基于信号响应的脉冲神经网络。论文发表在 Nature 杂志。
招 聘
AI 科技评论希望能够招聘 科技编辑/记者 一名
办公地点:北京
职务:以参与学术顶会报道、人物专访为主
工作内容:
1、参加各种人工智能学术会议,并做会议内容报道;
2、采访人工智能领域学者或研发人员;
3、关注学术领域热点事件,并及时跟踪报道。
要求:
1、热爱人工智能学术研究内容,擅长与学者或企业工程人员打交道;
2、有一定的理工科背景,对人工智能技术有所了解者更佳;
3、英语能力强(工作内容涉及大量英文资料);
4、学习能力强,对人工智能前沿技术有一定的了解,并能够逐渐形成自己的观点。
感兴趣者,可将简历发送到邮箱:jiawei@leiphone.com
热门跟贴