2019年 10 大精彩论文，哪篇论文打动了你？|163

作者 | 杨晓凡

编辑 | Camel

AI 科技评论按：2019 年马上就要结束了，这一年里我们又一同见证了雪片般密集（越来越密集）的论文，见证了全世界研究人员在各种问题上的新探索。

AI 科技评论参考 TopBots、Heartbeat、New World AI 等机构的 2019 论文榜单，总结出 2019 年发表的具有研究风向代表性的、有学术影响力、内容也精彩的 AI 论文。其中一些论文把现有的技术思路改进得更加完善，有一些加深了我们对机器学习/深度学习整件事的理解，也有的尝试了全新的假说、打开了新的探索方向。当然，这一年有许多论文都具有显著的学术价值，下面总结出的只是冰山一角。如果你觉得还有哪些论文是同样值得被回顾的，欢迎在评论区留言和我们讨论。除此之外，我们还准备了一篇 「2019 年十大新奇论文」，总结了这一年中尤其新颖有趣、甚至出格招致批评的论文。

2019 年精彩学术论文 Top10 （按首字母排序）

[ 一 ] 论文：A Style-Based Generator Architecture for Generative Adversarial Networks ( CVPR 2019 )

一个基于风格的GAN生成器架构 作者： NVIDIA 实验室 Tero Karras, Samuli Laine, Timo Aila 推荐理由： StyleGAN 无疑是 2019 年最热门的 GAN 网络模型。在 StyleGAN 之前，GAN 的相关研究已经遇到了条件式生成困难、单纯增加模型大小的收益有限、无法生成逼真的高分辨率图像等等多种困境，StyleGAN 就冲破了这个瓶颈，在生成控制的可控制性、不同属性的互相搭配、高分辨率高清晰度（且具备一致性）方面都带来了大幅进步。为此，StyleGAN 获得了 CVPR 2019 最佳论文荣誉提名奖。

StyleGAN 在网络上引发了大量讨论，它惊人的人脸生成效果不仅折服了吃瓜群众，也吸引了很多人撰写自己的实现并开放 demo 供所有人尝试，包括生成人脸（thispersondoesnotexist.com）、生成猫（thiscatsondoesnotexist.com）、生成二次元妹子（thiswaifudoesnotexist.net）、生成房间照片（thisairbnbdoesnotexist.com）的模型。就在近期，包括论文原作者在内的 NVIDIA 实验室研究人员们发表了 StyleGAN2 论文（Analyzing and Improving the Image Quality of StyleGAN，arxiv.org/abs/1912.04958），针对性地修正了 StyleGAN 生成的图像中的缺陷等问题、提高了图像中元素的一致性，从而把图像生成质量带到了新的高峰。 论文地址： StyleGAN arxiv.org/abs/1812.04948 StyleGAN2 arxiv.org/abs/1912.04958 代码开源： https://github.com/NVlabs/stylegan2

[ 二 ]

论文：Bridging the Gap between Training and Inference for Neural Machine Translation ( ACL 2019 ) 弥补神经机器翻译模型训练和推理之间的缺口 作者： 中科院计算所智能信息处理重点实验室，中国科学院大学，微信 AI 模式识别中心，伍斯特理工学院，华为诺亚方舟实验室 推荐理由： 神经机器翻译模型的训练方式是给定上下文，预测某一些被掩模的词，但推理过程（真正的翻译过程）是需要从零生成整个句子。这种偏差问题其实在序列到序列转换任务中长期普遍存在。这篇论文就研究了这种偏差，并探讨如何弥补这种偏差。作者们提出的解决方案是，生成条件在「基于参考文本中的词」和「解码器自己的输出中预选择词」两种之间切换，论文的实验做得非常完善，结果令人信服。根据 ACL 2019 论文奖评选委员会的意见，这种方法适用于当前的纯学习训练范式，也能为规划采样带来改进；而且，这不仅可能影响本来针对的机器翻译任务的未来研究和应用，也能用来普遍地改进其它的序列到序列转换模型。这篇论文也被选为 ACL 2019 最佳论文。 论文地址： https://arxiv.org/abs/1906.02448

[ 三 ] 论文：Grandmaster Level in StarCraft II Using Multi-agent Reinforcement Learning ( Nature )

通过多智能体强化学习在星际2中达到「Grandmaster」段位 作者： DeepMind Oriol Vinyals、Demis Hassabis、Chris Apps & David Silver 等 推荐理由： 2019 年 1 月，DeepMind 开发的星际 2 AI「AlphaStar」首次亮相就击败了人类职业选手。虽然当时的比赛规则明显对 AI 方有利，但我们已经感受到了 AI 并不是靠操作速度、而主要是靠优秀的策略取得胜利的。后来，在公平规则的、基于星际 2 天梯的大规模人机 1v1 比赛中，AlphaStar 继续发挥出了优秀的表现，取得了「Grandmaster」段位，大概为所有活跃玩家的前 0.15%。这也成为了 AlphaStar 论文发表在《Nature》杂志 2019 年 10 月刊所需要的最后一个实验。

AI 在游戏中胜过人类当然不是第一次了，不过 DeepMind 开发 AlphaStar 并不仅仅（和其它游戏 AI 一样）使用了大量的计算能力，他们使用的群体强化学习（群体进化、保留多种不同策略）等设计也改善了通常强化学习做法的问题，提高了智能体在复杂环境中的表现。不完全信息、高维连续行动空间的长序列建模问题的解决方案日趋成熟。 论文地址： https://www.nature.com/articles/s41586-019-1724-z （开放阅读版 https://storage.googleapis.com/deepmind- media/research/alphastar/AlphaStar_unformatted.pdf ） 详细介绍： https://www.leiphone.com/news/201901/aDDh5MOlOsU22WvK.html

[ 四 ]

[ 五 ]

论文：The Lottery Ticket Hypothesis：Finding Sparse, Trainable Neural Networks ( ICLR 2019 ) 彩票假说：找到稀疏、可训练的神经网络 作者： MIT 计算机科学与人工智能实验室 Jonathan Frankle, Michael Carbin 推荐理由 ：作为缩小网络体积、降低运算资源需求的技术路线，网络稀疏化和知识蒸馏一起得到了越来越多的关注。目前最常用的稀疏化方法是先训练一个大网络然后剪枝，稀疏的网络也可以得到和稠密网络差不多的性能。既然稀疏的网络可以有和稠密网络差不多的性能，这篇论文里作者们就提出一个大胆的假设，看作是想要的稀疏网络本来就在稠密网络里，我们只需要把它找出来就可以 —— 更具体地，如果从随机初始化的网络随机做 n 次迭代可以得到训练好的稠密网络，从随机初始化的网络里做类似数目的迭代也可以找到表现差不多的稀疏网络。只不过，找到那个稀疏网络非常依赖好的初始值，而想在随机出好的初始值简直就像抽彩票。这就是论文核心的「彩票假说」。作者们设计了算法确认「是否抽到了好的号码」，也用一系列实验验证了假说、展示了好的初始值的重要性。甚至，从好的初始值出发得到的稀疏网络可以得到比稠密网络更好的表现。这篇论文获得了 ICLR 2019 的最佳论文奖。大胆的「彩票假说」立刻引发了激烈讨论。作者们做了后续研究发表了 Stabilizing the Lottery Ticket Hypothesis（arxiv.org/abs/1903.01611）；Uber AI 实验室发表了一篇论文 Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask（arxiv.org/abs/1905.01067）介绍了他们对这个现象的深入探究结果，揭示了「彩票假说」在碰运气之外的合理性；论文 Sparse Networks from Scratch: Faster Training without Losing Performance（arxiv.org/abs/1907.04840）也紧接着提出「彩票假设」之类的稀疏网络生成方式计算代价太高，他们的新方法可以直接从稀疏的网络结构开始训练，对计算资源需求更少、训练更快，并达到和稠密网络相近的表现；FB 田渊栋组也发表了 One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers（arxiv.org/abs/1906.02773）并被 NeurIPS 2019 接收。 论文地址： https://arxiv.org/abs/1803.03635 详细介绍： https://www.leiphone.com/news/201905/ZwDWnaSGZHDveLiO.html 代码开源： https://github.com/google-research/lottery-ticket-hypothesis

[ 六 ]

论文：On the Variance of the Adaptive Learning Rate and Beyond 关于自适应学习率的变化以及更多 作者： UIUC Liyuan Liu、韩家炜，微软研究院高剑峰等 推荐理由： 这篇来自韩家炜团队的论文研究了深度学习中的变差管理。在神经网络的训练中，Adam、RMSProp 等为了提升效果而加入了自适应动量的优化器都需要一个预热阶段，不然在训练刚刚启动的时候就很容易陷入不好的、可能有问题的局部最优，而这篇论文中提出的 RAdam 能为优化器提供好的初始值。借助一个动态整流器，RAdam 可以根据变差大小来调整 Adam 优化器中的自适应动量，并且可以提供一个高效的自动预热过程；这些都可以针对当前的数据集运行，从而为深度神经网络的训练提供一个扎实的开头。

同一时期还有另一篇研究改进优化过程的论文《LookAhead optimizer: k steps forward, 1 step back》（arxiv.org/abs/1907.08610），它的核心思路是维持两套权重，并在两者之间进行内插，可以说是，它允许更快的那一组权重「向前看」（也就是探索），同时更慢的那一组权重可以留在后面，带来更好的长期稳定性。这种做法带来的效果就是降低了训练过程中的变差，就「减少了超参数调节的工作量」，同时「在许多不同的深度学习任务中都有更快的收敛速度、最小的计算开销」（根据论文作者自己的介绍）。

这两篇论文不仅都对神经网络的优化过程提出了有效改进，而且两者还可以共同使用。这些成果都既增进了我们对神经网络损失空间的理解，还是非常有效的工具。 论文地址： https://arxiv.org/abs/1908.03265 代码开源： https://github.com/LiyuanLucasLiu/RAdam （RAdam）， https://github.com/lonePatient/lookahead_pytorch/blob/master/ （LookAhead） 详细介绍： RAdam 和 LookAhead 可以合二为一 https://www.leiphone.com/news/201908/SAFF4ESD8CCXaCxM.html

[ 七 ]

[ 八 ]

[ 九 ]

[ 十 ]

More ……

除此之外，以下这 10 篇论文也曾在我们的候选列表里，它们各突出之处，我们列举如下：

AI surpasses humans at six-player poker ( Science Magazine)
- https://science.sciencemag.org/content/365/6456/864
- 在 6 人德州扑克游戏中胜过人类的扑克 AI（这也是 Science 杂志总结的 2019 年 10 大科学突破第 10 名）
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
- https://arxiv.org/abs/1909.11942v1
- 简化版 BERT，但不是简单的缩小了事，他们用更少的参数获得了更好的表现
A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
- https://www.ri.cmu.edu/publications/a-theory-of-fermat-paths-for-non-line-of-sight-shape-reconstruction/
- 「非视线内的物体形状重建」，也就是「如何看到墙角后面的东西」是这篇论文的研究课题。虽然这个任务略显冷门，但这篇论文表明计算机视觉技术有潜力让更多看似不可能的事情变得可能。获得了 CVPR 2019 最佳论文
Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems ( ACL 2019 )
- https://arxiv.org/abs/1905.08743
- 面向任务的多轮对话系统通常会为不同的任务设计预定义的模版，但不同模版之间的数据共享、数据迁移是一大难点。这篇论文就提出了有效的知识追踪、共享、迁移方法
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
- https://arxiv.org/abs/1811.06152
- 基于单视角视频，根据运动物体的移动解算三维空间结构的做法在传统计算机视觉中就有很多研究，这篇论文里把它和深度学习结合以后带来了更好的效果，作者们增加的在线学习能力也让这个方法对不同的数据集、不同的场景有更好的适应性。
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
- https://arxiv.org/abs/1905.11946
- 研究 CNN 模型的缩放和可拓展性，用更小的模型得到更高的准确率，而且为不同规模的计算资源提供了一系列优化过的模型。ICML 2019 Spotlight 论文
Emergent Tool Use From Multi-Agent Autocurricula
- https://arxiv.org/abs/1909.07528v1
- 通过隐式的课程学习中，在一个具备互动和竞争机制的环境中，不同的智能体之间可以持续地找到新任务，它们也就可以持续地学会新的策略
RoBERTa: A Robustly Optimized BERT Pretraining Approach
- https://arxiv.org/abs/1907.11692
- 专门研究 BERT 的预训练过程并提出一种新的改进思路，用新的预训练目标做更充分的训练。也就是说，设计一个大模型容易，但还要想办法确定是否已经训练够了。
SinGAN: Learning a Generative Model from a Single Natural Image
- https://arxiv.org/abs/1905.01164
- 这篇论文尝试从单张图像学习 GAN，多种不同尺度的 GAN 组成的金字塔结构分别学习图像中不同大小的小块，整个模型的学习效果得以同时兼顾图像中的全局结构和细节纹理。ICCV 2019 最佳论文
Towards Artificial General Intelligence with Hybrid Tianjic Chip Architecture
- https://www.nature.com/articles/s41586-019-1424-8
- 清华大学团队设计的天机芯片用融合架构同时支持来自计算机科学的、基于数值的非线性变换的人工神经网络，以及来自神经科学的、基于信号响应的脉冲神经网络。论文发表在 Nature 杂志。