潘新钢，王腾飞 - GAN vs Diffusion：爆款论文背后的故事|diffusion|gan|潘新钢|王腾飞

GAN 和 Diffusion 作为视觉领域的两大生成模型，一直以来备受大家的关注。Drag Your GAN与Rodin是近期两款备受关注的论文：它们一个基于GAN，一个基于Diffusion；它们一个做二维生成，一个做三维生成；它们一个来自学界，一个来自业界；它们一个发表在SIGGRAPH，一个发表在CVPR。本期由香港中文大学（深圳）理工学院GAP Lab主办的《AI Paper Story Sharing 论文背后的故事》系列讲座有幸邀请到了NTU助理教授潘新钢和港科大在读博士生王腾飞，他们向观众分享了这两篇论文的投稿经历，并就“如何做好科研”展开交流。

▼下面是直播视频回顾▼

01. Drag Your GAN

02. Rodin

03. GAN vs Diffusion

04. 二维&三维

05. 投稿故事

06. 经验分享（科研idea的产生和执行）

07. 学生和导师的相处

08. 好的科研习惯的分享

09. 大模型时代选题

▼以下为内容总结▼

一、GAN vs Diffusion

1、Diffusion是否能完全取代GAN

Xiaoguang Han:

我们这期PaSS的主题是GAN vs Diffusion。今天非常有幸请到新钢和腾飞，两位的工作Drag your GAN与Robin，分别基于传统的GAN和近期流行的Diffusion。GAN和Diffusion是两类生成模型，GAN方法已经发展了很久，Diffusion最近非常流行。关于GAN与Diffusion我想问二位，两位觉得未来Diffusion能完全取代GAN吗？

Xingang Pan:

GAN与Diffusion有一点很明显的不同点，就是efficiency capacity trade-off(算力与模型表达能力之间的权衡)。GAN只需要一步就能生成结果，Diffusion模型则需要多步迭代，所以GAN生成结果的速度会更快。相应的Diffusion模型的表达能力更强。Diffusion也不会和GAN一样有mode collapse的问题，能够模拟更广的数据分布。这是两类生成模型最明显的区别。

GAN(默认指StyleGAN结构)在图像编辑任务中，可以利用模型的latent code空间，对图像的semantic attributes进行编辑。通过latent code就很容易控制图片的各种属性，这能给图像编辑带来极大的灵活性。Drag your GAN中也是利用这个特性。在最初的Diffusion版本中，模型latent space是一个noise map，它对于semantic attributes的控制没有那么直接。后来Diffusion模型加入了text guidance，text embedding space一定程度上可以控制一些semantics, 但在灵活性上仍然与GAN有一定差距。

在于模拟图像分布的连续性上，由于Diffusion的迭代过程可以模拟一个高度非线性分布。计算lipschitz条件的话，Diffusion会比GAN高非常多。这一点会表现在两个模型在图像空间中traverse时，GAN的图像变化非常连续，Diffusion模型经常会发生各种突变。

我觉得这是三点比较主要的不同。未来GAN是否会被Diffusion取代比较难回答，我相信Diffusion模型的上限一定是更高的，大家都看到了大模型的潜力，很多时候技术受限于算力。我认为GAN不可能取代Diffusion，有可能GAN被取代，也有可能在轻量化的任务上，GAN因为它的效率优势而存在。

Tengfei Wang:

Xingang已经介绍的非常全面。Diffusion相较GAN，我觉得Diffusion的最大优势在于建模更加general，更加复杂的图像上。GAN在单类别图像生成上效果非常好了。拿人脸生成模型举例，在19、20年时GAN就能生成高质量的图像。但将多类别图像混在一起训练GAN时就非常困难。Diffusion的最大优势在于能够接受不同类别的图像在一个模型中训练，可以生成非常复杂的图像。GAN（默认StyleGAN的结构）的优势在于其结构中的latent space设计，可以用来进行连续的插值，可以灵活的控制生成结果的语义信息。我们常常利用这个特性来进行图像编辑的操作。

在latent space这一方面，Diffusion和GAN在结构上有一些共性。像StyleGAN接收两个输入，一个是noise，一个是latent code（也是w code）。而diffusion对赢得是text 和 noise。由于Diffusion model的latent code主要来自于CLIP算法生成的text embedding，它连续性插值任务上不如GAN的w space。Diffusion未来可能借鉴GAN的设计在latent space方面提升。

对于两种方法的未来发展，我认为应该还是一个并存的趋势，很难有一者被取代。两者各有优缺点，Diffusion发展时间比GAN短，它的缺点可能随着时间增加被解决。GAN也有自己特有的优势，它不仅能作为生成模型，也可以被当成loss function用。像超分辨率任务，就有将GAN作为loss function的方法设计。而且GAN对数据的要求没有Diffusion这么严格。比如我们Robin的工作，针对3D生成任务的时候，Diffusion模型需要有3D data的groundtrue，再在此基础上加入和去除噪音，去训练这样的一个Diffusion模型。而GAN来解决问题时，就不需要有真实的3D model，可以直接用一些图像数据加入loss，学习图像分布。我觉得未来Diffusion能做好很多任务，而GAN可能会去完成另外的一些任务，我觉得可能还是会各自发展，相互借鉴。

2、二维生成的未来挑战

Xiaoguang Han:

刚才讲了GAN vs Diffusion，Drag your GAN和Robin分别属于二维生成和三维生成的内容。Tengfei之前也研究过二维生成的内容，Xingang的招生宣传中提到未来会涉猎三维内容生成。我想问两位，目前二维图像生成领域还有什么问题待解决？

Xingang Pan:

现在图像生成的质量已经很好了。包括基于text的图像编辑，最近的diffusion model都已经做得非常好。我能看到下一步一个最明显的问题，就是如何把Drag your GAN的特性迁移到任意真实图像（Drag your GAN目前只能对单种类图像进行Drag编辑）。我认为这是可以实现的事情，因为Drag编辑这应用非常广泛，可以作为Photoshop的一种新功能，也可以在动画/影视制作和设计上广泛应用。另外一些就是其他维度的探索问题，例如，生成的图片是否可以zoom in，可以看清楚图像多尺度的信息，如生成人像图片的汗毛，人像头发的细丝之类。

Tengfei Wang:

现在图像生成其实看起来质量都很高，我之前与designer(设计师)沟通过。他们使用图像生成模型，基本都是生成png格式的图片，一般用于创意原型的验证。在designer实际使用的过程中，对矢量图有需求，或者对不同图层的各种格式图片会有需求。未来二维图形的方向可以着眼于，结合生成图像和designer的pipeline，这样可以帮助他们提高生产力，也是一个很有意义的方向。

Xingang Pan:

我觉得，从摄影的角度，摄影工作pipeline后期以及编辑方面也有许多可以拓展的地方。例如，像midjourney生成的图片，能否实现重对焦，能否实现HDR，能否同时生成depth，或者说你对光线光照方向变化的编辑，或者对其中物体材料属性的编辑。

3、三维生成的未来挑战

Xiaoguang Han:

好的，我们刚刚聊了二维图像生成还有许多问题有待解决。那么对于三维生成，我觉得可能还是一个相对较新的领域，相较二维图像生成的问题还有很多。对于这两个topic来说有什么样的区别？比如在任务难度上。

Tengfei Wang:

因为多一个维度，三维生成比二维生成更难。从数据角度讲，2D的图像数据是非常多的，从互联网爬取数据都是billion规模的数据。但三维生成任务本身的数据量受限制，现在的一些三维数据可能也就几百万的规模。如何用有限的数据来学习一个更高维度的生成模型，这个任务本身就是一个更有挑战的事情。若想实现一个三维生成的大模型，并达到二维生成同样惊艳的quality，单纯的使用三维数据不一定够。可能还需要用一些三维信息没有那么好的数据作为辅助，如videos或者multiple image collection之类的各种数据混在一起。之前Xingang的Drag your GAN工作里面，其实也展示了一点能实现3D-aware的编辑效果。我觉得二维和三维生成的一个主要区别在于采用的训练数据里面，三维信息到底有多完整。

假设要在FFHQ数据集上训练一个模型，本身人脸图片有不同角度，所以somehow有一些三维信息，我们只能说三维信息不是很完整，只是一些零散信息。但用这样的信息训练一个GAN和Diffusion，也能用一些方法挖掘出来，做到一部分3D-aware。纯三维生成模型使用的三维数据更好更加精细，具有更完整的三维信息。能够在三维上实现更加连续，做到更大的旋转角度，生成一些模型细节。我觉得未来的三维生成模型，可以用非常高质量的三维数据进行打底，再结合一些二维的数据来提升纹理的精细程度，或者在其他方面提高生成结果的质量。

Xingang Pan:

就像Tengfei说的，最直观的就是质量与数据的区别，现在midjourney的生成图片已经可以被商业使用了，但是三维生成的质量很难被用于电影制作等应用场景中。一方面在于数据区别，目前三维数据并没有这么多，目前三维生成的研究大致分为原生3D派和2D升维派两种。3D方向还是有非常多的研究可以继续探索。传统3D建模是使用专业的建模软件进行手工建模，我猜想三维生成的特性也许可以不是作为独立from scrath开始生成的内容，而是作为传统三维建模软件的插件，在特定情况下进行辅助，以及对材料的生成，对于一些动态物理过程的实现。其实这些都是可以进一步深究的问题。

二、经验分享

1、怎么确定要做什么idea？确定了怎么做？

Xiaoguang Han:

Xingang提到有趣的idea，我觉得这是一个老生常谈的问题。我想问问两位，怎么样的idea，觉得才是值得动手去做的？另外，针对一个idea，想到多么成熟后，才决定开始动手去做？

Xingang Pan:

我觉得这是一个很重要的问题，因为我觉得找到一个对的idea是成功的一半甚至更多，所以想idea的过程比较重要。我觉得产生灵感的可能性有很多，比如你在阅读经典的时候可能会产生灵感，因为现在领域的发展节奏比较快，其实很多好的idea在以前的工作里就出现过，那么在新的基础下，他们可能会以新的方式呈现出来。

此外，你可能会从观察现有的工作中的结果，受到启发。比如说我之前styleGAN2的demo中展示拽脸的效果，我受此启发觉得二维的GAN好像学到了三维信息，我有没有可能把三维模型无监督的重建出来。然后就是涉及到可不可行的关于成功率的问题，这个需要一点经验，或者前期的探索。所以我觉得可能不是说你一开始就想好就要做这个，或者就不要做这个，而是需要花时间去做调研，然后再判断是否值得做下去。所以当时想到二维GAN能重建三维这件事情的时候，我也很兴奋，觉得这事情很有意思。联系合作者后，合作者也觉得很有意思。一个idea实现的成功率，可以用自己和合作者的经验判断，或者通过自己时间投入调研来判断。

Tengfei Wang:

我想idea一般都先比较天马行空的想，可能会像很多或者看论文或者跟别人交流的时候有idea，可能随时都会记下来。最后可能比如记下了20来个idea，再从这20个里面筛选。可能先因为可行性筛选为10个，再根据项目可能的impact和novelty再筛选为最后的选择。这样从20个里面筛选为自己特别想去做的idea，经过筛选对这个idea有比较强的信念感。如果科研做到某个地方卡住了，可能不一定是idea的问题，可能是哪个地方没做对，然后再去想一些办法来解决。很多时候可能是自己做一半就放弃了，可能并不一定是idea不work，可能只是哪儿个地方可能暂时没有搞对，这时相信这个idea，再坚持一下就做成了。

2、如何定义novelty

Xiaoguang Han:

这个问题很多老师都会聊，叫做take it novelty。我个人认为，在rebuttal或者review的时候，这是一个蛮主观的一件事情。首先要identify什么是take it novelty，然后才能观察novelty够不够。所以我想问问两位什么叫做novelty？

Xingang Pan:

对我而言，一个方法用白话说是novel的，就意味着他没有那么容易想到。但当他出现的时候，会发现他是合理的，而且是work的。novel的方法不容易想到，那么肯定不是a+b，从另一个文章的模块拿到另一个paper中用。它可以是一些基本元素的组合，例如像Deep image Prior就是我个人非常欣赏非常novel的工作。基本元素无非是重建和优化，但它的思想是之前没人想到的，这样的工作就很新颖。

Tengfei Wang:

我觉得novelty的概念很难定义，而且不同人对novelty的观点与不同人的taste有很大关系。一个工作很多人觉得novel，另一些人可能就觉得很trivial。于我个人而言，如果你的工作能给这个community带来新的知识，我觉得这样的工作就是有contribution的。可能这个事情容易想到，但是之前没人说过这个事情，然后能够给大家带来新知，告诉大家原来还可以这样。我觉得这样的工作就是novel的，包括之前读Michael J. Black的博客[Novelty in Science]( https://perceiving-systems.blog/en/post/novelty-in-science )，他其实也解释了novelty的一些事情，我觉得也写得非常好，就不一定简单的东西就没有novelty，也不一定复杂的就是novel的。我觉得这个还是跟个人感受有关，可能还是一个比较主观的事情。

3、如何平衡idea的新颖和可实现性

Xiaoguang Han:

我接下来的问题与之前novelty的问题也有关。比如，我们想一个idea，这件事情没有人去做，从这个角度上看是新的。但是当没有人做过的时候，不知道这个事情是否针对容易work。可能说用了一个非常straightforward的做法就work了。那么这时，这份工作的novelty怎么来？这份工作的contribution怎么来？

另外就是，这个事情不是那么容易work，这意味着这个事情太难了，可能无法work，这个事情大家如何去balance这个事情。

Xingang Pan:

首先，我觉得容易work不一定是个问题，因为这事情没有人去做过，把它做成功本身就是一件有价值的事情。神经网络刚出现的时候，把它用到了某一个新的问题上，或者transformer用到一个新问题上，其实也是有价值的工作。

如果，一个问题不那么容易work，我觉得这时该考虑一下凭什么觉得可以做成功。是你对这个领域有比较深刻的认识，还是因为之前不work有什么原因？你是否有充分的理由说服自己，你想的事情是可以做work的，这里的理由可以基于经验，也可以是基于一些初步的实验。

Xiaoguang Han:

其实我在刚才听Drag your GAN的时候就已经听出来，你有很多的尝试，但是你会不会担心说，这样做完之后会不会没有technical contribution？这就像我们刚才说的，很容易work，但我们毕竟还是会担心reviewer会不会觉得你有technical contribution对吧？这个事情不知道Xingang你怎么觉得？

Xingang Pan:

首先，就像刚刚说的technical contribution，是一个非常主观的事情，然后一篇paper不能光光看它的technical contribution，还要看它的overall contribution。我觉得Drag your GAN的最终效果和任务意义是足够新颖和有趣的，有价值的。那么即使technical上弱一点，也是很不错的工作。

关于technical上弱的事情，有reviewer问过，但我觉得它并不是那么的weak，因为有些最终想到的方案，其实看起来并不是那么一件straightforward的事情，你可能需要一些insight，一些积累，一些探索，最终才能发现一个比较简单优雅的解决方案。

Tengfei：

我觉得，对于可能刚刚接触科研的一些人来说，去做一些很容易work的东西其实也挺好的，可以在这个过程中熟悉科研的流程，熟悉整体的pipeline。对研究有了一些经验以后，在做idea的时候，实际上是有很选择的，有些可能是容易做的，有些可能要难一点，这是就可能需要做一个取舍了，可能根据自身的情况，毕竟时间有限。比如可能还是会想去做一些，可能价值更大一点的问题，因为一个简单的work的idea，从做到写论文可能也需要一到两个月的时间，我更倾向把时间投入到更重要、稍微有点难度的问题上去。

三、如何处理与导师的关系

Xiaoguang Han:

谢谢两位。刚才我们聊了很多关于科研的过程里面的经验分享。我们再来聊聊导师。Xingang其实经历过很多，最早的汤晓鸥老师，包括合作过的罗平老师，还有现在做postdoc的Christian，除了这几位，可能还有一些私下执导过的导师和合作者。从Xingang角度来讲，这些老师，对你来说，从他们身上学到了什么东西？另外，你怎么处理和导师的关系，怎么定位老师对你的整个过程中的作用？

Xingang Pan：

我觉得每一位刚走入科研的学生一定是从writing、从科研习惯、从research taste、从怎么读文献、发现方法都可以从导师这边学到一些经验的。比如说，最直接的就是writing，初出茅庐的同学怎么写一篇文章，其实是各各方面都需要老师的指导。比如说我刚开始做科研的时候，主要是罗平老师会改我的文章，然后Christian也会改我的文章，后来跟其他老师合作也会帮忙改文章。其实可以发现，每个老师改文章的风格也是有点不同的，但也会有共性。

共性就是要求逻辑链一定要清楚，并且要防止一些reviewer会argue的点，比如以前的工作介绍不到位，或者说writing的措辞如何准确，写起来更academic。

另外在科研方面，罗平老师给我的一个影响就是他的一些工作其实是基于更加基础的理论研究的方法去得到启发，来进行后续的研究。所以很多时候，我当时想了一个新东西，他会告诉我这个东西有一些工作已经做了，或者说这个东西可能和什么理论的工作又联系。他让我知道，有时候要去survey的不只是相关的工作，也包括更基础的一些工作，然后从中得到启发。

Xiaoguang Han:

okay，Tengfei这边有什么要分享的吗？Tengfei有和陈启峰老师和张博一起合作，我猜张博应该指导得更多一点。这两个老师其实还不太一样，一个在学术界，一位在工业界，对你来说有没有什么从老师身上学到的东西，让你印象比较深刻？比如我之前问过一些学生，第一次写论文被老师批的一无是处，有没有类似经验可以分享?

Tengfei Wang:

其实我还挺幸运的，我不管是在学校还是在实习时，遇到的导师，其实人都挺nice的，其实从这里面就非常亲切了。从这里面学到很多。具体一点，在我刚接触科研的时候，主要还是启峰老师在指导，从他这里学到的主要还是对研究选题上taste的一些感受。他可能就会告诉我们选一些比较重要的比较有意义的问题，不要花太多时间在一些很简单的问题上面去。在公司实习的话，可能讨论的密度会大一点。在学校可能一周一次meeting，在公司实习的话，可能和mentor和张博老师基本上每天都会有meeting，有想法的时候，随时可以交流。包括在微软的时候，还会和百宁老师有很多讨论，他也会指导我们的的项目。其实从这些比较senior的导师身上，其实可以学到一些更加high-level一点的思考问题的方式。包括我们Robin的论文，introduction是百宁老师写的。他本身已经非常senior了，他还会亲自上手写整段的introduction，从他的introduction里其实也学到很多，因为我们在他的introduction后，我们写了一版从语言和逻辑各方面都有很大的提升。

本文来源：公众号【 GAP Lab 】

Illustration by IconScout Store from IconScout

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门投资基金、将门创新服务以及TechBeat人工智能社区。公司致力干通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。