直播回顾 | CV博士背后的故事：如何破“卷”、突出重围|博士|博士生|吴尚哲|突出重围|读博

由香港中文大学（深圳）理工学院GAP Lab主办、将门-TechBeat人工智能社区参与的系列直播活动「AI论文背后的故事」第六期——最卷的时代、最卷的方向，如何破“卷”突围，已经顺利画上句号。

本期由活动有幸邀请到了来自多伦多大学在读博士生高俊、浙江大学在读博士生彭思达和牛津大学在读博士生吴尚哲。他们围绕相似的读博经历和各自不同的学术心得，为我们带来一场博士生活背后的故事分享。

以下是本次活动精彩回顾。

当我们将目光聚焦于这三位年龄相同、在三维视觉领域中出类拔萃的年轻博士生，我们会惊叹于他们丰硕的学术成果、也会好奇在这些艰深的论文背后，是否有着和我们同样的憧憬、焦虑和困惑。本次活动将打破以专业知识讲解导向的常规形式，全程以故事分享的角度深度挖掘他们的科研轨迹和读博生活，去听听他们在这个被圈内人笑称为最卷的领域、最卷的方向，如何破“卷”、突出重围。他们的故事定然会与有着相似体验的同道博士同学产生共鸣、提供宝贵的借鉴意义，以及给不久将来或许会进入这一领域的硕士和本科同学一些指引。

▼直播视频回顾 ▼

01 如何确定坚定读博

02 科研思路

03 好工作的标准

04 三维视觉的发展趋势

05 读博日常及结语

▼以下是部分内容节选 ▼

一、我们为什么要读博

Q：当初是如何坚定读博的想法的？

高俊：于我而言，读博的想法是逐渐形成的。起初，读博的想法只是我心中一颗小小的种子，那时我因为不甘平凡而选择读博，心中想要为这个世界做点什么，结果回过神来，读博生涯就开始了。后来又恰逢疫情，疫情下的医护工作者更坚定了我读博的决心。他们之中，并非人人都有悬壶济世之志、妙手回春之能，其中的大多数只是平凡地工作着，他们的付出或许渺小，但渺小最终汇聚成伟大。疫情期间的见闻让我发现自己的工作同样是富有意义的，具有一种渺小的伟大。最后，也是非常重要的一点，我热爱我的研究工作。我认为就是这三点最终坚定了我读博的想法。

吴尚哲：我读博做科研的想法可以从商科谈起。当时我去到香港上学，城市里的霓虹灯、摩天大楼激起了我对商科的兴趣，于是我本科期间曾学习过一年的商科。不过后来我发现，站在摩天楼的顶端，视线会被云层阻挡，到达不了坚实的地面，商科的所学于我而言大多似这样的空中楼阁，过于空洞。因此，第二年，我选择了科研。因为我虽然不知道自己想要什么，但我明确了自己不想要什么，于是我就大胆地向反方向尝试，选择了更加实实在在的东西。我喜欢科研工作的创新，喜欢其脚踏实地的踏实，更喜欢取得成果后的喜悦。就是这样的正反馈坚定了我读博的想法。

彭思达：如何坚定读博的想法？当你去认真思考这件事时，潜意识里，你已经把读博视作一件值得权衡利弊的大事。然而对我来说，读博不过是有一个五年，在这五年里，你将对人类知识的边界进行探索与拓展，而我恰恰喜欢探索，因此选择了读博，仅此而已。

二、科研思路

Q：有无对自己研究思路产生重大影响的工作？

彭思达：一些课题组的科研风格对我影响特别大，比如MPI的Michael J Black。在博士之前，我其实对科研并没有一个正确的认识。我觉得做科研就是选一个方向，看看这个方向具体存在哪些问题，看看这些 SOTA 有没有可以改进的地方，然后去解决这些问题。但是经过思考，我觉得这些这样的科研思路不具有连续性。如果按照这个研究思路，假设我完成了一个工作，我会希望继续改进这个任务，对上一篇的投稿继续提升改进。然而我已经费尽心思在这个task中想出了一个好的方法，这时如果要再想一个新的方法，难度相当大，思路也非常受限。因此我觉得这不是一个好的科研思路。

我开始想那些特别厉害的课题组都是怎么做的，去学习他们的科研经验。我发现MPI的Michael J Black特别厉害，所以开始研究他们的科研风格。他们首先有一个大的科研目标：我要搞一个很强的digital human Avatar。这之后，他们会对大的科研目标进行分解。要做一个很厉害的一个很好的human Avatar，首先得先去把 motion capture做好了，而motion capture又被细化到多个步骤。要做好motion capture，先要有一个motion的表示。所以他们前几年做了很多motion表示的工作，探索什么是一个好的human motion。在完成motion后，需要知道怎么从图片视频里面，从event camera 里面去恢复出这些motion，因此目标转为human motion capture。当human motion capture完成之后，他们开始研究motion synthesis。在研究human motion capture的过程中，他们收集了大量motion的数据。这些数据对后续任务的完成有很大的帮助。

总结来说，他们先有一个大科研目标，然后规划接下来每一步应该做什么。对我来说，我们的研究思路不应该是一开始选一个任务，然后一直在任务里面去钻。我更喜欢的一个思路是，我需要确定research picture。我不针对技术本身，而是针对任务去想我应该做什么。我这一次完成目标以后，我会去思考目前任务还有哪些空白点。如果这个任务已经没有什么空白的，我会move on，朝着我大的目标往前推，接着做下一个任务。对我来说Michael J Black的思路真的太棒了，对我影响很大。

吴尚哲：我导师对我的影响很大，他一开始对于问题的思考已经非常深刻。我在读博士之前没接触过任何3D的东西。我花了可能有一年的时间才开始慢慢理解这个问题。我记得我们第一篇文章是做人脸重构。我一开始对于人脸重构没什么想法，发现很多文章都已经把结构做得特别好。我开始思考这个问题到底有什么意义？当时我导师他的想法已经非常成熟了，他给我解释无监督是什么，为什么要做这个东西。然而一开始我非常难接受，在想我到底为什么要搞这个东西？甚至在把那篇paper完成之后，我还在思考这篇 paper 的意义在哪。所以从这个方面来说，我比较幸运，有一个导师能够把问题已经想得特别透彻，引导我也慢慢地以主体的方式去思考这个问题。

自从我们第一篇文章发完之后，我发现我开始慢慢认可这个领域的目标。在这之后，我开始思考如何解决perception这个问题。perception不应该靠标注数据，不应该靠人为的这种标注的方式去告诉计算机。就像人或者其他动物学习视觉，它们并不是基于人为的去标注去告诉你一个东西是什么样的，另一个东西又是什么样的。对于物理世界，这种motivation更强，因为标注物理世界的一些property是非常困难的。

在第一篇文章之后，我去纽约谷歌实习了一趟，慢慢开始拓展了另外一个小分支：我的兴趣不仅局限于形状的3D shape上的recover, 还包含了从3D shape拓展到material、illumination这些物理属性的modeling。这个慢慢成为了我现在比较成熟的一个想法——怎么recover这些物理的property。

Q：如何推进一项工作？“明确脉络”还是“诗与远方”？

高俊：我非常赞同大家的观点——把一个很大的task decompose成一些小的task、再去解决每个小task。其中最难的事情是我们怎么样才能比较合理地分解出一个task。我们group现在的做法是decomposition from this general goal。我们想做3D content creation, 首先会确定几个比较大的领域，比如我们要做 generating modeling，我们要做3D representation，我们要做 differential rendering，或者可能还要再做一些physics。

总体的过程大概是这样子的：不同的人对不同领域理解程度不同，大家先一起讨论出一个大概的脉络，讨论每个component要怎么完成。之后大家再对大致的脉络中的任务一条一条地过。在这个module里面我们需要完成一件什么事情？下一个 module我们需要完成什么？每一个module，每一个任务可以继续分解，可以分时间去做不同的decomposition。之后是group里的分工，我们可以写出一个比较完整的design doc，每个人负责一个小的task。group里大家都知道当前要做什么，最后大家会share或者一起merge这些task。

吴尚哲：不好意思，我迫不及待地想提出另外一个perspective。我觉得做科研很多时候不能按流水线来做。如果有一个非常明确的目标，我们确实可以一步步朝目标前进。但很多时候，在更高层次，如果我们真正要探索科研的目的时候，我其实非常反对这种朝着一个既定目标前行的流水线的思考模式。我觉得科研应该更bottom-up，这才是科研的本质。对我来说，科研的本质还是找规律的过程。通过观察现象，总结出一些结论，再慢慢的搭起整个框架，这是整个科学领域的一个基础机制。在这个机制里，一开始我们可能只有些intuition和motivation，之后我们可以从这些intuition里慢慢的一步一步往上搭。

我觉得整个领域是需要不同的 perspective 的人在里面。有一些人会做偏 bottom-up 的工作，从底层开始搭建，往上搭。有些人可能有一个比较high-level的目标，然后top-down地去实现，把整个把这些模块全部都拼起来。我个人不太喜欢top-down 方式的最根本的原因在于，假设我们真正有一个非常既定的目标，如果我们达不到怎么办？或者如果我们已经达到了怎么办？

高俊：完全同意你说的，其实我们的方法有点偏engineering，它没有那么research，而且这可能也只适合公司而不是学术。如果要探索一些新的未知领域，其实我更同意你的观点，我们没有必要非得采用top-down策略。research最大的一个特点就是失败是最常见的，uncertainty 是最常见。如果什么东西都确定了，它就不叫research了。

我们之所以采用top-down方式的一个原因是这个项目大家知道它是一个很值得做的项目，而且大家知道它能work。比如最近大家知道 imagen work了，imagen video work了。我如果想在他们的基础上做一些更好的东西，我们要怎么做？这是我们top-down的思路。但是我如果做一些 exploration的东西，top-down就不太合适了。

三、好工作的标准

Q：怎样算是一项“好”的工作？

高俊：我对一项工作的评价标准有三：其一，工作是否具有开创性；其二，工作的成果是否惊艳；其三，工作的方法论是否创新。开创性有别于创新性。别出心裁，妙笔生花，用前人不曾注意的思路与方法解决问题，这叫创新；而披荆斩棘，一马当先，在众人的翘首以盼中解决瞩目的难题，此之谓开创。

我以 text to 3D generation为例，它解决了大家所公认的难题，为众人之后的工作奠定了基础，开辟了道路，我认为这样的工作就是具有开创性的。第二点就是工作的成果是否足够惊艳。我以DreamFusion为例，它解决了从2D diffusion中得到3D shape的问题。从技术上来讲，这样的工作并不具备过多的创新性，我们团队之前也做过类似的尝试，但是效果远不如他们的工作。所以从结果上看，这项工作实实在在的解决了一个问题，同时也在后人的工作中被真正的投入应用，我认为这样的工作同样值得赞赏。最后就是工作的方法论，以可微分渲染为例，其使用一些analytical的算法使渲染可微，打破了以往对于渲染不可微的认知，这种在方法论上能够取得创新的工作我也会去特别关注。

吴尚哲：我与高俊可能有些不一样，他比较看重performance，但我更加关注novelty。我认为优秀的工作是富有美感的，performance的美体现在结果上，而novelty的美则体现在方法上，能给予后人以灵感与启发。与此同时，我也会更愿意关注一些无人问津的工作，一方面是减少竞争，另一方面是这类工作往往也同样重要，需要有人挺身而出。然而正是因为冷门，这类工作往往失败的代价也特别大，很有可能辛辛苦苦一两年，最后竹篮打水一场空。这是科研最富有挑战的地方，然而取得成功后的成就感也是非凡的。因为我认为能够打破人们的固有观念，改变大家对一件事物的常规看法是一件很有意义同时也十分重要的事情，我们的科学就是在这样的迭代过程中不断发展的。

彭思达：我同样会更加关注novelty。因为我认为能登上顶刊的文章的performance必然是出众的，所以相比于performance，我会更关注一篇文章的开创性与启发性。我认为novelty存在三个层次：造灯，提灯，修灯。于黑夜开辟道路，披荆斩棘者，谓之造灯，为最高层次。为他人指点迷津，照亮前方者次之，谓之提灯。推陈出新，锦上添花者再次，谓之修灯。然而不论是哪一个层次，都有后人值得学习思考的地方。

韩晓光：我也想聊一下高俊刚刚所提到的performance driven。因为我之前是不苟同performance driven的，但是高俊所提到的并非我们常规认知下的performance driven，而是performance gap。这两者的不同在于前者注重锦上添花，而后者注重推陈出新。前者只是在前人种树的基础上纠结于准确率的提升，而后者则是闭门造车，出门合辙，其技法之精妙，思想之创新令人赞叹。这两种performance是大相径庭的。

再者，我还想提一提尚哲之前的发言。诚然如尚哲所言，事物是不断发展的，三十年河东，三十年河西，没有什么事物是永远处于风口之中的，今天的无人问津也有可能成为明日的脍炙人口。

最后，大家的发言让我联想起前几期周晓巍老师所讲的problem driven。因为无论是我们之前谈到的performance还是novelty，其初衷均是解决问题。问题解决了，创新点与表现力也就如源头活水，水到渠成了。

四、三维视觉的发展趋势

Q：对三维隐性和显性表达的见解？

高俊：其实这个是problem driven的。Implicit 与explicit各有优劣。针对不同的downstream application，我们得想明白它的需求是什么，同时看如何去结合 explicit和implicit来满足这个需求。例如我们在做explicit时，实际上的underlying representation本质上还是一个implicit function，我们并没有把implicit完全丢掉。我们最后的output是个mesh，但它的 underlying 还是 occupancy field。所以首先第一个想法是我们得考虑downstream application它到底需要什么，同时咱们再去选择怎么用以及是否要把它们给combine到一块。

如果再具体的谈implicit和explicit的优缺点，对于implicit，它的最大好处是topology可变，而且training非常方便。如果需要2D的supervision，我们可以用volume rendering。如果是3D supervision，那就直接sample points，然后train它的SDF或者是occupancy。implicit优势很多，但是它的劣势也比较明显。如果我们想做dynamics，implicit是比较难实现的。把一些physical control直接加到implicit function里面去是非常困难的，因此需要一些其它的representation。implicit的另外一个缺点就是volume rendering会比较慢。

对于explicit，往explicit representation中添加physical的限制会非常简单，因为physical的东西在mesh中的操作十分简单。使用mesh表达，differential rendering相当快。explicit最大的问题是geometry的学习。它需要通过一个mask 去得到它的geometry，没有mask引导，它很难work。但是 implicit function不用这种2D的mask，它也能够学出来一个比较好的随机shape。

实际上我觉得implicit和explicit并不是一个either or的问题。这个问题需要我们对它们的优缺点进行分析。我们需要明白是什么因素导致了implicit有这个优点、什么因素导致了explicit有这个优点，想办法把它们给融合到一块，这才是一个比较合理的 future work。我们不能只做带texture的mesh或者只做implicit function，而应该两个都看，想办法把它们两个融合到一块。

Q：如何让网络学习到physical based constrain？

彭思达：如果让一个纯网络去了解physical constrain，就只能向监督方向探索，而这方面的探索已经很多了。我个人比较喜欢的是用learning的方式去提升已有的一些simulator。因为缺乏constraint，使用CNN输出 human motion总是很容易fail掉。但对于一个agent simulator，它肯定符合物理约束的，只是行动可能不符合人的常规。如果把simulator中的policy去掉，替换成一些learning based的方法，去让它去学习像人一样走，这时候它就能又像人，又能很符合物理的约束。

吴尚哲：我稍微梳理一下。我觉得大致上来说有 3 个层次。

第一个的层次，是将问题定义在一个constrained的环境，其中包含structured data。在这个环境中，如果把物理模型既定好，因为已经知道了observation是怎么得到的，所以可以infer场景的physical property。

第二个层次是使用learning的方式。很多时候问题中并不包含structured data，比如输入一张图片，我想恢复图片里面的一些物理性质，这时候就需要借助一些prior。对于prior的学习，我觉得比较promising的一种学习方式应该是从直接data里面去学。例如给定一个physics engine，通过观测unstructured data，如网上的图片，去恢复物理渲染器里面一些parameters，确定一个物理模型。

第三个层次是更high level一点：我们要从perception入手。人的perception，动物的perception其实没有物理引擎。我们脑子里并没有装着一个物理引擎，告诉我这个是光，需要用这种光照model来渲染。你并不知道目前你眼前的这些东西的距离到底在物理上有多远。所以在perception level上，其实很多时候你根本不知道物理引擎是什么。但是你可以学习，你能够从现实生活中能够capture一些prior，这些prior足以支撑你perform各种action。在这一层次上，最终的目标可能并不是真的要得到一个物理模型，而是能够支撑你最后的action的perception。

Q：你认为三维视觉发展的趋势是怎样的？

彭思达：与我的科研思路一样，我其实不喜欢从一个技术发展的角度去看视觉接下来的发展。比如对于隐式表达，如果从技术的角度来看，我首先要知道未来有哪些隐式表达的技术是有需求的，然后研究如何发展这些技术。然而事实上，这样的“靶子”并不存在。因此我比较喜欢的是从科研目标的角度去讨论三维视觉的发展趋势。我个人对两个发展趋势比较感兴趣。

一是从二维媒体到三维媒体或是全息媒体。以前人们通信方式只能是写信打电报，到了现在的信息时代，通信方式成为了二维媒体的世界。但随着通信能力和三维数据的发展，我觉得应该往的一个全息媒体方向去发展。如果要做好一个三维全息媒体，我们应该去解决哪些问题？首先我们需要做静态和动态的重建与渲染。现在静态的重建与渲染都做得挺好，我们要move on，要做好动态的。以前也有特别多人去研究二维图片的编辑与生成，我们也得move on。比如在以后的全息媒体，大家都在数字世界里面，有很多数字内容，大家也可能会想去编辑这些内容。那么是有哪些编辑方式应该提供给用户？对这些编辑方式定义仍然很不清晰，我们需要定义怎么去生成它们。例如，如果我们真的在数字的世界里面，我会不会真的有一个虚拟的伴侣？如果有一个虚拟伴侣，我们是不是得去研究人体是怎么动的？因为作为伴侣，这个人肯定得是一个embodied agent。他得是具象的，他得有自己的动作能跟你做交互。所以我们得去研究motion的生成，包括motion capture and synthesis这些方向。有了数字世界，但大家不可能完全和物理现实世界隔绝开来，我们得想办法怎么让数字世界去帮助提升现实世界。所以我们还得去研究空间感知，比如物体位置检测，相机位置检测这些。我个人是觉得发展趋势是，我有一个大的目标，我想去实现一个全息媒体。我把这个大目标分解成小目标，然后逐个击破他们。

第二个趋势是三维视觉学术界倾向于从被动感知到主动感知，从 Internet AI 到 Embodied AI 的发展，我觉得也是三维视觉一个特别重要的发展趋势。但我对这方面倒不是很懂，还在学习中。

五、读博日常分享及结语

Q：请分享一下在北美、英国与中国大陆的读博经历？

高俊：我主要聊一聊我在北美这边的经历。我们项目组的氛围是十分平等和谐的。无论职位的高低，每一位组员都可以自由地与他人在大家都方便的时间与地点讨论任何问题，既不会去迁就高位者，也不会去轻视低位者。在公司里，大家的合作也是毫无隔阂的，经验丰富的老员工会毫无保留地与新人分享经验。我十分享受这样的氛围。我的导师也十分关照学生。他不仅关注学生在学术上的成绩，同时也会给予学生心理及日常生活上的指导。同时导师与学生的相处也是建立在平等的基础之上的，当导师犯了错，他也会诚恳地与学生道歉，这也是我十分敬重导师的原因之一。

彭思达：我的导师不会直接给我布置一项具体的任务，而是会提出一个比较general的方向，让我自己去尝试与探索，从而产生自己的理解与想法。接着我的想法又会被老师否定而不断迭代。这个过程令我收获良多，但也困难重重，因此我也十分羡慕可以被导师“颐指气使”的学生，因为他们只要按着导师的意思来就可以了，十分安逸。平时，导师给予了我充分的自由，让我有足够的时间去自由地实践自己的想法。同时我也视导师为学术研究上的良师，日常生活中的益友，遇到困难时的摆渡人。

吴尚哲：英国我所在的实验室气氛特别轻松愉悦，几位导师儒雅随和，为人低调，大家平时聊天也是插科打诨，风趣幽默。我想主要聊聊VGG两位资深的导师：AZ和Andrea。AZ在3D视觉的造诣很深，有过不少著作。令我钦佩的是，他没有在3D视觉领域固步自封，而是继续在其它领域深耕细作，我曾问过他原因，他说：“别的领域也需要推进。”AZ的求知精神令我动容。Andrea则是一位个人能力特别强的导师，他为人腼腆，喜欢在关灯后漆黑的办公室里一个人写代码。同时他也有很强的文学素养与数学功底，他的文章既有着数学的简约严谨，又有着文学的文采飞扬，令读者连连称赞。

Q：假如你遇见了“博士刚刚入学时的自己”，想给他说句话，你会对他说什么？

吴尚哲：我想对当时的自己说：谢谢。他成就了现在的我，感谢他那时的远见。

彭思达：保持求知欲与探索欲，三维视觉真的很有趣，好好读博。

高俊：我想教育当时的自己：要有大局观，学会全面思考。