北京大学博士生杨灵：风口上的扩散模型进击者|北京大学|医学|博士生|女博士|杨灵|算法

原来他们是这样走过来的！

【AI红人荟】——这里是TechBeat人工智能社区为优秀的AI工作者开设的人物专访栏目。从膜拜“红人”到成为“红人”，TechBeat与你一起，在AI进阶之路上，升级打怪、完美通关~

本篇人物，是来自北京大学的在读博士生杨灵，今年是他在人工智能领域“打怪升级”的第五年。他的研究方向是近期大火的GNN、自监督学习、生成模型以及AI for Science，他以一作身份发表多篇CVPR，ICML论文，目前担任TPAMI，CVPR，ICML，NeurIPS，KDD，AAAI等人工智能顶会顶刊审稿人。

以下为采访全文，欢迎阅读~

来自北京大学的在读博士生杨灵，佩服钢铁侠生为凡人的创新思维和冒险精神，但也希望成为拥有超能力的超人，能够落地即“王炸”。撞上AI“风口”，他认为研究者们需要更多的是跨越未知的能力——如何在各家大厂大模型快速进化的大环境中开拓新领域？特定领域的应用与实践还有哪些待开发空间？围绕他的学术生活，我“门”与杨灵展开一场关于扩散模型、跨学科思维、科研热爱的深度对话。

“顺风”赶路，“逆风”修行

读研期间，杨灵开始对扩散模型产生兴趣。扩散模型一直是数学、物理、化学、生物等多个领域的研究热点，雏形早在2015年就有被提出，但并没有被广泛应用。直到2020年Denoising Diffusion Probabilistic Models的出现，将扩散模型带到了一个新高度。

扩散模型可以说是深度生成模型中最先进的模型，不仅是在各种图像、多模态生成上有着超越VAE，GAN等传统深度学习生成模型的表现，在其他复杂的生成任务上（药物分子发现、新材料发现、医学图像重建等）也显示出了巨大的潜力。

但是，尽管扩散模型潜力很大，扩散模型面临着很多问题，包括采样缓慢、计算消耗过大，以及泛化到各种数据类型的难度较大灯，因此扩散模型的破圈应用受到很多局限。同时，当前关于扩散模型的研究较为分散，缺乏系统性和整体性。研究者更多关注于某些特定的应用场景或问题，而缺乏对整个扩散模型的全面了解和掌握，这会限制模型的发展和应用。

在2022年，杨灵对现有的扩散生成模型进行了全面的总结分析，而这也是扩散模型全球第一篇综述， Diffusion Models: A Comprehensive Survey of Methods and Applications。与OpenAI的Yang Song（宋飏，经典扩散模型ScoreSDE一作）、北京大学崔斌实验室、加州大学&Google Research的Ming-Hsuan Yang以及CMU、UCLA、蒙特利尔Mila研究院等众研究团队首次全面概述了现代扩散模型及其应用。对每一类扩散模型进行了改进，并进行了必要的比较，总结了相应的近337篇文献。

同时，对于扩散模型的各种范式、研究方向、与过往生成模型的关联，不同的应用领域以及未来的研究方向都进行了详细的阐释。去年9月，杨灵曾在TechBeat技术社区分享Talk《扩散生成模型的方法、关联与应用》，这也是对他的综述工作的首次讲解分享。

点击图片，查看Talk内容

他提到，除了计算机视觉之外，扩散模型在其他诸多应用领域也都有出色的表现，如自然语言处理、多模态生成、时间序列、 AI for Science、鲁邦学习、医学图像等。虽然很多研究已经从应用和理论角度提出基于扩散模型的新尝试，却始终缺乏对现有扩散模型从算法到应用最新进展的系统性回顾。因此，杨灵和团队首次对扩散模型进行了全面综述，阐明扩散模型的设计考虑和先进方法，展示其在不同领域的应用，并指出未来的研究方向。

图像生成领域在扩散模型的应用下近年出现"颠覆性"现象，将图像生成效果和稳定性拔高到了一个新的高度。相比于VAE需要同时优化生成器和变分后验以及GAN需要同时优化生成器和判别器，Diffusion Models和结构更加灵活，利于加入各种条件控制，只需要训练生成器，不需要训练额外的生成器，并且生成器可以使用任意表达能力强的基础网络。

最近非常受欢迎的 Midjourney V5 就是基于扩散模型的一种可控生成模型。Midjourney 利用大量公开数据训练自己的模型。同时，Midjourney 还不断收集反馈数据并相应地迭代模型。扩散模型利用文本数据中获得的信息理解语义，并将其与图像中的“真实世界”联系起来。得益于扩散模型灵活的生成架构的特点使得网络能生成任意的高度语义可控的复杂图像。

杨灵提到，尽管扩散模型在图像生成、自然语言处理等领域取得了很多进展，但其应用还有很大的拓展空间。在当前大公司和大模型的竞争下，边缘领域的应用仍然有待进一步探索和研究。

此外，扩散模型在泛化能力和效率等方面也面临一些复杂的挑战。例如，扩散模型在医疗领域的运用目前还集中在分子蛋白质的生成式建模，但潜在的应用机会其实不少。不限于医学影像的重建增强、可视化分析，医学基因组数据分析，公共卫生领域、临床实验数据的分析等也可以利用扩散模型来达到更好的效果。

未来，我们为什么要注重跨学科学习思维？

未来十年人工智能的发展是不可估量的，杨灵认为目前阶段的“人工智能 ”离真正的通用人工智能还有很多需要改进的空间。他期待更智能的机器学习算法的出现，这些算法能够实现自主发现和学习规律，进行更加精准和高效的决策和预测，而不仅仅只是单纯的数据抓取和整合。他希望人工智能的思维模式可以更加的连续有逻辑，能够进行更加复杂的推理和决策。

杨灵认为在未来的AGI（Artificial General Intelligence）时代，人们应该更注重跨学科的学习。AGI的目标是让计算机具有与人类智能相似的广泛认知能力，以便在各种任务和领域中表现出与人类相当的能力。实现这个目标需要具备多学科知识和实际应用能力的综合型人才。

从人才角度来看，如何走进未来AGI大时代呢？

杨灵分享道：“交叉学科人才可以将多个领域的知识和技能整合起来，从而创造出新的想法和解决方案，为实现AGI提供有力支持。同时，他们可以促进不同领域之间的合作和沟通，打破学科之间的壁垒，促进知识的交流和共享。这有助于推动AGI技术的创新和发展，使其更加符合人类的需求和价值观。”

杨灵和旷视人脸识别组实习期间的同事们

最大内驱力是热爱

“我从没觉得累，做科研对于我来说是一种热爱，我很享受整个过程和带给我的成就感。”被问到科研学习过程中如何平衡生活和学习时，杨灵回答到。

在本科的学习当中，慢慢发掘了自己对于AI领域以及科研的兴趣。之后的实习经历中参与人脸识别项目，实习的带教老师可以说是杨灵的科研“伯乐”，给予了杨灵很多支持鼓励。

杨灵和阿里高德视觉攻坚组实习期间主管

科研过程中难免会碰到瓶颈和困难，热爱和耐心让杨灵从未放弃一直坚持在科研的道路上。杨灵的热爱并不是表面上的追求名利或者成就，而是内在的动力和推动力。他的思考和行动，都充满了耐心和细腻，更加注重细节和深度。跑数据的那几天，杨灵有时会凌晨“四点”自然醒，起身看看数据和结果，又踏实地进入梦乡。

杨灵对于科研的热爱是细水长流的，既没有一开始就炽烈如火，也不会一朝一夕就消失殆尽。在杨灵看来，科研是一项既充满挑战性又有意义的工作。他对于自己的研究方向充满了热情和好奇心，常常会花费大量的时间和精力去深入探索。在杨灵大学期间，“显卡自由”的年代，他还曾曾经因为“霸占”太多显卡跑数据而被“警告”，现在回顾起来，像是一种打怪叠加buff的经历。

西北工业大学本科毕业留念

“过来人”的交心话：“争做早睡人”

作为一名 “早睡” 科研人，杨灵提醒走在科研路上的小伙伴们，重视养身至关重要。尽管数据分析对科研人员来说非常重要，但良好的休息同样不可或缺。只有保持身体健康，才能有足够的力气和毅力去持续奋斗。

此外，科研人还必须保持良好的心态，学会自我调节。在科研过程中，难免会遇到瓶颈和挫折。经历过“千锤百炼”却投不出去的文章，也是家常便饭。因此，科研人需要学会调整心态，保持乐观和耐心。对于正努力奋斗在 “科研一线” 的同学们，他建议同学们可以通过阅读Arxiv、Github、大型研究团队主页等网站的参考代码以及资讯，了解相关领域的最新动态。保持对这个领域的求知欲和好奇心。

人工智能是一个非常广阔和复杂的领域，它的发展非常活跃且迅速，不断涌现出新的技术和应用。科研人需要时刻跟进最新的学术研究进展，掌握最新的技术趋势和应用方向，才能够保持自己的竞争力，并且不断地改进和创新自己的研究。

除此之外，要勇于尝试新的想法和方法，并不断将理论知识应用到实际问题中去。杨灵强调了解最新的行业动态和趋势对于一名人工智能领域科研研究者来说是至关重要的，包括最新的技术进展、学术研究、商业应用等方面的信息。

“顺风”赶路，“逆风”修行。风口与否，前路漫漫，总归是要有人坚持走下去的。这是杨灵的信仰，也是万千科研青年的缩影。希望在技术点燃想象力的未来，越来越多的青年能在AI世界中，找到自己的信仰，找到自己前行的动力。

嘉宾介绍

杨灵

北京大学在读博士生，研究方向是GNN、自监督学习、生成模型以及AI for Science。以一作身份发表多篇CVPR，ICML论文，目前担任TPAMI，CVPR，ICML，NeurIPS，KDD，AAAI等人工智能顶会顶刊审稿人。

-The End-

「AI红人荟」系列回顾：

[13]

如果你想和他们一样，亲自来到TechBeat分享，或者想推荐身边闪闪发光但是尚未入驻社区的AI工作者——欢迎填写下方表单自荐/推荐，说不定下一个TechBeat红人荟专访，主角就是你！

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择！

推荐讲者成功也有奖励哦~

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线330+期talk视频，900+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

>> 投稿请添加工作人员微信！

⤵一键送你进入TechBeat快乐星球