【榜样领航】专访2025年度CSIG博士学位论文激励计划提名获得者王曜明|博士|原始数据|学术|榜样领航|王曜明|获得者|论文

来源：市场资讯

（来源：中国图象图形学学会CSIG）

中国图象图形学学会博士/硕士学位论文激励计划旨在推动中国图像图形学领域的科技进步，鼓励创新性研究，促进青年人才成长。

为宣传科技工作者积极进取的工作精神，分享获奖人的科研故事，本期推文我们独家对话2025年度CSIG博士学位论文激励计划提名获得者王曜明，听他讲述科研路上的坚守与成长，以榜样之力，赴创新之约。

问题一：感谢您接受CSIG专访，请先进行一下自我介绍：

我叫王曜明，于2024年获得上海交通大学信息与通信工程博士学位，导师为熊红凯教授。目前任美团主任研究员，北斗人才计划。研究兴趣集中在多模态大模型，尤其侧重于开创性算法设计、模型框架搭建。迄今为止，已发表人工智能顶级期刊会议论文26篇，其中以第一作者发表CCF-A论文11篇, 通讯作者发表CCF-A论文5篇。目前研究目标是构建生成理解统一的多模态模型及可交互世界模型，并致力于相关预训练，后训练的算法研究和数据治理。

问题二：在科研过程中，有没有什么好的方法可以推荐给大家？

非常感谢您的提问。在科研这条充满挑战但也充满乐趣的道路上，每个人都会逐渐摸索出适合自己的方法论。结合我自身的研究经历，我想和大家分享三个我认为比较关键的方法或者说习惯，希望能给大家带来一些启发：

第一，要培养“第一性原理”的思考习惯。

科研很容易陷入“追热点”的误区。今天流行一个新架构，明天流行一个新模块，大家就很容易盲目地去加模块、刷榜。但我认为，更重要的方法是回归问题本质。当遇到一个瓶颈时，不要急于去试错新的Trick，而是要问自己最核心的几个问题：这个现象的物理或数学本质是什么？现有的基线模型到底在哪里失效了？为什么会失效？

第二，建立闭环迭代的实验与验证体系。

做实验绝对不能是“碰运气（炼丹）”，而应该像工程师开发系统一样，建立严密的逻辑闭环。先有假说，再做实验：每次跑代码前，一定要清楚自己要验证的Hypothesis是什么。构建极简的Toy Example：在跑大规模实验前，先用极小的数据集或极简的参数去验证你的核心Idea是否成立。这样可以极大地节省时间成本。

第三，保持系统性文献阅读与批判性吸收。

现在的论文数量爆炸，如果漫无目的地看，很容易产生信息焦虑。我推荐的方法是：以问题为导向，进行脉络式阅读。

不要只看最新的顶会论文，要去挖掘这个子领域的“开山之作”和“综述文章”，把这个问题的演进脉络理清楚。同时，在读论文时要带着批判性的眼光：这篇论文的假设前提在我的场景下还成立吗？它的方法有没有掩盖什么缺陷？它的评估指标是否足够公平？

当你不再把顶会论文当成绝对权威，而是当成一个与作者平等对话、寻找其破绽的过程时，你的创新点自然就会涌现出来。

最后，我想补充一点非技术层面的建议，那就是保持良好的心态和韧性。科研中90%的时间可能是面对失败的，保持规律的作息、找到排解压力的途径，拥有长期主义的坚持，这或许是比任何具体方法都更重要的科研法宝。

希望这些分享能对大家有所帮助！

问题三：请对您的论文进行简要介绍：

随着预训练基础模型规模的急剧增长，将其适配到各类下游任务的计算与存储成本变得日益高昂，参数高效微调（PEFT）因此成为深度学习的核心研究方向。然而，现有的PEFT方法（如提示工程和瓶颈适配器）往往存在预训练信息丢失、易受分布变化干扰以及在未见数据上泛化能力不足等缺陷。为了探究并建立一套兼具信息无损与泛化鲁棒性的高效微调新准则，本文以**归一化流（Normalizing Flow）**为基础范式，从单模态优化、多模态融合及空间密集多模态三个维度展开了系统性研究。

在单模态优化方面，本文揭示了现有适配方法因缺乏显式Lipschitz约束而容易导致误差在模型中传播的问题。为此，提出了一种可逆归一化流跳层适配框架，通过可逆变换保证了特征分布调整时的信息无损，并利用雅可比行列式约束Lipschitz常数。该通用框架在卷积网络和Transformer等多种主干网络上展现出极高的泛化性，在17个视觉任务上实现了显著的性能跃升。

在多模态融合层面，现有方法大多局限于单端微调（如仅微调文本提示），难以释放多模态大模型的全部潜力；而直接双端微调又极易破坏预训练空间的模态一致性，引发严重的“多模态遗忘”问题。本文创新性地引入了额外视觉编码器以构建合作梯度，从而强有力地保持了模态间的耦合关系。进一步地，通过提出控制超球能量发散的理论与策略，成功摒弃了冗余编码器，在有效抑制遗忘、提升新类泛化能力的同时，平均缩减了36%的计算时间，实现了真正计算友好的多模态微调。

面向空间密集多模态任务（如指代图像分割），本文指出以往研究仅关注跨模态融合，却忽视了各模态特征分布的底层适配与全局约束。为此，本论文设计了一种新颖的交织归一化流网络，仅需0.4M的微调参数即可同时实现特征适配与模态深度交织。此外，创新性地引入了全局跳层微调模块，从文本中提取全局先验对视觉特征进行有效规范。在保持骨干网络冻结的前提下，该方法以不足2.5%的微调参数量，不仅大幅超越了现有的PEFT SOTA模型，更达到了媲美全量微调的最佳性能。

问题四：请问您在论文筹备过程中遇到最大的挑战是什么？是怎样克服的呢？

在论文筹备过程中，我遇到的最大挑战并非是代码bug或算力限制，而是“如何完成从经验现象到深层数学/物理本质的跨越”。

比如在我做大模型微调研究时，看到大家都说“多模态灾难性遗忘”很难解决，我没有急着去设计更复杂的网络结构，而是退回到梯度和特征分布的最基础层面去分析。结果发现，只要从梯度问题和超球能量这两个理论节点入手，反而能用极简的方法（比如加性低秩变换）解决看似复杂的问题。所以，把复杂现象拆解为最基本的理论要素，往往能找到最优雅、最通用的解法。