来源:市场资讯

(来源:中国图象图形学学会CSIG)

打开网易新闻 查看精彩图片

中国图象图形学学会博士/硕士学位论文激励计划旨在推动中国图像图形学领域的科技进步,鼓励创新性研究,促进青年人才成长。

为宣传科技工作者积极进取的工作精神,分享获奖人的科研故事,本期推文我们独家对话2025年度CSIG博士学位论文激励计划提名获得者王曜明,听他讲述科研路上的坚守与成长,以榜样之力,赴创新之约。

问题一:感谢您接受CSIG专访,请先进行一下自我介绍:

我叫王曜明,于2024年获得上海交通大学信息与通信工程博士学位,导师为熊红凯教授。目前任美团主任研究员,北斗人才计划。研究兴趣集中在多模态大模型,尤其侧重于开创性算法设计、模型框架搭建。迄今为止,已发表人工智能顶级期刊会议论文26篇,其中以第一作者发表CCF-A论文11篇, 通讯作者发表CCF-A论文5篇。目前研究目标是构建生成理解统一的多模态模型及可交互世界模型,并致力于相关预训练,后训练的算法研究和数据治理。

打开网易新闻 查看精彩图片

问题二:在科研过程中,有没有什么好的方法可以推荐给大家?

非常感谢您的提问。在科研这条充满挑战但也充满乐趣的道路上,每个人都会逐渐摸索出适合自己的方法论。结合我自身的研究经历,我想和大家分享三个我认为比较关键的方法或者说习惯,希望能给大家带来一些启发:

第一,要培养“第一性原理”的思考习惯。

科研很容易陷入“追热点”的误区。今天流行一个新架构,明天流行一个新模块,大家就很容易盲目地去加模块、刷榜。但我认为,更重要的方法是回归问题本质。当遇到一个瓶颈时,不要急于去试错新的Trick,而是要问自己最核心的几个问题:这个现象的物理或数学本质是什么?现有的基线模型到底在哪里失效了?为什么会失效?

第二,建立闭环迭代的实验与验证体系。

做实验绝对不能是“碰运气(炼丹)”,而应该像工程师开发系统一样,建立严密的逻辑闭环。先有假说,再做实验: 每次跑代码前,一定要清楚自己要验证的Hypothesis是什么。构建极简的Toy Example: 在跑大规模实验前,先用极小的数据集或极简的参数去验证你的核心Idea是否成立。这样可以极大地节省时间成本。

第三,保持系统性文献阅读与批判性吸收。

现在的论文数量爆炸,如果漫无目的地看,很容易产生信息焦虑。我推荐的方法是:以问题为导向,进行脉络式阅读。

不要只看最新的顶会论文,要去挖掘这个子领域的“开山之作”和“综述文章”,把这个问题的演进脉络理清楚。同时,在读论文时要带着批判性的眼光:这篇论文的假设前提在我的场景下还成立吗?它的方法有没有掩盖什么缺陷?它的评估指标是否足够公平?

当你不再把顶会论文当成绝对权威,而是当成一个与作者平等对话、寻找其破绽的过程时,你的创新点自然就会涌现出来。

最后,我想补充一点非技术层面的建议,那就是保持良好的心态和韧性。科研中90%的时间可能是面对失败的,保持规律的作息、找到排解压力的途径,拥有长期主义的坚持,这或许是比任何具体方法都更重要的科研法宝。

希望这些分享能对大家有所帮助!

打开网易新闻 查看精彩图片

问题三:请对您的论文进行简要介绍:

随着预训练基础模型规模的急剧增长,将其适配到各类下游任务的计算与存储成本变得日益高昂,参数高效微调(PEFT)因此成为深度学习的核心研究方向。然而,现有的PEFT方法(如提示工程和瓶颈适配器)往往存在预训练信息丢失、易受分布变化干扰以及在未见数据上泛化能力不足等缺陷。为了探究并建立一套兼具信息无损与泛化鲁棒性的高效微调新准则,本文以**归一化流(Normalizing Flow)**为基础范式,从单模态优化、多模态融合及空间密集多模态三个维度展开了系统性研究。

在单模态优化方面,本文揭示了现有适配方法因缺乏显式Lipschitz约束而容易导致误差在模型中传播的问题。为此,提出了一种可逆归一化流跳层适配框架,通过可逆变换保证了特征分布调整时的信息无损,并利用雅可比行列式约束Lipschitz常数。该通用框架在卷积网络和Transformer等多种主干网络上展现出极高的泛化性,在17个视觉任务上实现了显著的性能跃升。

在多模态融合层面,现有方法大多局限于单端微调(如仅微调文本提示),难以释放多模态大模型的全部潜力;而直接双端微调又极易破坏预训练空间的模态一致性,引发严重的“多模态遗忘”问题。本文创新性地引入了额外视觉编码器以构建合作梯度,从而强有力地保持了模态间的耦合关系。进一步地,通过提出控制超球能量发散的理论与策略,成功摒弃了冗余编码器,在有效抑制遗忘、提升新类泛化能力的同时,平均缩减了36%的计算时间,实现了真正计算友好的多模态微调。

面向空间密集多模态任务(如指代图像分割),本文指出以往研究仅关注跨模态融合,却忽视了各模态特征分布的底层适配与全局约束。为此,本论文设计了一种新颖的交织归一化流网络,仅需0.4M的微调参数即可同时实现特征适配与模态深度交织。此外,创新性地引入了全局跳层微调模块,从文本中提取全局先验对视觉特征进行有效规范。在保持骨干网络冻结的前提下,该方法以不足2.5%的微调参数量,不仅大幅超越了现有的PEFT SOTA模型,更达到了媲美全量微调的最佳性能。

打开网易新闻 查看精彩图片

问题四:请问您在论文筹备过程中遇到最大的挑战是什么?是怎样克服的呢?

在论文筹备过程中,我遇到的最大挑战并非是代码bug或算力限制,而是“如何完成从经验现象到深层数学/物理本质的跨越”。

比如在我做大模型微调研究时,看到大家都说“多模态灾难性遗忘”很难解决,我没有急着去设计更复杂的网络结构,而是退回到梯度和特征分布的最基础层面去分析。结果发现,只要从梯度问题和超球能量这两个理论节点入手,反而能用极简的方法(比如加性低秩变换)解决看似复杂的问题。所以,把复杂现象拆解为最基本的理论要素,往往能找到最优雅、最通用的解法。

打开网易新闻 查看精彩图片

问题五:请问您有什么获奖感言呢?

今天能够站在这里领取这份荣誉,我的内心充满了喜悦,但更多的是深深的感激。这份奖项虽然握在我的手中,但它背后凝聚的,是我导师熊红凯教授无尽的心血与栽培。

在此,我要向熊老师表达最诚挚的谢意。感谢您在学术上给予我高瞻远瞩的指引。是您用敏锐的洞察力,帮我拨开研究初期的迷雾,让我学会如何用“第一性原理”去思考问题,如何从纷繁复杂的数据中洞见事物的本质。您严谨治学的态度和对学术极致的追求,是我科研道路上最明亮的灯塔。

同时,我也要感谢您在科研低谷时给予我的包容与鼓励。科研的道路上往往伴随着一次次的失败与迷茫,是您帮我重塑信心,让我拥有了直面困难的底气和韧性。您不仅教授了我做学问的方法,更传授了我做人做事的道理。

“饮水思源”,这份荣誉是对我过去努力的肯定,更是对我未来前行的鞭策。我会将这份感恩化作继续攀登科研高峰的动力,努力做出更有价值的研究成果,绝不辜负您的悉心教导与殷切期望。谢谢您!