文章来源:计算机书童。

在计算机视觉领域,多模态图像配准与融合技术一直是研究热点。无论是安防监控、医疗影像还是遥感探测,如何将可见光、红外等不同模态的图像精准对齐并有效融合,始终是提升场景理解能力的关键。近期,一篇题为《AU-Net: Adaptive Unified Network for Joint Multi-Modal Image Registration and Fusion》的论文提出了全新解决方案,让我们一起来揭开这项创新研究的神秘面纱。

论文信息 题目:AU-Net: Adaptive Unified Network for Joint Multi-Modal Image Registration and Fusion 自适应统一网络:用于联合多模态图像配准与融合 作者:Ming Lu, Min Jiang, Xuefeng Tao, Jun Kong 源码:https://github.com/luming1314/AU-Net 传统方法的瓶颈:为何1+1≠2?

长期以来,联合多模态图像配准与融合(JMIRF)领域存在两大痛点:

  • 效率低下 :传统方法多采用"先配准后融合"的级联模式,两个模块独立训练、依次执行,运行时间简单叠加,未充分挖掘结构共享潜力

  • 协同不足 :即使是最新研究,也仅实现像素级联合训练(PLJT),本质仍是模块的简单组合,无法实现配准与融合的深度协同增强

图1:(a)单独训练模式 (b)像素级联合训练模式 (c)本文提出的特征级联合训练模式
打开网易新闻 查看精彩图片
图1:(a)单独训练模式 (b)像素级联合训练模式 (c)本文提出的特征级联合训练模式

核心创新:特征级联合训练(FLJT)范式

论文提出的特征级联合训练(FLJT) 彻底打破传统框架,通过三个维度实现突破:

  1. 统一网络架构 :将配准与融合模块深度整合,共享特征提取结构,避免冗余计算

  2. 分层语义交互 :在多尺度特征层面实现配准与融合的双向反馈,跨层传递语义信息

  3. 动态协同学习 :通过对称结构设计,使配准精度提升与融合质量优化形成正向循环

AU-Net总体框架:四模块协同工作

图2:AU-Net整体框架图,包含四大核心模块
打开网易新闻 查看精彩图片
图2:AU-Net整体框架图,包含四大核心模块

1. 共享特征提取模块

图3:共享特征提取模块的层级结构
打开网易新闻 查看精彩图片
图3:共享特征提取模块的层级结构

  • layer-0:采用权重不共享设计,提取全尺度模态自适应特征

  • layer-1至layer-3:权重共享的下采样子模块,生成1/2、1/4、1/8尺度特征

  • 创新点:通过单次特征提取同时服务于配准和融合任务,大幅提升效率

2. 配准模块

图4:单个子配准模块的工作流程
打开网易新闻 查看精彩图片
图4:单个子配准模块的工作流程

  • 核心机制:先通过上一层变形场进行粗配准,再计算局部相关体积实现精细调整

  • 优势:相比传统像素级配准,特征级配准更鲁棒,能捕捉语义层面的对应关系

  • 处理流程:从最粗尺度(1/8)到全尺度(1x)逐步优化变形场,实现渐进式对齐

3. 融合模块

创新设计多模态尺度感知动态卷积(MSDConv),实现自适应特征融合(图5、6):

打开网易新闻 查看精彩图片
图5:子融合模块的特征聚合流程

图6:多模态尺度感知动态卷积的注意力机制
打开网易新闻 查看精彩图片
图6:多模态尺度感知动态卷积的注意力机制

  • 动态卷积特性:根据输入特征动态调整卷积核权重,实现模态和尺度双维度自适应

  • 注意力机制:通过四个维度(空间、输入通道、输出通道、内核数量)的注意力标量优化特征聚合

  • 融合策略:采用逐元素最大操作实现多尺度特征的渐进式融合

4. 图像到图像转换模块

图7:基于DDPMs的图像转换流程
打开网易新闻 查看精彩图片
图7:基于DDPMs的图像转换流程

  • 双向转换:同时支持红外→可见光和可见光→红外转换,提供额外监督信号

  • 创新设计:采用"缓存方案"规避DDPMs迭代计算的高开销,训练时缓存转换结果,推理时移除转换模块

  • 核心价值:减少模态分布差距,使单模态评估指标可用于跨模态配准训练

实验验证:全面超越SOTA方法 配准性能评估

图8:不同方法的配准结果对比(红色/黄色框为关键区域)
打开网易新闻 查看精彩图片
图8:不同方法的配准结果对比(红色/黄色框为关键区域)

AU-Net在复杂场景中表现出更优的对齐精度,尤其在局部细节区域(如行人头部、建筑物边缘)有效避免了伪影和不自然变形。定量评估中,在MSE、MAE、NCC等五项指标中均排名第一,充分验证了特征级联合训练的优势。

融合性能评估

图9:不同方法的融合结果对比
打开网易新闻 查看精彩图片
图9:不同方法的融合结果对比

AU-Net生成的融合图像具有三个显著优势:

  1. 完全消除视差导致的重叠伪影

  2. 更好保留多模态图像的互补信息(如天空对比度、细节纹理)

  3. 有效抑制对齐区域的不自然变形

定量评估中,AU-Net在空间频率(SF)、平均梯度(AG)等七项指标中表现卓越,尤其在未训练的RoadScene数据集上仍保持优异性能,证明了模型的强泛化能力。

总结与展望

AU-Net通过特征级联合训练范式,实现了多模态图像配准与融合的深度统一,其创新点可概括为:

  • 首次提出FLJT范式,打破传统级联模式的局限

  • 动态融合模块实现跨模态、跨尺度的自适应特征聚合

  • 双向扩散转换机制有效缩小模态差距,提供额外监督

这项研究不仅为多模态图像处理提供了新范式,其特征共享和动态适应的设计思想,也为其他联合任务(如分割与检测、重建与增强)提供了重要借鉴。未来,随着模态种类的增加和应用场景的拓展,AU-Net的设计理念有望在更广泛的计算机视觉任务中发挥价值。