TPAMI 2025 | 可见光融合红外红外，实现医学/遥感场景全拿下！多模态制导图像融合新框架|光谱|模态|算法|红外红外|遥感场景

来源：市场资讯

（来源：小白学视觉）

在计算机视觉领域，图像融合始终是极具价值的研究方向——无论是军事侦察中可见光与红外图像的互补融合，还是医学诊断里不同模态影像的信息整合，亦或是遥感领域的全色锐化、高光谱与多光谱图像融合，优质的融合算法都能让合成图像更全面、精准地还原场景信息。

近期，一篇发表于TPAMI 2025的研究论文《An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance》带来了颠覆性突破：研究者摒弃了依赖下游任务、GAN、扩散模型等复杂框架的传统思路，首次系统性整合全局语言描述与目标级语义掩码作为多模态引导，结合轻量化的RWKV线性注意力骨干网络，打造出RWKVFusion框架，在可见光-红外、多聚焦、多曝光、医学、高光谱-多光谱、全色锐化六大图像融合任务中均斩获SOTA性能！

论文信息

题目： An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance

一种利用统一语言和掩码引导的高效图像融合网络

作者： Zi-Han Cao, Yu-Jie Liang, Liang-Jian Deng, Gemine Vivone

一、传统图像融合的痛点：效率与引导不可兼得

图像融合的核心目标是整合不同传感器/成像参数下的图像互补信息，但现有方法始终存在两大瓶颈：

引导方式受限：多数深度融合框架要么依赖融合损失函数单一约束，要么借助语义分割、扩散先验等引入额外训练开销，极少有研究探索语言和语义掩码的引导价值；

计算成本高昂：传统CNN感受野有限，ViT类模型的自注意力机制存在二次计算开销，面对高分辨率图像时内存和算力压力陡增，即便结合卷积与注意力的混合架构，也难以平衡性能与效率。

正是瞄准这些痛点，RWKVFusion框架应运而生——既解决了“融合引导不足”的问题，又实现了“线性复杂度+全局感受野”的高效推理。

二、RWKVFusion核心架构：多模态引导+高效骨干双管齐下

先来看RWKVFusion的整体框架（图1），整个框架分为两大分支：融合分支（高效多模态网络）和语义分支（提供语言+掩码语义信息），输入不同模态图像后，结合语言描述T和掩码M的引导，最终输出高质量融合图像。

1. 语义分支：语言+掩码，给融合加双重视觉引导

语义分支是RWKVFusion的“指挥中枢”，核心作用是为融合过程注入高层语义信息：

语言描述生成：借助预训练的Florence模型生成图像描述，再通过T5模型编码为文本特征T，实现全局层面的语义引导；
语义掩码生成：基于用户/Florence提供的提示，通过DINO完成开放集检测，再进行掩码分割得到目标级掩码M。

这里要解决一个关键问题：不同传感器图像的语义内容不一致，会导致掩码质量不佳。为此研究者提出基于IoU的掩码合并算法（图7），自动融合不同模态的掩码，生成更准确、鲁棒的语义掩码，为融合提供可靠的物体级引导。

2. 融合分支：RWKV骨干网络，高效处理多模态特征

融合分支的核心是RWKVFusion主干网络（图5），这是一个多尺度编码器-解码器架构，而非简单的平坦架构，能更好地捕捉不同尺度的图像特征：

（1）双向RWKV（BRWKV）：线性复杂度的全局注意力

原始RWKV是为语言建模设计的因果序列模型，研究者通过高效二维图像扫描策略（ESS）将其改造为双向版本：

把2D图像通过水平、垂直（可叠加翻转、对角线）扫描转换为1D序列，既保留图像的空间结构，又适配RWKV的序列处理特性；
BRWKV分为空间混合和通道混合模块：空间混合建模令牌间的全局关系，通道混合增强特征的非线性交互，整体复杂度随序列长度线性增长，对比标准注意力、窗口注意力、VMamba等（表1），在参数量、时间/空间消耗上优势显著。

（2）多模态融合模块（MFM）：跨模态信息深度融合

为了让语言、掩码和图像特征高效交互，研究者设计了MFM模块（图5(c)），通过三条路径引导融合：

原始信息补充：对图像模态特征和网络前层特征进行门控处理，保留基础特征信息；

掩码引导：将掩码特征与图像特征逐元素相乘，让网络聚焦于掩码标注的目标区域；

语言引导：将图像特征与文本特征交替拼接，通过空间混合和MLP实现跨模态信息交换。

从特征可视化结果（图6）能清晰看到：掩码引导的特征（X_mask）精准聚焦目标区域，语言引导后的特征（）具备全局响应，语义和目标级信息被有效注入融合过程。

（3）损失函数：适配不同融合任务

针对有监督（全色锐化、HMIF）和无监督（VIF、MFF、MEF、MIF）任务，研究者设计了差异化的损失函数：

有监督任务：结合L1损失和SSIM损失，保证融合图像与真实值的像素和结构相似度；
无监督任务：整合强度损失、SSIM损失和梯度损失，兼顾融合图像与输入模态的像素一致性、结构相似性，以及边缘细节的保留。

三、六大任务全面验证：性能与效率双领先

为了验证RWKVFusion的有效性，研究者在六大图像融合任务、十余种公开数据集上展开了全面实验，对比了分解方法、任务设计方法、基于先验的方法、架构设计方法、模态引导方法等数十种SOTA方案。

1. 可见光-红外（VIF）与医学图像融合（MIF）

在MSRS、M3FD、TNO（VIF）和Medical Harvard（MIF）数据集上，RWKVFusion在MI、VIF、SF等8项指标中，7项取得最佳结果（表2）。视觉效果上（图8上两行），相比U2Fusion、DeFuse等方法，RWKVFusion能清晰还原烟雾遮挡的目标，同时避免颜色失真；医学图像融合中，除LPIPS外所有指标均最优，仅比最佳值低0.04，兼顾细节与全局一致性。

2. 多曝光（MEF）与多聚焦（MFF）图像融合

在SICE、MEFB（MEF）和MFI-WHU、RealMFF（MFF）数据集上，RWKVFusion在8项指标中6-7项领先。定性对比中（图8中下部）：MEF任务里，该方法能平衡高低曝光区域的亮度；MFF任务中，可精准保留前景标志文字等细节，保真度远超ZMFF、TC-MOA等方法。

3. 全色锐化与高光谱-多光谱（HMIF）融合

全色锐化任务中，RWKVFusion在WV3、GF2、QB数据集的降分辨率和全分辨率评估中均达SOTA，误差图（图9左）显示其残差亮度最低，能同时保留全色图像的精细结构和多光谱图像的光谱信息；HMIF任务中，在Chikusei和Pavia数据集上所有指标领先，且仅用DHIF 8.41%的参数、0.67%的FLOPs，效率优势拉满（表5）。

四、消融研究：关键设计的有效性验证

为了明确各模块的贡献，研究者开展了系列消融实验：

BRWKV vs 其他注意力：替换为Flash Attention、Flatten Attention、Window Attention、VMamba后，RWKVFusion在几乎所有指标上领先，窗口化BRWKV虽性能略降，但仍优于窗口注意力，适合资源受限场景；

扫描策略对比：不同扫描方向（2次/4次/8次）的实验表明，默认的2次扫描（水平+垂直翻转交替）在性能和效率间实现最优平衡，过多扫描会增加计算成本，且可能破坏空间感知。

五、总结：图像融合的新范式

RWKVFusion的核心价值在于：

提出多模态引导新范式，首次将全局语言描述与目标级语义掩码结合，为图像融合提供语义+对象级双重指导；

打造高效线性注意力骨干网络，解决了传统注意力二次开销的问题，兼顾全局感受野与低计算成本；

全任务适配性强，在六大融合任务中均实现SOTA，且参数量和FLOPs远低于同类方法。

这一研究不仅为图像融合提供了全新的技术思路，也为多模态信息在低层视觉任务中的应用开辟了新方向，未来有望在遥感、医疗、军事等领域落地实用化的高效融合方案。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：人工智能0基础学习攻略手册

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~