来源:市场资讯

(来源:小白学视觉)

在计算机视觉领域,图像融合始终是极具价值的研究方向——无论是军事侦察中可见光与红外图像的互补融合,还是医学诊断里不同模态影像的信息整合,亦或是遥感领域的全色锐化、高光谱与多光谱图像融合,优质的融合算法都能让合成图像更全面、精准地还原场景信息。

近期,一篇发表于TPAMI 2025的研究论文《An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance》带来了颠覆性突破:研究者摒弃了依赖下游任务、GAN、扩散模型等复杂框架的传统思路,首次系统性整合全局语言描述与目标级语义掩码作为多模态引导,结合轻量化的RWKV线性注意力骨干网络,打造出RWKVFusion框架,在可见光-红外、多聚焦、多曝光、医学、高光谱-多光谱、全色锐化六大图像融合任务中均斩获SOTA性能!

论文信息

题目: An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance

一种利用统一语言和掩码引导的高效图像融合网络

作者: Zi-Han Cao, Yu-Jie Liang, Liang-Jian Deng, Gemine Vivone

一、传统图像融合的痛点:效率与引导不可兼得

图像融合的核心目标是整合不同传感器/成像参数下的图像互补信息,但现有方法始终存在两大瓶颈:

引导方式受限:多数深度融合框架要么依赖融合损失函数单一约束,要么借助语义分割、扩散先验等引入额外训练开销,极少有研究探索语言和语义掩码的引导价值;

计算成本高昂:传统CNN感受野有限,ViT类模型的自注意力机制存在二次计算开销,面对高分辨率图像时内存和算力压力陡增,即便结合卷积与注意力的混合架构,也难以平衡性能与效率。

正是瞄准这些痛点,RWKVFusion框架应运而生——既解决了“融合引导不足”的问题,又实现了“线性复杂度+全局感受野”的高效推理。

二、RWKVFusion核心架构:多模态引导+高效骨干双管齐下

先来看RWKVFusion的整体框架(图1),整个框架分为两大分支:融合分支(高效多模态网络)和语义分支(提供语言+掩码语义信息),输入不同模态图像后,结合语言描述T和掩码M的引导,最终输出高质量融合图像。

图1
打开网易新闻 查看精彩图片
图1

1. 语义分支:语言+掩码,给融合加双重视觉引导

语义分支是RWKVFusion的“指挥中枢”,核心作用是为融合过程注入高层语义信息:

  • 语言描述生成:借助预训练的Florence模型生成图像描述,再通过T5模型编码为文本特征T,实现全局层面的语义引导;

  • 语义掩码生成:基于用户/Florence提供的提示,通过DINO完成开放集检测,再进行掩码分割得到目标级掩码M。

这里要解决一个关键问题:不同传感器图像的语义内容不一致,会导致掩码质量不佳。为此研究者提出基于IoU的掩码合并算法(图7),自动融合不同模态的掩码,生成更准确、鲁棒的语义掩码,为融合提供可靠的物体级引导。

图7
打开网易新闻 查看精彩图片
图7

2. 融合分支:RWKV骨干网络,高效处理多模态特征

融合分支的核心是RWKVFusion主干网络(图5),这是一个多尺度编码器-解码器架构,而非简单的平坦架构,能更好地捕捉不同尺度的图像特征:

图5
打开网易新闻 查看精彩图片
图5

(1)双向RWKV(BRWKV):线性复杂度的全局注意力

原始RWKV是为语言建模设计的因果序列模型,研究者通过高效二维图像扫描策略(ESS) 将其改造为双向版本:

  • 把2D图像通过水平、垂直(可叠加翻转、对角线)扫描转换为1D序列,既保留图像的空间结构,又适配RWKV的序列处理特性;

  • BRWKV分为空间混合和通道混合模块:空间混合建模令牌间的全局关系,通道混合增强特征的非线性交互,整体复杂度随序列长度线性增长,对比标准注意力、窗口注意力、VMamba等(表1),在参数量、时间/空间消耗上优势显著。

(2)多模态融合模块(MFM):跨模态信息深度融合

为了让语言、掩码和图像特征高效交互,研究者设计了MFM模块(图5(c)),通过三条路径引导融合:

原始信息补充:对图像模态特征和网络前层特征进行门控处理,保留基础特征信息;

掩码引导:将掩码特征与图像特征逐元素相乘,让网络聚焦于掩码标注的目标区域;

语言引导:将图像特征与文本特征交替拼接,通过空间混合和MLP实现跨模态信息交换。

从特征可视化结果(图6)能清晰看到:掩码引导的特征(X_mask)精准聚焦目标区域,语言引导后的特征()具备全局响应,语义和目标级信息被有效注入融合过程。

图6
打开网易新闻 查看精彩图片
图6

(3)损失函数:适配不同融合任务

针对有监督(全色锐化、HMIF)和无监督(VIF、MFF、MEF、MIF)任务,研究者设计了差异化的损失函数:

  • 有监督任务:结合L1损失和SSIM损失,保证融合图像与真实值的像素和结构相似度;

  • 无监督任务:整合强度损失、SSIM损失和梯度损失,兼顾融合图像与输入模态的像素一致性、结构相似性,以及边缘细节的保留。

三、六大任务全面验证:性能与效率双领先

为了验证RWKVFusion的有效性,研究者在六大图像融合任务、十余种公开数据集上展开了全面实验,对比了分解方法、任务设计方法、基于先验的方法、架构设计方法、模态引导方法等数十种SOTA方案。

1. 可见光-红外(VIF)与医学图像融合(MIF)

在MSRS、M3FD、TNO(VIF)和Medical Harvard(MIF)数据集上,RWKVFusion在MI、VIF、SF等8项指标中,7项取得最佳结果(表2)。视觉效果上(图8上两行),相比U2Fusion、DeFuse等方法,RWKVFusion能清晰还原烟雾遮挡的目标,同时避免颜色失真;医学图像融合中,除LPIPS外所有指标均最优,仅比最佳值低0.04,兼顾细节与全局一致性。

2. 多曝光(MEF)与多聚焦(MFF)图像融合

在SICE、MEFB(MEF)和MFI-WHU、RealMFF(MFF)数据集上,RWKVFusion在8项指标中6-7项领先。定性对比中(图8中下部):MEF任务里,该方法能平衡高低曝光区域的亮度;MFF任务中,可精准保留前景标志文字等细节,保真度远超ZMFF、TC-MOA等方法。

图8
打开网易新闻 查看精彩图片
图8

3. 全色锐化与高光谱-多光谱(HMIF)融合

全色锐化任务中,RWKVFusion在WV3、GF2、QB数据集的降分辨率和全分辨率评估中均达SOTA,误差图(图9左)显示其残差亮度最低,能同时保留全色图像的精细结构和多光谱图像的光谱信息;HMIF任务中,在Chikusei和Pavia数据集上所有指标领先,且仅用DHIF 8.41%的参数、0.67%的FLOPs,效率优势拉满(表5)。

图9
打开网易新闻 查看精彩图片
图9

四、消融研究:关键设计的有效性验证

为了明确各模块的贡献,研究者开展了系列消融实验:

BRWKV vs 其他注意力:替换为Flash Attention、Flatten Attention、Window Attention、VMamba后,RWKVFusion在几乎所有指标上领先,窗口化BRWKV虽性能略降,但仍优于窗口注意力,适合资源受限场景;

扫描策略对比:不同扫描方向(2次/4次/8次)的实验表明,默认的2次扫描(水平+垂直翻转交替)在性能和效率间实现最优平衡,过多扫描会增加计算成本,且可能破坏空间感知。

五、总结:图像融合的新范式

RWKVFusion的核心价值在于:

提出多模态引导新范式,首次将全局语言描述与目标级语义掩码结合,为图像融合提供语义+对象级双重指导;

打造高效线性注意力骨干网络,解决了传统注意力二次开销的问题,兼顾全局感受野与低计算成本;

全任务适配性强,在六大融合任务中均实现SOTA,且参数量和FLOPs远低于同类方法。

这一研究不仅为图像融合提供了全新的技术思路,也为多模态信息在低层视觉任务中的应用开辟了新方向,未来有望在遥感、医疗、军事等领域落地实用化的高效融合方案。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:人工智能0基础学习攻略手册

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~