来源:市场资讯

(来源:计算机视觉研究院)

计算机视觉研究院

打开网易新闻 查看精彩图片

公众号ID|计算机视觉研究院

学习群|扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12196690/pdf/sensors-25-03827.pdf

开篇痛点:矿山修复遥感分割的3大核心难题

矿山生态修复监测对精准度、自动化要求极高,无人机遥感虽能捕捉矿区精细特征,但航拍影像面临小目标识别难、多尺度特征融合不足、类别边界模糊三大痛点;传统分割模型要么全局建模能力弱,要么计算成本高,难以适配矿区复杂的地物场景(植被/农田/裸地/矿山等交织)。

针对这一行业难题,最新研究提出面向无人机矿山修复场景的改进Segformer模型,通过定制化模块增强多尺度特征表征与边缘感知能力,在自建矿区数据集和公开数据集上均实现精度碾压,为矿山生态修复自动化监测提供了全新解决方案!

核心创新:3大模块升级,让Segformer适配矿山场景

以轻量级、高效率的Segformer为基线,在编码器与解码器之间引入多尺度特征增强特征金字塔网络(MSFE-FPN),并集成两大定制化模块,从根上解决矿区分割痛点,3大核心创新直击关键:

✅ MSFE-FPN跨层融合:引入特征金字塔网络(FPN)加强编码器与解码器的跨层级特征交互,弥补原始Segformer语义-空间信息融合的不足,提升多尺度目标表征能力;

✅ SFA-PPM增强全局感知:在最深层特征层集成选择性特征聚合金字塔池化模块,通过多尺度池化+通道选择机制,强化全局语义感知与长程依赖建模,精准识别大尺度地物;

✅ ELA强化局部细节:在侧向连接中嵌入高效局部注意力模块,以轻量级注意力机制增强边缘结构与小尺度目标的敏感度,解决矿区小目标遗漏、边界模糊问题。

技术原理:极简拆解改进Segformer架构

整体沿用Segformer编码器-解码器经典架构,核心改进为编码器与解码器之间新增MSFE-FPN模块,实现「多尺度特征提取 - 分层增强融合 - 精准像素分割」,流程简单易懂:

打开网易新闻 查看精彩图片

1. 基础编码器:保留Segformer优势

采用分层Transformer结构,提取无人机影像的多尺度基础特征,兼顾全局建模能力与计算效率,无需位置编码,适配遥感影像的尺度变化;

打开网易新闻 查看精彩图片

2. 核心改进:MSFE-FPN特征增强

  • 侧向连接:整合编码器不同阶段的多尺度特征,嵌入ELA模块强化局部上下文交互,精准捕捉边缘和小目标特征;

  • 自上而下融合:对最深层特征通过SFA-PPM 模块聚合多尺度上下文信息,提升全局语义理解;

  • 特征输出:生成增强后的多尺度特征,传递至解码器进行最终分割;

打开网易新闻 查看精彩图片

MSFE-FPN

打开网易新闻 查看精彩图片

SFA-PPM

打开网易新闻 查看精彩图片

ELA

3. 轻量解码器:快速语义预测

将增强特征上采样至统一分辨率,经卷积融合后生成像素级语义分割图,保持原Segformer推理速度快的优势,适配无人机影像实时处理需求。

实验验证:双数据集碾压,精度+泛化性双拉满

为验证模型性能,研究自建湖南矿山无人机数据集(HNMUD),并在公开Aeroscape无人机数据集上做泛化测试,与U-Net、DeepLabv3+、SwinTransformer等9种主流模型对比,从核心指标、视觉效果、消融实验三维验证,结果惊艳!

1. 自建HNMUD数据集:mIoU达90.85%,全指标第一

  • 核心指标:改进 SegformermIoU=90.85%、mPA=94.77%、mF1=94.69%,相比原始Segformer mIoU提升2.60%,远超U-Net(62.43%)、DeepLabv3+(76.20%);

  • 视觉效果:精准区分语义相似类别(植被/农田),边界勾勒清晰,无明显误分类,小尺度建筑、矿山区域识别无遗漏;

打开网易新闻 查看精彩图片

2. 公开Aeroscape数据集:泛化性拉满,跨场景适配

  • 核心指标:mIoU=84.20%、mPA=91.17%,相比原始Segformer mIoU提升2.74%,碾压CNN和Transformer类传统模型;

  • 场景适配:对近景/远景、多类别交织、小目标密集的航拍影像,仍能保持高分割精度,边界完整性强;

打开网易新闻 查看精彩图片

3. 消融实验:三大模块协同增效,缺一不可

  • 仅加FPN:mIoU小幅提升,实现基础跨层特征融合;

  • 加FPN+SFA-PPM:mIoU显著提升,全局语义感知能力增强;

  • 加FPN+SFA-PPM+ELA:达到最优性能,局部细节+全局语义双重强化,验证三大模块的互补性与协同性。

应用价值:不止矿山修复,无人机遥感多场景适配

这款改进Segformer模型专为无人机遥感影像优化,兼具高精度、轻量级、强泛化三大优势,落地价值极强:

  1. 矿山生态修复:自动化识别矿区植被、裸地、矿山等覆被类型,精准评估修复效果,替代传统人工调查,提升效率;

  2. 无人机遥感通用分割:适配城乡、农田、生态保护区等多场景的无人机航拍影像分割,识别建筑、道路、植被等多类地物;

  3. 轻量化部署:保留Segformer计算效率优势,可部署在无人机端 / 边缘端,实现矿区实时监测,为生态治理决策提供数据支撑;

  4. 技术拓展:MSFE-FPN模块可迁移至其他Transformer/CNN分割模型,为遥感图像语义分割提供通用改进思路。

文末总结+关注钩子

本次提出的改进Segformer模型,精准解决了无人机矿山修复场景的语义分割痛点,通过多尺度特征增强+轻量级注意力的组合升级,实现了精度与效率的双重突破,为矿山生态修复自动化监测提供了硬核技术支撑!

作为计算机视觉的核心应用方向,无人机遥感语义分割正成为生态治理、精准农业、智慧城市的重要技术抓手,后续【计算机视觉研究院】将持续拆解遥感影像处理、语义分割、无人机感知的前沿技术与顶会论文,从原理到落地,全干货无废话!

有相关需求的你可以联系我们!