向AI转型的程序员都关注公众号 机器学习AI算法工程
红外小目标检测
和分割(IRSTDS)在军事和民用领域具有重要应用,但现有基于
卷积神经网络
(CNN)的方法通常使用标准卷积,未充分考虑红外小目标像素分布的空间特性。此外,现有损失函数未能充分考虑不同目标尺度下尺度和位置损失的敏感性差异,限制了对暗小目标的检测性能。
难点:
红外小目标通常因距离远而呈现暗淡、低信噪比(SNR)和低信号杂波比(SCR),缺乏纹理信息,且目标大小和形状随距离变化,复杂背景进一步遮蔽目标。现有数据集存在小目标比例低、背景简单、数据规模小等问题,限制了检测器在复杂现实场景中的性能。
论文标题 :《Pinwheel-shaped Convolution and Scale-based Dynamic Loss for Infrared Small Target Detection》
论文链接 :https://arxiv.org/pdf/2412.16986
- **PConv模块
设计:**
提出了一种新颖的pinwheel-shaped convolution(PConv)模块,该模块通过不对称填充创建水平和垂直方向的卷积核,以适应红外小目标的高斯空间分布特性。PConv模块在骨干网络的较低层替代标准卷积,以增强特征提取能力,显著增加 感受野
,并且只引入了最小的参数增加。
- 感受野与参数效率:
PConv模块通过分组卷积显著扩大了感受野,同时最小化了参数数量的增加。例如,PConv(3,3)相较于3×3标准卷积,感受野增加了177%,参数仅增加了111%。PConv(4,3)的感受野增加了444%,参数仅增加了122%。通过将PConv和标准卷积的输出结果进行对比,展示了PConv在增强红外小目标与背景对比度的同时,抑制了杂乱信号。
风车形卷积PConv
Pinwheel-shaped Convolution(PConv)是一种新颖的卷积模块,旨在更好地与红外小目标的像素高斯空间分布对齐,增强特征提取能力,并显著增加感受野,同时只引入最小的参数增加。以下是PConv的实现过程:
1. 填充: PConv模块使用不对称填充来创建水平和垂直四个方向的卷积核,以适应图像的不同区域。卷积核向外扩散,具有特定的填充参数,以确保输出特征图的高度、宽度和通道数与输入张量相关,其中h1、w1、c1代表输入张量X(h1,w1,c1)的高度、宽度和通道大小。在每个卷积操作后,应用批量归一化(Batch Normalization, BN)和Sigmoid线性单元(SiLU)以增强训练的稳定性和速度。
2. 拼接输出: 第一层交错卷积的结果被连接起来(Cat,实际用核大小为2,步长为1的Conv实现),输出计算如下:
三、实验分析
1. IRSTD-1K: 包含1,000张真实红外图像,目标尺寸较大,分辨率为512×512像素。
2. SIRST-UAVB: 由3,000张红外图像组成,目标包括无人机和鸟类,图像采集自不同季节和天气条件下的复杂背景,具有高比例的小目标。
- 实验结果表明,提出的PConv模块和 SD Loss函数
在这些数据集上均取得了显著的性能提升。PConv模块在 YOLOv8n-p2检测模型
和 MSHNet分割模型
中均表现出色,特别是在处理小目标时,能够有效提升特征提取能力和检测性能。SD Loss函数在不同尺度的目标检测中动态调整尺度和位置损失的影响系数,显著提高了网络对不同尺度目标的检测能力。 *
-
在SIRST-UAVB数据集上,PConv(4,3)配置提供了最佳和最平衡的性能提升,表明对于小目标,增加PConv核长度并不会带来额外的性能增益。
-
在MSHNet分割模型中,PConv显著优于其他卷积模块,表明PConv核长度为4的配置在第一层提供了更有效的感受野,对于捕获小目标特征至关重要。
YOLO12引入PConv替换标准卷积
风车形卷积(PConv)增强小目标检测 代码下载地址:
链接:https://pan.quark.cn/s/a189968f80d7
提取码:h8r6
第1步:
在ultralytics
/nn下新建Extramodule
第2步:
在Extramodule里创建PConv
在APConv.py文件里添加给出的PConv代码
添加完PConv代码后,在ultralytics/nn/Extramodule/__init__.py文件中引用
第3步:
在ultralytics/nn/tasks.py文件里引用Extramodule
在tasks.py找到parse_model(
ctrl+f可以直接搜索parse_model位置)
添加如下代码:
注意,旧版本代码在类似下面的位置添加
第4步:
新建一个yolo12PConv.yaml文件,把Conv替换成PConv即可。
模型结构打印,成功运行 :
机器学习算法AI大数据技术
搜索公众号添加: datanlp
长按图片,识别二维码
阅读过本文的人还看了以下文章:
整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx