YOLO12替换卷积 | AAAI 2025 | 风车形卷积(PConv)增强微弱小目标特征提取,显著增加接受野

机器学习算法数据库

picture.image

向AI转型的程序员都关注公众号 机器学习AI算法工程

红外小目标检测

和分割(IRSTDS)在军事和民用领域具有重要应用,但现有基于

卷积神经网络

(CNN)的方法通常使用标准卷积,未充分考虑红外小目标像素分布的空间特性。此外,现有损失函数未能充分考虑不同目标尺度下尺度和位置损失的敏感性差异,限制了对暗小目标的检测性能。

难点:

红外小目标通常因距离远而呈现暗淡、低信噪比(SNR)和低信号杂波比(SCR),缺乏纹理信息,且目标大小和形状随距离变化,复杂背景进一步遮蔽目标。现有数据集存在小目标比例低、背景简单、数据规模小等问题,限制了检测器在复杂现实场景中的性能。

论文标题 :《Pinwheel-shaped Convolution and Scale-based Dynamic Loss for Infrared Small Target Detection》

论文链接https://arxiv.org/pdf/2412.16986

  • **PConv模块

设计:**

提出了一种新颖的pinwheel-shaped convolution(PConv)模块,该模块通过不对称填充创建水平和垂直方向的卷积核,以适应红外小目标的高斯空间分布特性。PConv模块在骨干网络的较低层替代标准卷积,以增强特征提取能力,显著增加 感受野

,并且只引入了最小的参数增加。

  • 感受野与参数效率:

PConv模块通过分组卷积显著扩大了感受野,同时最小化了参数数量的增加。例如,PConv(3,3)相较于3×3标准卷积,感受野增加了177%,参数仅增加了111%。PConv(4,3)的感受野增加了444%,参数仅增加了122%。通过将PConv和标准卷积的输出结果进行对比,展示了PConv在增强红外小目标与背景对比度的同时,抑制了杂乱信号。

风车形卷积PConv

picture.image

Pinwheel-shaped Convolution(PConv)是一种新颖的卷积模块,旨在更好地与红外小目标的像素高斯空间分布对齐,增强特征提取能力,并显著增加感受野,同时只引入最小的参数增加。以下是PConv的实现过程:

1. 填充: PConv模块使用不对称填充来创建水平和垂直四个方向的卷积核,以适应图像的不同区域。卷积核向外扩散,具有特定的填充参数,以确保输出特征图的高度、宽度和通道数与输入张量相关,其中h1、w1、c1代表输入张量X(h1,w1,c1)的高度、宽度和通道大小。在每个卷积操作后,应用批量归一化(Batch Normalization, BN)和Sigmoid线性单元(SiLU)以增强训练的稳定性和速度。

picture.image

2. 拼接输出: 第一层交错卷积的结果被连接起来(Cat,实际用核大小为2,步长为1的Conv实现),输出计算如下:

picture.image

三、实验分析

1. IRSTD-1K: 包含1,000张真实红外图像,目标尺寸较大,分辨率为512×512像素。

2. SIRST-UAVB: 由3,000张红外图像组成,目标包括无人机和鸟类,图像采集自不同季节和天气条件下的复杂背景,具有高比例的小目标。

picture.image

picture.image

  • 实验结果表明,提出的PConv模块和 SD Loss函数

在这些数据集上均取得了显著的性能提升。PConv模块在 YOLOv8n-p2检测模型

和 MSHNet分割模型

中均表现出色,特别是在处理小目标时,能够有效提升特征提取能力和检测性能。SD Loss函数在不同尺度的目标检测中动态调整尺度和位置损失的影响系数,显著提高了网络对不同尺度目标的检测能力。 *

  • 在SIRST-UAVB数据集上,PConv(4,3)配置提供了最佳和最平衡的性能提升,表明对于小目标,增加PConv核长度并不会带来额外的性能增益。

  • 在MSHNet分割模型中,PConv显著优于其他卷积模块,表明PConv核长度为4的配置在第一层提供了更有效的感受野,对于捕获小目标特征至关重要。

YOLO12引入PConv替换标准卷积

风车形卷积(PConv)增强小目标检测 代码下载地址:

链接:https://pan.quark.cn/s/a189968f80d7

提取码:h8r6

第1步:

在ultralytics

/nn下新建Extramodule

picture.image

picture.image

第2步:

在Extramodule里创建PConv

picture.image

picture.image

在APConv.py文件里添加给出的PConv代码

picture.image

添加完PConv代码后,在ultralytics/nn/Extramodule/__init__.py文件中引用

picture.image

第3步:

在ultralytics/nn/tasks.py文件里引用Extramodule

picture.image

在tasks.py找到parse_model(

ctrl+f可以直接搜索parse_model位置)

添加如下代码:

picture.image

注意,旧版本代码在类似下面的位置添加

picture.image

第4步:

新建一个yolo12PConv.yaml文件,把Conv替换成PConv即可。

picture.image

模型结构打印,成功运行 :

picture.image

机器学习算法AI大数据技术

搜索公众号添加: datanlp

picture.image

长按图片,识别二维码

阅读过本文的人还看了以下文章:

实时语义分割ENet算法,提取书本/票据边缘

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主

《大语言模型》PDF下载

动手学深度学习-(李沐)PyTorch版本

YOLOv9电动车头盔佩戴检测,详细讲解模型训练

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank,用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

《深度学习:基于Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加: datayx

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论