这两年,做目标检测如果还只会「改卷积、换 Transformer」,真有点落伍了。从 AAAI、ICASSP 到 Scientific Reports、红外期刊、无人机方向期刊,已经有十多篇工作抬出了同一个组合:Mamba + YOLO 。
有人把 Mamba 塞进 YOLO 主干,有人用它重写特征金字塔,还有人直接做开放词汇检测、红外小目标、无人机航拍、人脸表情识别……共同指向一个趋势:👉 在 YOLO 里引入 Mamba,用接近线性的复杂度做全局建模,把精度和速度再往上拧一档。如果你正在为「YOLO 还能怎么改?」发愁,或者准备投下一轮顶会,这20篇 Mamba+YOLO论文 ,一定要仔细阅读。
扫码回复【曼巴yolo】领取论文合集
MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection
本文提出了一种基于YOLOv7的多尺度、多方向定位特征增强的Mamba扫描红外图像目标检测方法,有效解决了不同尺度下目标检测的难题,提高了红外图像中目标检测的准确性和泛化能力。
主要创新点
- MambaNeXt Block :在 YOLO 风格骨干中构造 CNN + Mamba 的混合 block ,同时建模局部卷积特征和长程依赖。
- Multi-branch Asymmetric Fusion Pyramid Network (MAFPN):一种多分支非对称特征金字塔网络,提升多尺度检测效果,同时保持实时性。
- 不依赖大规模预训练:在 VOC 数据集上直接从头训练即可达到不错的 mAP 和 FPS。
Mamba YOLO: SSMs-Based YOLO for Object Detection
本文提出了RT-DETR,一种首个实现实时端到端对象检测的Transformer-based模型,有效解决了YOLO系列因NMS导致的速度和精度损失问题。
主要创新点
-
ODMamba Backbone :提出面向检测任务的 ODMamba 主干网络 ,把 Mamba 状态空间模型嵌入 YOLOv8 风格 backbone 中,用2D 选择性扫描实现二维图像的线性复杂度序列建模。
-
ODSSBlock 模块:设计 Object Detection Structured State-Space Block,用于替代原 YOLO 中的 C2f 模块,提高特征提取能力。
-
Residual Gated Block(RG Block) :通过多分支卷积 + 门控聚合,弥补 SSM 在局部建模上的不足,增强局部结构与定位能力。
-
多尺度模型族 :提供 Tiny/Base/Large 多尺度模型,适配不同算力场景。
扫码回复【曼巴yolo】领取论文合集
A Lightweight Xray-YOLO-Mamba Model for Prohibited Item Detection in X-ray Images Using Selective State Space Models
本文提出了一种轻量级的Xray-YOLO-Mamba模型,通过集成YOLO和Mamba架构,并引入创新的CResVSS、SDConv和Dysample模块,实现了在X射线图像中禁品检测的高效性和准确性。
主要创新点
-
Xray-YOLO-Mamba模型在三个数据集上均取得了优异的性能,在mAP、Params和FLOPs等指标上均优于现有方法。
-
模型在复杂场景下仍能准确识别各种违禁品,包括重叠物体和模糊目标。
-
模型实现了精度和计算效率的平衡,满足实时检测的需求。
YOLOv5_mamba: Unmanned Aerial Vehicle Object Detection Based on Bidirectional Dense Feedback Network and Adaptive Gate Feature Fusion
本研究针对无人机图像中小目标检测问题,提出了一种基于双向密集反馈网络和自适应门控特征融合的无人机目标检测系统YOLOv5_mamba,提高了小目标的检测精度。
主要创新点
- YOLOv5 Backbone 改造 :在 YOLOv5 主干中引入 C2f(来自 YOLOv8) 模块和双向密集反馈网络 ,加强多尺度特征交互。
- Mamba 模块引入 Neck:在颈部结构中嵌入 Mamba 模块,通过状态空间模型对特征进行长程依赖建模和自适应特征融合。
- 自适应门控特征融合:设计门控机制,对不同通道/尺度特征进行加权,提升小目标与复杂背景下的检测性能。
Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
本文提出了Mamba-YOLO-World,一种基于YOLO的开放词汇检测模型,通过创新的MambaFusion Path Aggregation Network(MambaFusion-PAN) neck结构,实现了线性复杂度特征融合机制,提高了检测性能。
主要创新点
- MambaFusion-PAN(颈部结构) :用 基于状态空间模型的特征融合网络 替换 YOLO-World 中原有的VL-PAN,复杂度从
O
(
N
2
)
O(N^2)O(N2) 降为 近似线性 O(N) 。
-
并行/串行引导选择性扫描(PGSS & SGSS) :
-
PGSS:利用文本隐藏状态引导图像特征的选择性扫描,实现 文本→图像 方向的多模态融合;
-
SGSS:利用图像隐藏状态反向引导文本特征更新,实现 图像→文本 的融合。
-
多阶段视觉–文本交互 :设计 TextMambaBlock / MF-CSPLayer 等模块,实现文本与多尺度视觉特征的三阶段交互融合
扫码回复【曼巴yolo】领取论文合集
特别福利【顶会审稿人写作攻略】限时免费领取
