当YOLO遇上Mamba | 用创新带来新一代目标检测范式的崛起

机器学习算法人工智能与算法

这两年,做目标检测如果还只会「改卷积、换 Transformer」,真有点落伍了。从 AAAI、ICASSP 到 Scientific Reports、红外期刊、无人机方向期刊,已经有十多篇工作抬出了同一个组合:Mamba + YOLO

有人把 Mamba 塞进 YOLO 主干,有人用它重写特征金字塔,还有人直接做开放词汇检测、红外小目标、无人机航拍、人脸表情识别……共同指向一个趋势:👉 在 YOLO 里引入 Mamba,用接近线性的复杂度做全局建模,把精度和速度再往上拧一档。如果你正在为「YOLO 还能怎么改?」发愁,或者准备投下一轮顶会,这20篇 Mamba+YOLO论文 ,一定要仔细阅读。

扫码回复【曼巴yolo】领取论文合集

picture.image

MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection

picture.image

本文提出了一种基于YOLOv7的多尺度、多方向定位特征增强的Mamba扫描红外图像目标检测方法,有效解决了不同尺度下目标检测的难题,提高了红外图像中目标检测的准确性和泛化能力。

主要创新点

  • MambaNeXt Block :在 YOLO 风格骨干中构造 CNN + Mamba 的混合 block ,同时建模局部卷积特征和长程依赖。
  • Multi-branch Asymmetric Fusion Pyramid Network (MAFPN):一种多分支非对称特征金字塔网络,提升多尺度检测效果,同时保持实时性。
  • 不依赖大规模预训练:在 VOC 数据集上直接从头训练即可达到不错的 mAP 和 FPS。

Mamba YOLO: SSMs-Based YOLO for Object Detection

picture.image

本文提出了RT-DETR,一种首个实现实时端到端对象检测的Transformer-based模型,有效解决了YOLO系列因NMS导致的速度和精度损失问题。

主要创新点

  • ODMamba Backbone :提出面向检测任务的 ODMamba 主干网络 ,把 Mamba 状态空间模型嵌入 YOLOv8 风格 backbone 中,用2D 选择性扫描实现二维图像的线性复杂度序列建模。

  • ODSSBlock 模块:设计 Object Detection Structured State-Space Block,用于替代原 YOLO 中的 C2f 模块,提高特征提取能力。

  • Residual Gated Block(RG Block) :通过多分支卷积 + 门控聚合,弥补 SSM 在局部建模上的不足,增强局部结构与定位能力。

  • 多尺度模型族 :提供 Tiny/Base/Large 多尺度模型,适配不同算力场景。

扫码回复【曼巴yolo】领取论文合集

picture.image

A Lightweight Xray-YOLO-Mamba Model for Prohibited Item Detection in X-ray Images Using Selective State Space Models

picture.image

本文提出了一种轻量级的Xray-YOLO-Mamba模型,通过集成YOLO和Mamba架构,并引入创新的CResVSS、SDConv和Dysample模块,实现了在X射线图像中禁品检测的高效性和准确性。

主要创新点

  • Xray-YOLO-Mamba模型在三个数据集上均取得了优异的性能,在mAP、Params和FLOPs等指标上均优于现有方法。

  • 模型在复杂场景下仍能准确识别各种违禁品,包括重叠物体和模糊目标。

  • 模型实现了精度和计算效率的平衡,满足实时检测的需求。

YOLOv5_mamba: Unmanned Aerial Vehicle Object Detection Based on Bidirectional Dense Feedback Network and Adaptive Gate Feature Fusion

picture.image

本研究针对无人机图像中小目标检测问题,提出了一种基于双向密集反馈网络和自适应门控特征融合的无人机目标检测系统YOLOv5_mamba,提高了小目标的检测精度。

主要创新点

  • YOLOv5 Backbone 改造 :在 YOLOv5 主干中引入 C2f(来自 YOLOv8) 模块和双向密集反馈网络 ,加强多尺度特征交互。
  • Mamba 模块引入 Neck:在颈部结构中嵌入 Mamba 模块,通过状态空间模型对特征进行长程依赖建模和自适应特征融合。
  • 自适应门控特征融合:设计门控机制,对不同通道/尺度特征进行加权,提升小目标与复杂背景下的检测性能。

Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

picture.image

本文提出了Mamba-YOLO-World,一种基于YOLO的开放词汇检测模型,通过创新的MambaFusion Path Aggregation Network(MambaFusion-PAN) neck结构,实现了线性复杂度特征融合机制,提高了检测性能。

主要创新点

  • MambaFusion-PAN(颈部结构) :用 基于状态空间模型的特征融合网络 替换 YOLO-World 中原有的VL-PAN,复杂度从

O

(

N

2

)

O(N^2)O(N2) 降为 近似线性 O(N)

  • 并行/串行引导选择性扫描(PGSS & SGSS)

  • PGSS:利用文本隐藏状态引导图像特征的选择性扫描,实现 文本→图像 方向的多模态融合;

  • SGSS:利用图像隐藏状态反向引导文本特征更新,实现 图像→文本 的融合。

  • 多阶段视觉–文本交互 :设计 TextMambaBlock / MF-CSPLayer 等模块,实现文本与多尺度视觉特征的三阶段交互融合

扫码回复【曼巴yolo】领取论文合集

picture.image

特别福利【顶会审稿人写作攻略】限时免费领取

picture.image

picture.image

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论