YOLOv8太卷啦 | YOLOv8官方仓库正式支持RT-DETR训练、测试以及推理

火山方舟向量数据库大模型

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

RT-DETR由百度开发,是一款端到端目标检测器,在保持高精度的同时提供实时性能。它利用ViT的强大特性,通过解耦尺度内交互和跨尺度融合来有效处理多尺度特征。

RT-DETR具有很强的适应性,支持使用不同的解码器层灵活调整推理速度,而无需重新训练。该模型在具有TensorRT的CUDA等加速后端方面表现出色,优于许多其他实时目标检测器。

YOLOv8支持RT-DETR

1、使用方法

picture.image

2、YOLOv8种RT-DETR精度

picture.image

3、RT-DETR-L的YAML


          
            
# Ultralytics YOLO 🚀, AGPL-3.0 license  
# RT-DETR-l object detection model with P3-P5 outputs. For details see https://docs.ultralytics.com/models/rtdetr  
  
# Parameters  
nc: 80  # number of classes  
scales: # model compound scaling constants, i.e. 'model=yolov8n-cls.yaml' will call yolov8-cls.yaml with scale 'n'  
  # [depth, width, max\_channels]  
  l: [1.00, 1.00, 1024]  
  
backbone:  
  # [from, repeats, module, args]  
  - [-1, 1, HGStem, [32, 48]]  # 0-P2/4  
  - [-1, 6, HGBlock, [48, 128, 3]]  # stage 1  
  
  - [-1, 1, DWConv, [128, 3, 2, 1, False]]  # 2-P3/8  
  - [-1, 6, HGBlock, [96, 512, 3]]   # stage 2  
  
  - [-1, 1, DWConv, [512, 3, 2, 1, False]]  # 4-P3/16  
  - [-1, 6, HGBlock, [192, 1024, 5, True, False]]  # cm, c2, k, light, shortcut  
  - [-1, 6, HGBlock, [192, 1024, 5, True, True]]  
  - [-1, 6, HGBlock, [192, 1024, 5, True, True]]  # stage 3  
  
  - [-1, 1, DWConv, [1024, 3, 2, 1, False]]  # 8-P4/32  
  - [-1, 6, HGBlock, [384, 2048, 5, True, False]]  # stage 4  
  
head:  
  - [-1, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 10 input\_proj.2  
  - [-1, 1, AIFI, [1024, 8]]  
  - [-1, 1, Conv, [256, 1, 1]]   # 12, Y5, lateral\_convs.0  
  
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]  
  - [7, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 14 input\_proj.1  
  - [[-2, -1], 1, Concat, [1]]  
  - [-1, 3, RepC3, [256]]  # 16, fpn\_blocks.0  
  - [-1, 1, Conv, [256, 1, 1]]   # 17, Y4, lateral\_convs.1  
  
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]  
  - [3, 1, Conv, [256, 1, 1, None, 1, 1, False]]  # 19 input\_proj.0  
  - [[-2, -1], 1, Concat, [1]]  # cat backbone P4  
  - [-1, 3, RepC3, [256]]    # X3 (21), fpn\_blocks.1  
  
  - [-1, 1, Conv, [256, 3, 2]]   # 22, downsample\_convs.0  
  - [[-1, 17], 1, Concat, [1]]  # cat Y4  
  - [-1, 3, RepC3, [256]]    # F4 (24), pan\_blocks.0  
  
  - [-1, 1, Conv, [256, 3, 2]]   # 25, downsample\_convs.1  
  - [[-1, 12], 1, Concat, [1]]  # cat Y5  
  - [-1, 3, RepC3, [256]]    # F5 (27), pan\_blocks.1  
  
  - [[21, 24, 27], 1, RTDETRDecoder, [nc]]  # Detect(P3, P4, P5)  

        

方法概览

picture.image

百度RT-DETR概述。RT-DETR模型架构图显示骨干{S3、S4、S5}的最后三个阶段作为编码器的输入。高效的混合编码器通过尺度内特征交互(AIFI)和跨尺度特征融合模块(CCFM)将多尺度特征转换为图像特征序列。IoU感知查询选择用于选择固定数量的图像特征以用作解码器的初始对象查询。最后,具有辅助预测头的解码器迭代地优化对象查询,以生成框和置信度分数(源)。

主要功能

「高效混合编码器」 :RT-DETR使用了一种高效的混合编码器,通过解耦尺度内交互和跨尺度融合来处理多尺度特征。这种独特的基于视觉Transformer的设计降低了计算成本,并允许实时物体检测。

「IoU感知查询选择」 :RT-DETR通过利用IoU感知的查询选择改进了目标查询初始化。这使得模型能够聚焦于场景中最相关的目标,从而提高了检测精度。

「自适应推理速度」 :RT-DETR支持通过使用不同的解码器层来灵活调整推理速度,而无需重新训练。这种适应性便于在各种实时目标检测场景中的实际应用。

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动客户端性能优化最佳实践
在用户日益增长、需求不断迭代的背景下,如何保证 APP 发布的稳定性和用户良好的使用体验?本次分享将结合字节跳动内部应用的实践案例,介绍应用性能优化的更多方向,以及 APM 团队对应用性能监控建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论