Hyper-YOLO:用超图捕捉高阶视觉关联,性能新SOTA!

向量数据库机器学习算法

picture.image

向AI转型的程序员都关注公众号 机器学习AI算法工程

YOLO(You Only Look Once)系列是目标检测领域中的主流方法,以其高效性和实时性而著称。然而,现有的YOLO模型在处理跨层特征融合和复杂的高阶特征关系时存在局限,无法充分捕捉跨位置和跨尺度的复杂特征关联。

为了解决这一难点,清华大学提出了Hyper-YOLO:一种基于超图计算的目标检测方法。Hyper-YOLO首次将超图计算集成到目标检测网络,对特征图中的复杂高阶关联进行建模,实现了高阶信息的跨层次和跨位置传播。

picture.image

论文地址: https://arxiv.org/abs/2408.04804

Github仓库: https://github.com/iMoonLab/Hyper-YOLOv1.1

picture.image

使用超图计算结合YOLO,性能在各种规模模型中都达到顶尖,在COCO数据集上的表现明显优于其他模型,尤其是对中小目标提升更加显著。其中,相比于最新的YOLOv9-T、YOLO11-S,同规模的Hyper-YOLO分别实现了2%和1%的平均精度提升。

目标检测的困境

近年来,随着深度学习的快速发展,YOLO(You Only Look Once)系列模型凭借其高效的单阶段检测架构,在目标检测领域中脱颖而出。YOLO模型通过将目标检测简化为回归问题,在保持高精度的同时实现了实时检测能力,受到了广泛关注和应用。

picture.image

然而,随着应用场景的复杂化,现有的YOLO模型在处理跨层次特征融合和高阶特征关系时暴露出了一定的局限性。

下图展示了几个典型的案例 (YOLOv8为例)。在打网球的场景中,现有模型将网球拍误判为了棒球棒;在冲浪的场景中,现有模型将冲浪板误判为了风筝。这种错误正是由于现有的模型难以捕捉视觉对象之间的复杂关系。

picture.image

因而,不同目标间的高阶语义关联推理限制了目标检测的性能。

高阶关联的建模方法

为了解决这些问题,学术界一直在探索更加先进的模型设计与优化方法。其中,超图计算作为一种能够捕捉多方关系的数学工具,逐渐被应用于包括社交网络、脑网络等复杂数据结构分析中。

picture.image

超图覆盖了多种关联,是复杂关联计算的有效方法。在Hyper-YOLO中,作者首次将超图计算引入目标检测领域,以实现视觉高阶语义关联的建模与学习。

模型效果

该工作在COCO数据集上进行了丰富的实验。Hyper-YOLOv1.1提供了3种规模的版本(Tiny, Small , Medium),在对比实验中,均明显优于最新的YOLO模型。

其中,Tiny版本的平均精度(mAP)指标相比于YOLOv8、YOLOv9、YOLO11的同规模版本分别提升3.0%、2.0%、0.8%;Small版本的mAP指标相比于YOLOv8、YOLOv9、YOLO11的同规模版本分别提升3.1%、1.2%、1.0%。此外,对于骨干网络、Kernel大小、特征增强策略、超图构建策略的消融实验证明了所提出的方法的先进性。

picture.image

以下两图为YOLOv8、Hyper-YOLO在目标检测和实例分割任务下的可视化结果。

picture.image

picture.image

下图为使用高阶关联学习对特征图增强前后的可视化图(通过HyperC2Net前后的特征图)。

picture.image

上述实验结果证明,Hyper-YOLO具有目前最先进的检测性能,尤其对场景中不同视觉对象的高阶关系具有更准确的理解能力。

方法概述

超图计算

超图是图的推广形式,是一种高效的特征表示学习方法。在超图中,一条超边可以连接多个顶点,从而表示对象之间的高阶关联。超图神经网络作为超图计算的核心方法,通常包含以下几个步骤:

  1. 从原始数据构建超边

  2. 从顶点到超边的消息聚合(超边卷积)

  3. 从超边到顶点的消息分发(节点卷积)

超图神经网络由于其灵活性和丰富的表达能力,广泛应用于社交网络分析、生物信息学、推荐系统等领域,能够更有效地建模和分析复杂的多层次数据关联。

Hyper-YOLO整体架构

Hyper-YOLO 继承了典型的 YOLO 架构,骨干网络通过引入混合聚合网络(MANet)来增强特征提取能力,从五个特征层中获取信息。

picture.image

颈部网络(Neck)采用基于超图的跨层次和跨位置表示网络(HyperC2Net),通过超图计算集成多尺度特征,实现高阶信息的跨层次和跨位置传播,从而生成适用于目标检测的语义特征,显著提升模型的检测性能。

基于超图的跨层次和跨位置表示网络

在传统YOLO模型中,颈部为连接骨干网络和预测头之间的部分,通常采用类似PANet的结构,承担多尺度特征提取与融合的功能。虽然这类结构能够进行一定的多尺度特征融合,但直接的信息交互局限在相邻层之间。

而基于超图的跨层次跨位置表示网络(Hypergraph-Based Cross-Level and Cross-Position Representation Network, HyperC2Net)则突破了这一瓶颈,主要过程如下:

1. 超图构建: HyperC2Net将来自不同层次的特征图进行拼接,形成跨层次的视觉特征集合。然后通过计算特征点之间的距离,构建一个超图,其中每个超边连接多个顶点,代表多个特征点之间的高阶关系。超图能够表达跨层次和跨位置的复杂关系,而非简单的相邻层信息融合。

picture.image

2. 超图卷积: 在构建超图后,HyperC2Net利用超图卷积在特征图上进行消息传播。通过这种方式,不同位置和层次的特征点可以相互传递信息,建模特征点之间的高阶关联,增强了模型对于复杂场景中目标的识别能力。特别是在跨位置特征交互方面,相比于传统的卷积操作,超图卷积能够捕捉到更广泛和复杂的特征关联。

picture.image

总结

Hyper-YOLO通过引入超图计算方法,突破了传统YOLO模型在多尺度特征融合上的局限。超图的高阶关联建模能力使得HyperC2Net能够在跨层次和跨位置的信息传播中表现出色,不仅在特征点之间实现高效的信息聚合和分发,还通过跨层次的消息传递显著提升了目标检测性能,尤其在处理复杂场景和多目标检测任务中表现优异。

机器学习算法AI大数据技术

搜索公众号添加: datanlp

picture.image

长按图片,识别二维码

阅读过本文的人还看了以下文章:

实时语义分割ENet算法,提取书本/票据边缘

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主

《大语言模型》PDF下载

动手学深度学习-(李沐)PyTorch版本

YOLOv9电动车头盔佩戴检测,详细讲解模型训练

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank,用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

《深度学习:基于Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加: datayx

picture.image

0
0
0
0
相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论