点击下方卡片,关注「集智书童」公众号
导读
目标检测和分割在计算机视觉应用中得到了广泛应用,然而,像YOLO系列这样的传统模型虽然高效且准确,但受限于预定义的类别,限制了在开放场景中的适应性。最近的开集方法利用文本 Prompt 、视觉线索或无 Prompt 范式来克服这一限制,但由于计算需求高或部署复杂,通常在性能和效率之间做出妥协。
在这项工作中,作者引入了YOLOE,它将检测和分割整合到单个高效模型中,跨越多种开放 Prompt 机制,实现了实时感知任何事物。对于文本 Prompt ,作者提出了可重参化区域-文本对齐(RepRTA)策略。它通过一个可重参化的轻量级辅助网络细化预训练的文本嵌入,并通过零推理和转移开销增强视觉-文本对齐。对于视觉 Prompt ,作者提出了语义激活视觉 Prompt 编码器(SAVPE)。它采用解耦的语义和激活分支,以最小的复杂性带来改进的视觉嵌入和准确性。对于无 Prompt 场景,作者引入了懒惰区域- Prompt 对比(LRPC)策略。它利用内置的大词汇量和专用嵌入来识别所有目标,避免了昂贵的语言模型依赖。
大量实验表明,YOLOE具有卓越的无监督性能和迁移能力,具有高推理效率和低训练成本。值得注意的是,在LVIS数据集上,YOLOE-S在训练成本降低3倍和推理速度提高1.4倍的情况下,比YOLO-Worldv2-S高出3.5个AP。当迁移到COCO数据集时,YOLOE-v8-L在训练时间几乎减少4倍的情况下,比封闭集YOLOE-L实现了0.6个AP和0.4个AP的提升。
代码和模型:https://github.Com/THU-MIG/yoloe
- 引言
目标检测和分割是计算机视觉的基础任务[15, 48],其应用范围广泛,涵盖自动驾驶[2]、医学分析[55]和机器人技术[8]等领域。传统的YOLO系列[1, 3, 21, 47]等方法利用卷积神经网络实现了实时显著的性能。然而,它们对预定义目标类别的依赖限制了在实际开放场景中的灵活性。这些场景越来越需要能够根据各种 Prompt 机制(如文本、视觉线索或无 Prompt )检测和分割任意目标的模型。
鉴于上述情况,近期的研究努力转向使模型能够对开放 Prompt 进行泛化[5, 20, 49, 80]。它们针对单一 Prompt 类型,例如GLIP[32],或者以统一的方式针对多种 Prompt 类型,例如DINO-X[49]。具体而言,在区域级视觉-语言预训练[32, 37, 65]中,文本 Prompt 通常由文本编码器处理,作为区域特征的对比目标[20, 49],实现任意类别的识别,例如YOLOWorld[5]。对于视觉 Prompt ,它们通常通过图像特征或语言对齐的视觉编码器与特定区域相关联的类别嵌入来编码,以识别相似目标[5, 19, 30, 49],例如TRex2[20]。在无 Prompt 场景中,现有方法通常集成语言模型,依次找到所有目标并基于区域特征生成相应的类别名称[49, 62],例如GenerateU[33]。
尽管取得了显著进展,但仍缺乏一个支持对任意物体进行多样化开放 Prompt 且高效准确的单一模型。例如,DINOX [49] 具有统一的架构,然而,这种架构却导致了资源密集型的训练和推理开销。此外,不同工作中针对不同 Prompt 的独立设计在性能和效率之间表现出次优的权衡,使得直接将它们结合成一个模型变得困难。例如,文本 Prompt 方法在整合大型词汇时往往会产生大量的计算开销,这是由于跨模态融合的复杂性 [5, 32, 37, 49]。视觉 Prompt 方法通常由于Transformer密集型设计或依赖于额外的视觉编码器 [20, 30, 67],在边缘设备上的部署性会妥协。与此同时,无 Prompt 方法依赖于大语言模型,引入了相当大的内存和延迟成本 [33, 49]。
鉴于这些情况,本文介绍了YOLOE(ye),一种高效、统一且开放的目标检测与分割模型,类似于人眼,在文本、视觉输入和 Prompt 无关范式等不同的 Prompt 机制下工作。作者以广泛验证有效的YOLO模型为基础。对于文本 Prompt ,作者提出了可重参化区域-文本对齐(RepRTA)策略,该策略使用轻量级辅助网络来提升预训练文本嵌入,以实现更好的视觉语义对齐。在训练过程中,预先缓存的文本嵌入只需辅助网络处理文本 Prompt ,与封闭集训练相比,额外成本较低。在推理和迁移过程中,辅助网络无缝重参化为分类头,从而产生与YOLOs相同的架构,且无额外开销。对于视觉 Prompt ,作者设计了语义激活视觉 Prompt 编码器(SAVPE)。通过将感兴趣区域形式化为 Mask ,SAVPE将它们与PAN的多尺度特征融合,在激活分支中产生低维度的 Prompt 感知权重,并在语义分支中提取 Prompt 无关的语义特征。通过聚合这些特征,得到 Prompt 嵌入,从而在最小化复杂度的同时实现良好的性能。对于 Prompt 无关场景,作者引入了懒惰区域- Prompt 对比(LRPC)策略。LRPC不依赖于昂贵的语言模型,利用专门的 Prompt 嵌入来找到所有物体,并内置一个大型词汇表用于类别检索。通过仅将识别出的物体的 Anchor 点与词汇表进行匹配,LRPC确保了高性能且开销低。
得益于它们,YOLOE在单一模型中表现出色,实现了多种开放 Prompt 机制下的检测和分割,同时具有高推理效率和低训练成本。值得注意的是,如图1所示,在比YOLOWorldv2-S[5]低3倍的训练成本下,YOLOE-v8-S在LVIS[14]上显著优于YOLOWorldv2-S[5],AP值高出3.5,在T4和iPhone 12上分别实现了1.4倍和1.3倍的推理速度提升。在视觉 Prompt 和无 Prompt 设置中,YOLOE-v8-L分别以3.3 AP_r和0.4 AP优于T-Rex2和GenerateU,同时分别减少了2倍的训练数据和6.3倍的参数。对于迁移到COCO[34],YOLOE-v8-M/L在训练时间几乎减少4倍的情况下,分别以0.4/0.6 AP_b和0.4/0.4 AP_m优于YOLOv8-M/ΩL。作者希望YOLOE能够建立强大的 Baseline ,并激发实时开放 Prompt 驱动的视觉任务进一步发展。
- 相关工作
传统检测与分割。传统的目标检测与分割方法主要基于闭集范式。早期的两阶段框架[4, 12, 15, 48],以Faster RCNN[48]为代表,引入了区域 Proposal 网络(RPNs),随后进行感兴趣区域(ROI)的分类和回归。同时,单阶段检测器[10, 35, 38, 56, 72]通过在单个网络中进行基于网格的预测来优先考虑速度。YOLO系列[1, 21, 27, 47, 59, 60]在这一范式中发挥了重要作用,并在实际应用中得到了广泛使用。此外,DETR[28]及其变体[28, 69, 77]通过使用基于transformer的架构去除启发式组件,实现了重大转变。为了获得更精细的结果,现有的实例分割方法预测像素级 Mask 而不是边界框坐标[15]。为此,YOLACT[3]通过原型 Mask 和 Mask 系数的集成实现了实时实例分割。基于DINO[69],MaskDINO[29]利用 Query 嵌入和高分辨率像素嵌入图来生成二值 Mask 。
文本 Prompt 检测与分割。近年来,在开放词汇目标检测领域[13, 25, 61, 68, 74-76]的进展主要集中在通过将视觉特征与文本嵌入对齐来检测新类别。具体来说,GLIP[32]通过在大规模图像-文本对上进行有根预训练,统一了目标检测和短语定位,展示了鲁棒的零样本性能。DetCLIP[65]通过丰富概念描述来促进开放词汇学习。此外,Grounding DINO[37]通过将跨模态融合集成到DINO中,增强了文本 Prompt 与视觉表示之间的对齐。YOLO-World[5]进一步展示了使用基于YOLO架构的开放识别能力预训练小型检测器的潜力。YOLO-UniOW[36]通过利用自适应决策学习策略在YOLO-World的基础上进行构建。类似地,几个开放词汇实例分割模型[11, 18, 26, 45, 63]通过从先进的基座模型中学习丰富的视觉-语义知识,以执行对新类别物体的分割。例如,X-Decoder[79]和OpenSeeD[71]探索了开放词汇检测和分割任务。APE[54]引入了一个通用视觉感知模型,该模型使用各种文本 Prompt 对图像中的所有目标进行对齐和 Prompt 。
视觉 Prompt 检测与分割。虽然文本 Prompt 提供了通用的描述,但某些物体仅用语言描述可能存在困难,例如需要特定领域知识的物体。在这种情况下,视觉 Prompt 可以更灵活、更具体地引导检测和分割,补充文本 Prompt [19, 20]。OV-DETR[67]和OWL-ViT[41]利用CLIP编码器处理文本和图像 Prompt 。MQDet[64]通过 Query 图像中的类特定视觉信息来增强文本 Query 。DINOv[30]探索将视觉 Prompt 作为通用和指称视觉任务的上下文示例。T-Rex2[20]通过区域级对比对齐整合视觉和文本 Prompt 。对于分割,基于大规模数据,SAM[23]提出了一种灵活且强大的模型,可以进行交互式和迭代式 Prompt 。SEEM[80]进一步探索了使用更多样化的 Prompt 类型进行物体分割。Semantic-SAM[31]在语义理解和粒度检测方面表现出色,能够处理全景分割和部分分割任务。
无 Prompt 检测与分割。现有的方法在开放集检测和分割过程中仍然依赖于推理时的显式 Prompt 。为了解决这一局限性,一些研究[33, 40, 49, 62, 66]探索了与生成式语言模型的集成,以生成所有发现目标的物体描述。例如,GRiT[62]使用文本解码器同时进行密集式字幕和目标检测任务。DetCLIPv3[66]在大型数据集上训练物体描述器,使模型能够生成丰富的标签信息。GenerateU[33]利用语言模型以自由形式生成物体名称。
结束语。据作者所知,除了DINO-X [49]之外,鲜有研究在单一架构中实现跨越各种开放 Prompt 机制的目标检测和分割。然而,DINO-X的训练成本高昂,推理开销显著,严重限制了其在现实世界边缘部署的实用性。相比之下,作者的YOLOE旨在提供一个高效且统一的模型,它具有实时性能和效率,并且易于部署。
- 研究方法
在本节中,作者详细介绍了YOLOE的设计。基于YOLOs(第3.1节),YOLOE通过RepRTA(第3.2节)支持文本 Prompt ,通过SAVPE(第3.3节)支持视觉 Prompt ,以及通过LRPC(第3.4节)支持无 Prompt 场景。
3.1 模型架构
如图2所示,YOLOE采用了典型的YOLOs架构[1, 21, 47],包括 Backbone 网络、PAN、回归头、分割头和目标嵌入头。 Backbone和PAN提取图像的多尺度特征。对于每个 Anchor 点,回归头预测检测的边界框,分割头生成原型和 Mask 系数以进行分割[3]。目标嵌入头遵循YOLOs中分类头的结构,除了最后一个
卷积层的输出通道数从闭集场景中的类别数更改为嵌入维度。同时,给定文本和视觉 Prompt ,作者分别使用RepRTA和SAVPE将它们编码为归一化 Prompt 嵌入
。它们作为分类权重,并与 Anchor 点的目标嵌入
进行对比以获得类别标签。该过程可以形式化为:
其中,
表示 Anchor 点的数量,
表示 Prompt 的数量,
表示嵌入的特征维度。
3.2. 可重新参数化的区域-文本对齐
在开放集场景中,文本和物体嵌入之间的对齐决定了识别类别的准确性。先前的工作通常引入复杂的跨模态融合来提高视觉-文本表示,以实现更好的对齐[5, 37]。然而,这些方法带来了显著的计算开销,尤其是在大量文本的情况下。鉴于此,作者提出了可重参化区域文本对齐(RepRTA)策略,通过可重参化的轻量级辅助网络在训练过程中改进预训练的文本嵌入。文本和 Anchor 点物体嵌入之间的对齐可以通过零推理和转移成本得到增强。
具体来说,使用长度为
的文本 Prompt
,作者首先采用CLIP文本编码器[44, 57]来获取预训练的文本嵌入
。在训练之前,作者预先缓存数据集中所有文本的嵌入,并且文本编码器可以在不额外增加训练成本的情况下移除。
同时,如图3(a)所示,作者引入了一个轻量级的辅助网络
,它只有一个前馈块[53, 58],其中
表示可训练的参数,与闭集训练相比引入了较低的开销。它推导出增强的文本嵌入
,在训练期间与 Anchor 点目标的嵌入进行对比,从而提高了视觉-语义对齐。设
为目标嵌入头中最后卷积层的核参数,其中输入特征
,
表示卷积运算符,
表示 Reshape 函数,作者有:
此外,在训练后,辅助网络可以通过目标嵌入头重新参数化为YOLOs相同的分类头。重新参数化后,最后一层卷积的新核参数
可以推导如下:
最终预测可以通过
获取,这与原始YOLO架构相同,导致部署和迁移到下游闭集任务时无额外开销。
3.3 语义激活的视觉 Prompt 编码器
视觉 Prompt 旨在通过视觉线索(例如,方框和 Mask )指示感兴趣的物体类别。为了生成视觉 Prompt 嵌入,先前的研究通常采用以transformer为主的架构[20, 30],例如可变形注意力[78],或额外的CLIP视觉编码器[44, 67]。然而,这些方法由于复杂的操作或高计算需求,在部署和效率方面引入了挑战。考虑到这一点,作者引入了语义激活视觉 Prompt 编码器(SAVPE),以有效地处理视觉线索。它具有两个解耦的轻量级分支:(1)语义分支在D通道中输出 Prompt 无关的语义特征,而不需要融合视觉线索的额外开销;(2)激活分支通过在低成本下将视觉线索与图像特征交互,产生分组 Prompt 感知权重。它们的聚合在最小复杂度下产生信息丰富的 Prompt 嵌入。
如图3(b)所示,在语义分支中,作者采用与目标嵌入头相似的结构。利用PAN的多尺度特征
,作者分别为每个尺度使用两个
卷积。上采样后,特征被连接并投影以得到语义特征
。在激活分支中,作者将视觉 Prompt 形式化为 Mask ,指示区域为1,其他区域为O。作者对其进行下采样,并使用
卷积得到 Prompt 特征
。此外,作者从
通过卷积获得图像特征
,与 Prompt 特征融合。然后,将
和
连接并用于输出 Prompt 感知权重
,在 Prompt 指示区域内使用softmax进行归一化。此外,作者将通道
分为
组,每组包含
个通道。第
组的通道共享
的第
个通道到
个通道的权重
。由于
,作者可以以低维处理视觉 Prompt 与图像特征,带来最小的成本。此外,通过两个分支的聚合可以导出 Prompt 嵌入。
因此,它可以与 Anchor 点目标的嵌入进行对比,以识别具有感兴趣类别的目标。
3.4 Lazy region-prompt contrast
在无 Prompt 场景下,没有明确的指导,模型被期望能够识别图像中所有带有名称的目标。先前的工作通常将此类设置形式化为一个生成问题,其中使用语言模型来生成密集发现目标的类别[33, 49, 62]。然而,这引入了显著的额外开销,例如在GenerateU[33]中使用250M参数的FlanT5-base[6]和在DINO-X[49]中使用OPT-125M[73]的语言模型,远远无法满足高效率的要求。鉴于此,作者将此类设置重新定义为检索问题,并提出了Lazy Region-Prompt Contrast(LRPC)策略。该策略以经济高效的方式从内置的大词汇表中懒加载 Anchor 点目标的类别名称。这种范式对语言模型没有依赖,同时具有优良的效率和性能。
具体而言,使用预训练的YOLOE,作者引入了专门的 Prompt 嵌入,并专门训练它以找到所有目标,其中目标被视为一个类别。同时,作者遵循[16]收集了一个大型词汇表,该词汇表涵盖了各种类别,并作为检索的内置数据源。可以直接利用大型词汇表作为YOLOE的文字 Prompt 以识别所有目标,然而,这通过将大量 Anchor 点目标的嵌入与大量文本嵌入进行对比,会带来显著的计算成本。相反,作者使用专门的 Prompt 嵌入
来找到与目标对应的 Anchor 点集
。
表示所有 Anchor 点,
是用于过滤的阈值超参数。因此,只有
中的 Anchor 点会与内置词汇表进行懒惰匹配以检索类别名称,从而绕过无关 Anchor 点的成本。这进一步提高了效率,而不会降低性能,便于实际应用。
3.5 训练目标
在训练过程中,作者遵循[5]的方法为每个拼贴样本获取在线词汇表,其中涉及图像的文本作为正标签。借鉴[21],作者利用任务对齐的标签分配来匹配预测值与真实值。分类任务采用二元交叉熵损失,回归任务采用IoU损失和分布式Focal Loss。对于分割任务,作者遵循[3]的方法,使用二元交叉熵损失来优化 Mask 。
- 实验
4.1 实施细节
模型。为了与[5]进行公平的比较,作者采用相同的YOLOv8架构[21]用于YOLOE。此外,为了验证其在其他YOLO模型上的良好泛化能力,作者还实验了YOLO11架构[21]。对于这两者,作者提供了三种模型规模,即小(S)、中(M)和大型(L),以适应各种应用需求。文本 Prompt 使用预训练的MobileCLIP-B(LT) [57]文本编码器进行编码。在SAVPE中,作者默认使用
。
数据。作者遵循[5]使用检测和定位数据集,包括Objects365(V1)[52]、GoldG [22](包括GQA [17]和Flickr30k [43]),其中排除了COCO [34]中的图像。此外,作者利用先进的SAM-2.1 [46]模型,使用检测和定位数据集中的真实边界框生成伪实例 Mask ,用于分割数据。这些 Mask 经过过滤和简化以消除噪声[9]。对于视觉 Prompt 数据,作者遵循[20]利用真实边界框作为视觉线索。在无 Prompt 任务中,作者重用相同的数据集,但将所有目标标注为单个类别以学习专门的 Prompt 嵌入。
训练。由于计算资源有限,与YOLO-World训练100个epoch不同,作者首先使用文本 Prompt 训练YOLOE 30个epoch。然后,作者仅使用视觉 Prompt 训练SAVPE 2个epoch,从而避免了支持视觉 Prompt 带来的额外显著训练成本。最后,作者仅针对无 Prompt 场景训练专门的 Prompt 嵌入1个epoch。在文本 Prompt 训练阶段,作者采用与[5]相同的设置。值得注意的是,YOLOE-v8-S / M / L可以在8个Nvidia RTX4090 GPU上训练,耗时12.0~17.0/22.5小时,与YOLOWorld相比,成本降低3倍。对于视觉 Prompt 训练,作者冻结其他所有部分,并采用与文本 Prompt 训练相同的设置。为了实现无 Prompt 能力,作者利用相同的数据训练专门的嵌入。作者可以看到,YOLOE不仅具有低训练成本,还表现出卓越的零样本性能。此外,为了验证YOLOE在下游任务上的良好迁移性,作者在COCO [34]上微调了作者的YOLOE,用于封闭集检测和分割。作者实验了两种不同的实用微调策略:(1) 线性检测:只有分类头是可学习的;(2) 全部调整:所有参数都是可训练的。对于线性检测,作者训练所有模型仅10个epoch。对于全部调整,作者训练小型模型,包括YOLOE-v8-S / 11-S,进行160个epoch的训练,以及中型和大型模型,包括YOLOE-v8-M / L和YOLOE-11-M / L,分别进行80个epoch的训练。
度量。对于文本 Prompt 评估,作者使用基准测试中的所有类别名称作为输入,遵循开放词汇目标检测任务的标准化协议。对于视觉 Prompt 评估,根据[20],对于每个类别,作者随机采样
个训练图像(默认
),使用它们的真实边界框提取视觉嵌入,并计算平均 Prompt 嵌入。对于无 Prompt 评估,作者采用与[33]相同的协议。使用预训练的文本编码器[57]将开放式预测映射到基准测试中语义相似的类别名称。与[33]不同,作者通过选择最自信的预测来简化映射过程,消除了进行top-
选择和束搜索的需求。作者使用[16]中的标签列表作为内置的大词汇表,包含总共4585个类别名称,并经验性地使用
进行LRPC,默认值。对于所有三种 Prompt 类型,根据[5, 20, 33],在LVIs[14]上进行零样本评估,其中包含1,203个类别。默认情况下,报告LVIS minival子集上的固定AP[7]。对于迁移到COCO,按照[1, 21]评估标准AP。此外,作者测量了所有模型在Nvidia T4 GPU上使用TensorRT和iPhone 12移动设备上使用CoreML的FPS。
4.2 文本与视觉 Prompt 评估
如表1所示,在LVIS上的检测任务中,YOLOE在不同模型尺度上展现了在效率与零样本性能之间的良好权衡。作者还注意到,这些结果是在远少于YOLO-Worldv2的训练时间下实现的,例如,比YOLO-Worldv2快3倍。具体来说,YOLOE-v8-S/M/L在AP上分别优于YOLOv8-Worldv2-S/M/L 3.5/0.2/0.4,同时在T4和iPhone 12上分别实现了1.4倍/1.3倍/1.3倍和1.3倍/1.2倍/1.2倍的推理速度提升。此外,对于具有挑战性的稀有类别,YOLOE-v8-S和YOLOE-v8-L在APr上分别取得了5.2%和7.6%的显著提升。
此外,与YOLO-Worldv2相比,尽管YOLOE-v8-M/L在APf上有所降低,但这种性能差距主要源于YOLOE将检测和分割集成在一个模型中。这种多任务学习引入了权衡,对常见类别的检测性能产生了不利影响,如表5所示。此外,采用YOLO11架构的YOLOE也展现出良好的性能和效率。例如,YOLOE-11-L在AP上与YOLO-Worldv2-L相当,但在T4和iPhone 12上实现了1.6倍的推理速度提升,突显了YOLOE的强大泛化能力。
此外,视觉 Prompt 的加入进一步增强了YOLOE的通用性。与T-Rex2相比,YOLOEv8-L在训练数据量减少2倍(3.1M vs. 作者的1.4M)和训练资源大幅降低(16个Nvidia A100 GPU vs. 作者的8个Nvidia RTX4090 GPU)的情况下,实现了
和
的提升。此外,对于视觉 Prompt ,尽管作者只对SAVPE进行了2个epoch的训练,其余部分保持冻结,但作者注意到它能够实现与文本 Prompt 相当的平均精度
和
,适用于各种模型规模。这表明视觉 Prompt 在描述文本 Prompt 经常难以准确描述的较少出现物体方面的有效性,这与文献[20]中的观察结果相似。
此外,对于分割任务,作者在表2中报告了在LVIS验证集上的评估结果,其中包含了标准的
。结果显示,YOLOE通过利用文本 Prompt 和视觉 Prompt ,表现出强大的性能。具体来说,YOLOE-v8-M / L在零样本方式下实现了20.8和23.5
,分别显著优于在LVIS-Base数据集上微调的YOLO-Worldv2-M / L,分别高出3.0和3.7
。这些结果很好地展示了YOLOE的优越性。
4.3 无 Prompt 评估
如表3所示,在无需 Prompt 的场景下,YOLOE同样展现出卓越的性能和效率。具体来说,YOLO-v8-L实现了27.2 AP和23.5 APr,优于使用Swin-T Backbone的GenerateU,分别高出0.4 AP和3.5 APr,同时参数数量减少了6.3倍,推理速度提升了53倍。这表明YOLOE通过将开放性问题重新定义为内置大型词汇的检索任务,证明了其通过无需明确 Prompt 就能泛化到广泛类别中的有效性。这种功能也增强了YOLOE的实用性,使其能够应用于更广泛的现实场景中。
4.4. 下游迁移
如表4所示,在将模型迁移到COCO进行下游的闭集检测和分割任务时,YOLOE在有限的训练轮次下,两种微调策略均表现出良好的性能。具体来说,对于线性检测,在不到2%的训练时间内,YOLOE
可以达到YOLO11-M
超过80%的性能,这突显了YOLOE强大的迁移能力。对于全量微调,YOLOE可以在有限的训练成本下进一步提升性能。例如,在接近4倍减少的训练轮次下,YOLOE
分别比YOLOv8-M / L高出0.4
和0.6
。在减少3倍训练时间的情况下,YOLO-v8- S在检测和分割任务上均比YOLOv8- S获得了更好的性能。这些结果很好地证明了YOLOE可以作为迁移到下游任务的强大起点。
4.5 消融研究
作者进一步对YOLOE中设计的有效性进行了广泛的分析。实验在YOLOE-v8-L上开展,并默认在LVIS mini val数据集上报告标准AP值,以进行零样本评估。
YOLOE路线图 。作者在表5中概述了从 Baseline 模型YOLOv8-Worldv2-L到作者的YOLOE-v8-L的逐步进展,包括文本 Prompt 。以初始 Baseline 指标
AP为起点,由于计算资源有限,作者首先将训练轮数减少到30,导致AP下降到
。此外,作者不是使用空字符串作为负文本进行数据定位,而是遵循[65],维护一个全局字典以采样更多样化的负 Prompt 。全局字典是通过选择在训练数据中出现超过100次的类别名称构建的。这导致了
AP的提升。接下来,作者移除了跨模态融合,以避免昂贵的视觉-文本特征交互,这导致了
AP的下降,但在T4和iPhone 12上分别实现了
和
的推理速度提升。为了解决这种下降,作者利用更强的MobileCLIP-B(LT)文本编码器[57]来获得更好的预训练文本嵌入,使AP恢复到
。此外,作者采用RepRTA来增强 Anchor 点目标和文本嵌入之间的对齐,这带来了显著的
AP提升,且没有推理开销,显示了其有效性。最后,作者引入了分割头,并训练YOLOE同时进行检测和分割。尽管这由于多任务学习导致AP和
分别下降了
和
,但YOLOE获得了分割任意目标的能力。
SAVPE的有效性 。为了验证SAVPE在视觉输入上的有效性,作者移除了激活分支,并简单地利用 Mask 池化来聚合由公式化的视觉 Prompt Mask 所提取的语义特征。如表6所示,SAVPE在AP上显著优于“ Mask 池化”1.5个百分点。这是因为“ Mask 池化”忽略了 Prompt 指示区域内不同位置的语义重要性的变化,而作者的激活分支有效地建模了这种差异,从而提高了语义特征的聚合和对比 Prompt 嵌入的质量。作者还考察了激活分支中不同分组数量,即
,的影响。如表6所示,即使只有一组,即
,性能也能得到提升。此外,在
的情况下,作者还能实现31.9 AP的强大性能,达到了良好的平衡,即更多的分组只会导致微小的性能差异。
LRPC的有效性 。为了验证LRPC在无 Prompt 设置中的有效性,作者引入了一个 Baseline ,该 Baseline 直接利用内置的大词汇量作为YOLOE的文本 Prompt 以识别所有目标。表7展示了比较结果。作者观察到,在相同性能的情况下,作者的LRPC通过懒惰地检索已发现目标的 Anchor 点类别并跳过大量无关类别,分别实现了YOLOE-v8-S和YOLOE-v8-L的
和
推理速度提升。这些结果很好地突显了其效力和实用性。此外,通过不同的阈值
进行过滤,LRPC可以实现不同的性能和效率权衡,例如,仅使YOLOE-v8-S的AP下降0.2,即可实现
的速度提升。
4.6 可视化分析
在四种场景中对YOLOE进行可视化分析:
(1)在LVIS上进行零-shot推理,如图4.(a)所示,其中类别名称作为文本提示,
(2)如图4.(b)所示的文本提示,可以输入任意文本作为提示,
(3)如图4.(c)所示的视觉提示,可以绘制视觉线索作为提示,
(4)如图4.(d)所示的没有显式提示,模型识别所有对象。我们可以看到,YOLOE在这些不同的场景中表现良好,能够准确地检测和分割各种对象,进一步展示了其在多种应用中的有效性和实用性。
- 结论
本文提出YOLOE,一个高度高效的单一模型,能够无缝地将目标检测和分割整合到多种开放 Prompt 机制中。具体来说,作者引入了RepRTA、SAVPE和LRPC,使YOLO能够以优异的性能和低成本处理文本 Prompt 、视觉线索和无 Prompt 范式。
得益于这些技术,YOLOE在各种 Prompt 方式上均展现出强大的能力和高效性,实现了实时感知一切。作者希望它能够作为一个强大的 Baseline ,激发进一步的进步。
参考
[1]. YOLOE: Real-Time Seeing Anything
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)