从标注到像素级监督， SegVG 方法在视觉定位中的 SOTA 性能！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

与目标检测不同，视觉定位处理的是为每个文本-图像对检测一个边界框。每个文本-图像数据的一个边界框提供了稀疏的监督信号。尽管以前的工作取得了令人印象深刻的成果，但它们对标注的被动利用，即仅将边界框标注作为回归的 GT ，导致性能次优。

在本文中，作者提出了SegVG ，这是一种新颖的方法，它将边界框 Level 的标注转换为分段信号，为视觉定位 提供额外的像素级监督。具体来说，作者提出了多层多任务编码器-解码器作为目标定位阶段，作者学习一个回归 Query 和多个分段 Query ，通过在每个解码层分别对边界框进行回归和分段来定位目标。

这种方法允许作者迭代地利用标注作为边界框级回归和像素级分段的信号。此外，由于 Backbone 网络通常是由从单模态任务中学到的预训练参数初始化的，并且回归和分段的 Query 是静态可学习的嵌入，这三种特征之间存在领域差异，这损害了后续的目标定位。

为了减轻这种差异，作者引入了三元对齐模块，其中 Query 、文本和视觉标记通过三元注意力机制三角更新以共享相同的空间。

在五个广泛使用的数据集上的大量实验验证了作者的最先进（SOTA）性能。

代码可在https://github.com/WeitaiKang/SegVG获取。

unset

unset1 Introductionunset

unset

视觉定位旨在根据自由形式的自然语言文本表达式在图像中定位目标目标。这对于众多下游的多模态推理系统尤为重要，如视觉问答和图像字幕生成。先前的工作可以大致分为三个不同的类别：两阶段方法，一阶段方法，以及基于Transformer的方法。两阶段和一阶段方法都使用卷积神经网络来生成候选 Proposal 并选择最佳匹配的候选目标。然而，这些方法依赖于复杂的模块，这些模块采用手工制作的技术来执行语言推理和多模态融合。

受到Transformer[7, 8]成功的启发，TransVG[6]提出了一种基于Transformer的流水线。如图1.(a)所示，该流水线通过DETR[2]和BERT[7]分别提取视觉和文本特征。为了定位目标，他们使用Transformer编码器融合多模态特征以及一个可学习的回归 Query ，并通过多层感知机（MLP）解码 Query 。为了增强最终的目标定位阶段，后续研究继续在早期阶段使用一些文本到视觉模块来调制视觉特征以与文本特征对齐。例如，QRNet[47]提出了一种 Query 调制方法，在视觉 Backbone 内提取语言感知的视觉特征。VLTVG[41]引入了一个验证图，在多模态融合之前激活视觉特征以与文本特征对齐。

picture.image

图1：视觉定位框架的比较。带有虚线边框的块表示该模块不一定存在。（a ）先前的基础方法包括两个 Backbone 网络和用于目标定位的额外Transformer层，其中回归 Query 受到监督以回归边界框。当前的最新方法进一步采用文本到视觉模块来对齐视觉特征与文本特征。（b ）作者的方法融合了分割 Query ，它在像素级利用边界框标注来分割目标。此外，作者提出了三重对齐模块来消除 Query 、文本和视觉特征之间的领域差异。

尽管它们取得了进展，但次优的标注利用率（即仅将边界框标注作为回归标注）限制了它们的性能。如[35]所讨论的，与目标检测相比，视觉定位由于其稀疏的监督信号而呈现出独特的挑战。具体来说，它仅为每个文本-图像对提供了一个边界框标签，同时需要在多模态环境中进行检测。因此，将边界框标注视为分割 Mask （边界框内的像素值设为1，边界框外的像素值设为0）以充分利用它是至关重要的。在本文中，作者介绍了SegVG（见图1.(b)），这是一种新颖的方法，它利用边界框标注中的像素级细节作为分割信号，为视觉定位提供额外的细粒度监督。

具体来说，作者提出了多层多任务编码器-解码器作为目标定位阶段，作者学习一个回归 Query 和多个分割 Query ，通过在每个解码层分别回归和分割边界框来定位目标。分割得到的置信度可以作为Focal Loss[20]的缩放因子，自适应地强调其他具有挑战性的训练样本的损失。这种方法允许作者迭代地将标注作为边界框级回归和像素级分割的信号。此外，模型 Backbone 的初始参数（通常来自预训练的单模态任务）以及用作解码 Query 的数据不可知静态嵌入导致不同特征源之间的领域差异，影响目标定位的有效性。

为了解决这个问题，作者提出了三重对齐模块，通过实施三角形注意力机制的三重更新过程来调和 Query 、文本和视觉特征的领域。因此，作者确保所有特征在相同的多模态空间中适应和融合，从而增强后续的目标定位。

作者的贡献如下：

作者提出了多层多任务编码器-解码器，以最大化边界框标注的利用率，它在视觉定位中引入了额外的分割格式，用于像素级监督。
为了消除 Query 、文本和视觉之间的领域差异，作者引入了三重对齐来更新这三种类型的特征到一个共享领域，这有助于后续的目标定位。
作者在五个广泛使用的数据集上进行了大量实验，以展示作者提出的方法与先前最新方法的性能优势，并进一步研究了分割输出在实际应用中带来的可靠性益处。
作者将在接受论文后发布源代码和预训练权重，以供未来的研究发展。

unset

unset2 Related Workunset

unset

视觉接地方法大致可以分为三种流程：两阶段方法、单阶段方法和基于Transformer的方法。

两阶段方法 两阶段方法[3, 49]将视觉接地视为首先生成候选目标 Proposal ，然后找到与文本最佳匹配的方案。在第一阶段，一个现成的检测器处理图像并提出可能包含目标的区域。在第二阶段，一个排序网络计算候选区域与处理后的文本特征之间的相似度，选择相似度得分最高的区域作为最终结果。训练损失包括二分类损失[28]或最大边缘排序损失[49]。为了更好地理解文本和跨模态匹配，MattNet[49]专注于将文本分解为主体、位置和关系组件。[3]引入了一种表达感知得分，以改进候选区域排序。

单阶段方法 单阶段方法[45, 46]直接在通道维度上连接视觉和文本特征，并基于连接的多模态特征对候选区域的置信度进行排序。例如，FAOA[46]使用YOLOv3检测器[31]在连接的特征上预测边界框。ReSC[45]通过引入递归子 Query 构建模块，进一步提高了对复杂 Query 的接地能力。

图2：SegVG：上图包括视觉和文本 Backbone 网络。作者提出的Triple Alignment模块迭代插入中间层以消除领域差异。下图展示了作者的Multi-layer Multi-task Encoder-Decoder，它采用Transformer编码器-解码器来更新多模态特征并接地目标。在这种架构中，作者将边界框标注作为分割的真实地面，并将额外的分割任务集成到视觉接地中。此外，分割输出作为Focal Loss的一个因素，允许对回归损失中的具有挑战性的情况进行自适应强调。M=6, R=6。

picture.image

基于Transformer的方法 Transformer-based方法最初由TransVG[6]引入。与先前方法不同，TransVG将回归 Query （一个可学习的嵌入），视觉标记和文本标记连接起来，并使用Transformer编码器[36]执行跨模态融合和目标接地。然后通过MLP处理 Query 以解码框。得益于Transformer模块在处理多模态特征时的灵活结构，近期研究继续采用这个流程，并在特征提取方面提出创新。VLTVG 在目标接地阶段之前开发了一个视觉-语言验证模块，以调节视觉特征与视觉和文本特征之间的关系。QRNet 提出了一种Query-modulated Refinement Network，以早期融合视觉和文本特征，减少来自单模态视觉 Backbone 的特征与需要进行多模态推理的特征之间的差距。

多任务视觉接地 多任务学习广泛用于目标检测和分割，通常利用共享的 Backbone 和特定任务的头。在此基础上，几项研究提出了多任务视觉接地问题的解决方案。在这个问题中，它们共同解决Referring Expression Comprehension（REC，也称为视觉接地）和Referring Expression Segmentation（RES）任务，这需要边界框标注和分割标注。需要注意的是，尽管作者在方法中包含了分割损失，但作者不需要分割标注 ，只需要边界框标注，专注于视觉接地任务。

unset

unset3 Methodologyunset

unset

在本节中，作者按照数据流的顺序介绍SegVG的各个组成部分：首先是 Backbone 网络，然后是作者的提出的Triple Alignment，最后是作者的多层多任务编码器-解码器。

unset

unsetBackbonesunset

unset

类似于先前的工作[6, 41]，如图2（上部）所示，作者的视觉 Backbone 网络由来自DETR[2]的ResNet和 Transformer 编码器组成，其参数在MSCOCO数据集[21]上进行预训练，用于目标检测任务，不包括视觉定位数据集的验证集和测试集。文本 Backbone 网络是BERT[7]的基础模型。

视觉 Backbone 网络给定一个输入图像 ()，作者使用DETR的ResNet生成一个2D特征图 ()。然后使用1x1卷积层将的通道维度降低到，得到。作者进一步将展平为 ()。然后在上加上位置嵌入，以保留对原始2D空间位置的敏感性。接下来，通过DETR的编码层（总共6个 Transformer 层）和三重对齐进行处理，得到输出。

文本 Backbone 网络给定一段文本，作者首先使用BERT的嵌入层将其转换为具有通道维度的语言标记。与[6]一致，作者在标记化语言的开头和结尾分别添加 [CLS] 和 [SEP] 标记。此后，作者迭代地将语言标记输入BERT的层（总共12个 Transformer 层）和三重对齐，生成语言嵌入。

unset

unsetTriple Alignmentunset

unset

由于文本和视觉 Backbone 网络是从单模态任务中预训练的，且 Query 是数据不可知的，因此在执行多模态融合进行目标定位之前，后续的目标接地阶段面临着将这三种特征对齐到同一空间中的挑战。此外，考虑到 Backbone 网络通常贡献了大部分的整体参数，仅使用它们提取单模态特征而不结合多模态对齐是次优的。因此，在继续后续的目标接地阶段之前，解决领域差异是一个最佳方案。

如图2（上部）所示，作者提出的三角对齐模块利用注意力机制进行三角特征采样，旨在确保 Query 、文本和视觉特征之间的领域一致性。 Query 首先由N个可学习嵌入进行初始化，其中一个嵌入用于回归 Query ，其余的嵌入用于多个分割 Query 。数据流程如下：

其中L是层数，BERTLayer是BERT的层，DETRlayer是DETR编码器的层。视觉和文本特征首先通过方程1和方程2进行编码。随后，三种 Token （ Query 、文本和视觉）通过作者的三角多头注意力层（Tri-MHA）使用方程3进行更新。输出 Token 通过方程4分别合并回其原始分支。在三角多头注意力层（Tri-MHA）的每个头中，每种特征同时通过关注其他特征和自己来计算其更新后的表示：

其中是可训练的参数。因此，每个输出特征都是从所有三种特征中进行三角采样，这减轻了领域差异。

unset

unsetMulti-layer Multi-task Encoder-Decoderunset

unset

多层多任务编码器-解码器作为目标定位阶段，作者使用 Transformer 编码器-解码器进行跨模态融合和目标定位，以执行框回归任务和框分割任务。

编码器如图2（左下角）所示，在给定来自主干的对齐输出文本和视觉特征的情况下，编码器通过一系列 Transformer 层将这两种模态融合为多模态特征。在每一层中，连接的文本和视觉标记通过多头自注意力层（MHSA）和具有残差连接的前馈网络（FFN）。

解码器在每一个解码器层中，作者旨在充分利用框标注。作者提出了bbox2seg 范式，将框标注转换为分割 Mask ，将框内的所有像素分类为前景（值为1），框外的像素分类为背景（值为0）。如图2（右下角）所示，一个回归 Query 旨在回归框，而其余的分割 Query 旨在分割框。不同的分割 Query 赋予不同的可学习位置嵌入，以增强每个解码器层的鲁棒性，因为当面对各种 Query 时，解码器层需要分割相同的框。随后， Query 通过多头自注意力层交换关于相同目标的信息，促使彼此更好地定位目标。之后， Query 经过多头交叉注意力层和前馈网络，其中多模态特征作为键和值以定位目标。最后，所有解码器层共享的MLP将回归 Query 解码为框结果，由L1损失和Giou损失[32]监督。每个分割 Query 重复次，并与视觉标记沿通道维度连接。另一个共享MLP将连接的特征解码为分割 Mask ，由Focal损失[20]和Dice损失[26]监督。值得注意的是，作者的分割范式与回归范式共享相同的语义基础，即区分边界框 ，而不是实例分割。因此，将非目标像素包含在分割的前景中不会给模型带来歧义。作者提供了定性结果4.8以证明这一特性。为了减轻多任务优化挑战，作者在最初的k个时期冻结主干，以稳定训练过程。

置信度分数由于回归输出和分割输出共享相同的目标，作者可以额外获得分割输出的前景置信度分数，通过平均分割输出的 GT 框内的值来反映回归输出的置信度。在训练过程中，作者可以将这个置信度分数作为Focal损失因子[20]来适应性地强调其他挑战性训练样本的损失。每个解码器层的最终损失函数表达如下：

其中, , 和是超参数。是L1损失。是Giou损失[32]。是Focal损失[20]。是Dice损失[26]。是所有分割输出的上述Focal损失因子平均值。

从实际应用的角度来看，视觉定位任务可以被视为开放词汇目标检测[52]，其中目标目标缺乏预定的类别。因此，先前的基于 Transformer 的方法直接回归框而没有置信度分数，因为在基于 Transformer 的 Pipeline 中没有候选 Proposal 或选择阶段。然而，置信度分数对于通过过滤低置信度预测来增强预测的控制或可靠性是有价值的。这一特性可能有利于将视觉定位模型未来整合到下游多模态推理系统或实际应用中。为了满足这一特性的要求，作者的方法在推理过程中结合了来自分割输出的置信度分数。具体来说，作者通过计算一个分割 Query 的分割输出中大于或等于0.35（从[40]采用）的值的平均值来计算模型的置信度。实验部分的分析4.7证明了结合这个额外的置信度分数的忠实度和好处。

unset

unset4 Experimentsunset

unset

unsetMetric and Datasetsunset

unset

指标一个预测的边界框如果与真实边界框的交并比（IoU）超过0.5，就被认为是准确的。按照先前研究[41, 6]中确立的做法，作者采用top-1准确率（以百分比衡量）作为评估作者方法的主要指标。

数据集共有五个标准基准：RefCOCO [50]，RefCOCO+ [50]，RefCOCOg-g [25]，RefCOCOg-umd [25]，和ReferItGame [16]。其中四个（RefCOCO, RefCOCO+, 和 RefCOCOg-(g/umd)）都来源于MSCOCO [21]。RefCOCO包含19,994张图片和142,210条参照文本，分为四个子集：一个带有120,624条文本的训练集，一个带有10,834条文本的验证集，以及两个测试集（testA和testB），分别包含5,657和5,095条文本。RefCOCO+包括19,992张图片和141,564条参照文本，分为四个子集：一个带有120,191条文本的训练集，一个带有10,758条文本的验证集，以及两个测试集（testA和testB），分别含有5,726和4,889条文本。RefCOCOg包含25,799张图片和95,010条较长的文本。对于这个数据集，采用了两种广泛接受的分割方法——RefCOCOg[25]和RefCOCOg-umd[27]，作者使用RefCOCOg-g（val-g）和RefCOCOg-umd（val-u和test-u）两种分割约定进行实验。ReferItGame数据集，包含来自SAIAPR-12[9]的20,000张图片，分为三个部分：一个带有54,127条文本的训练集，一个带有5,842条文本的验证集，以及一个包含60,103条文本的测试集。

unset

unsetImplementationunset

unset

输入配置作者的方法使用640x640的输入图像大小，并将最大表达长度设置为40。在调整图像大小时，作者保持了原始的宽高比。较长的边缘被缩放到640，较短的边缘用零值填充到640。超过38个token的文本将被截断，分别为[CLS]和[SEP] token保留字符的开始位置和结束位置。如果文本较短，则在[SEP] token后添加空token以达到40的输入长度。输入图像的填充不被 Mask 跟踪，而文本的空token使用 Mask 。

训练过程作者采用了AdamW优化器。视觉和语言主干网络的初始学习率为1e-5，其余参数为1e-4。权重衰减设置为1e-4。视觉主干网络使用DETDR模型的 Backbone 和编码器进行初始化，而语言分支使用基本的BERT模型。对于最终结果，作者的模型训练了90个周期，60个周期后学习率降低10倍。多层多任务编码器-解码器中的k超参数设置为10。作者使用的批处理大小为64。对于表3中呈现的消融研究，模型以k等于20训练了60个周期，并且在40个周期后学习率下降。作者设置 = 5, = 2, = 1 和 = 1。在训练期间，作者遵循以前的做法[41, 6]进行数据增强。

picture.image

unset

unsetQuantitative Resultsunset

unset

作者报告了作者的SegVG在所有基准数据集上的性能表现。正如表1所示，作者的SegVG模型在所有数据集上都表现出了优越性。这表明了作者的方法的有效性和泛化能力。值得注意的是，RefCOCO+和RefCOCOg是相对更具挑战性的数据集，因为RefCOCO+的语言表达中不包括位置术语，而RefCOCOg的语言表达与其他数据集相比更长。尽管存在这些挑战，作者的模型在这两个困难的数据集上仍显示出显著的改进。具体来说，在RefCOCO+上，作者的模型在val、testA和testB子集上分别超过了之前的SOTA模型，提高了+2.99%、+3.7%和+2.42%。在RefCOCOg上，作者的模型也在val-g、val-u和test-u子集上分别超过了之前的SOTA模型，提高了+3.03%、+2.31%和+3.24%。这些结果提示，在Triple Alignment和Multi-layer Multi-task Encoder-Decoder的强化下， Query 、文本和视觉标记被三角更新以共享同一空间，并且模型充分利用边界框作为细粒度的像素级监督，以实现全面的端到端学习。

picture.image

作者还对基于 Transformer 的模型进行了参数数量和GFLOPS的比较，以评估计算成本。如表2所示，SegVG的计算成本在一个合理的范围内。

picture.image

unset

unsetAblation Studyunset

unset

在本节中，作者旨在验证所提出各模块的有效性。作者在RefCOCOg-umd测试数据集上进行了消融研究。具体来说，作者首先评估了一个基本结构，即具有编码器-解码器结构的 Backbone 网络。之后，作者系统地将在Triple Alignment模块融入到 Backbone 网络中，并通过控制变量方法将多层多任务监督引入解码器。同时，作者还对特定细节进行了额外的消融实验，包括评估融入编码器的有效性，在Triple Alignment中引入 Query ，以及将分割输出的Focal损失引入其他损失。

如表3所示，在控制变量下比较实验结果，作者可以得出以下结论：1) [(a) 与 (b)]：融入Triple Alignment可以有效消除 Query 、文本和视觉特征之间的领域差异，从而促进后续的目标定位。** 2) [(a) 与 (c)]：引入多层多任务监督可以迭代地充分利用目标定位阶段的标注，从而增强 Query 表示的学习。 3) [(c) 与 (d)]：增加分割 Query 的数量可以在提供不同 Query 并要求分割相同框时进一步提高解码器的鲁棒性。 4) [(a), (b), (d) 和 (e)]：结合Triple Alignment和多层多任务编码器-解码器可以有效提高整体性能，达到最优结果。 5) [(e) 与 (f)]：即使作者包括了支持多模态通信的Triple Alignment，后续的编码器仍然需要将 Backbone 网络生成的单模态特征更新为多模态特征。 6) [(e) 与 (g)]：在Triple Alignment中包含 Query 是必要的，以将数据无关的嵌入转换为数据相关的 Query 。否则，仅使用双向对齐（如GLIP [17] 中的Deep Fusion和Grounding DINO [23]，以及CoupAlign [54] 中的WPA）对文本和视觉标记进行对齐会导致明显的下降（-0.92%）。 7) [(d), (e) 和 (g)]：(g)(76.37%)相对于(d)(76.21%)的略微提升源于作者MMDecoder的像素级信号，这已经加强了编码器中的BA。因此，在 Backbone 网络中额外的BA努力是微不足道的，无法解决未对齐 Query 的问题。相反，Tri-Align (e)(77.29%)可以解决这个问题，显示出其新颖性。值得注意的是，仅用基本编码器-解码器(d)(76.21%)就已经取得了SOTA性能，强调了作者bbox2seg范式的简单性和有效性。 8) [(e) 与 (h)]**：分割输出可以进一步推导出模型预测的置信度分数，这被转换为Focal损失因子，以自适应地缩放其他损失，以便更多地关注具有挑战性的案例。

作者进一步对如表3**(c)-(d)**中添加更多分割 Query 的改进及其相应成本进行了更详细的消融研究。如表4所示，当使用五个分割 Query 时，观察到最佳性能。添加更多 Query 会增加像素级约束的负担，而没有好处，也会增加每提高一次准确性的计算成本。### Triple Alignment分析

picture.image

除了消融研究中的改进结果外，作者通过分析注意力行为进一步加深了对Triple Alignment的理解。具体来说，作者计算了 Query 到文本指代的视觉区域（目标bbox）的注意力值的总和，作为总注意力（包括对 Query 、文本和视觉标记的注意力）的百分比，以说明在Triple Alignment的第二层、第四层和最后一层这三个模态之间的对齐程度。作者对所有注意力头和 Query 的百分比取平均值，并在所有数据集上进行分析。如表5所示，在所有数据集中，随着层级的推进，注意力值增加，表明Triple Alignment逐步将 Query 对齐以理解文本，然后关注所提到的视觉区域。

picture.image

unset

unsetComparison with alternative methodunset

unset

在参考表达式分割（RES）的发展中，一个自然的替代方法是将RES方法用于生成伪分割标签以取代作者的bbox2seg范式。因此，为了模拟真实世界的场景，作者使用在RefCOCO上训练的LAVT [44] 在ReferItGame上获得伪分割标签。作者遵循消融研究中的相同训练设置，在ReferItGame上进行比较。如表6所示，作者的SegVG优于替代方法。这表明，与可能受到RES模型错误影响的、使用RES模型提供伪分割标签的方法相比，作者的bbox2seg范式更为有效。

unset

unsetConfidence Score Analysisunset

unset

在本节中，作者首先详细介绍了用于计算置信度分数的分割 Query 的选择。然后，作者评估了作者的置信度分数的忠实度。最后，作者展示了其在提高预测可靠性方面的实用性。

分割 Query 的选择为了展示不同分割 Query 选择的效果，作者在RefCOCOg-umd测试集上使用从每个分割 Query 派生的置信度分数来计算AP50。如表7所示，它们之间的性能变化很小。因此，为了简单起见，作者选择第一个分割 Query 来计算置信度分数。

picture.image

置信度分数忠实度为了评估作者的置信度分数的忠实度，即从分割输出转换而来的更高置信度分数是否确实表明性能更好，作者分析了作者的置信度分数与模型性能指标（IoU和准确度）之间的关系，如图3所示。作者将RefCOCOg-umd测试集按置信度分数排序，将其分为五个等分部分，并计算每个部分的平均分数和性能。作者观察到性能指标与作者的置信度分数之间存在正相关关系，从而证实了其忠实度。

picture.image

图4：表3中的**(c)（第一行）与 (d)**（第二行）的定性比较。红色框是真实值。蓝色框是模型预测。

picture.image

置信度分数应用在实际应用中，置信度分数可以用来增强模型的可靠性。具体来说，作者可以应用不同的置信度阈值来实现不同的预测，如表8所示。首先，作者观察到随着阈值的提高，准确度会增加，表明调整阈值可以增强模型的定位能力。此外，平均IoU也随着阈值的增加而增加。因此，在下游应用中，例如使用模型提供伪标签，作者可以增加阈值以获得更准确的框。由于排除了低置信度输出，输出比例略有减少，即产生较少的输出。### 定性结果

picture.image

除了消融研究的定量比较表明增加分割 Query 可以提高鲁棒性之外，作者还定性比较了表3中的(c)和(d)，以突出鲁棒性增强。如图4所示，增加分割 Query 提高了解码器从干扰物中区分目标的能力，例如两个“狗”或两个“长颈鹿”的情况。

如图5所示，作者比较了SegVG每个解码层的框预测质量与VLTVG [41]（也涉及多层监督）。从图5的上两行可以看出，VLTVG最初错过了目标“年轻人”，但其预测逐渐改进，最终做出了正确预测。相比之下，由于作者充分利用了标注和领域对齐的三重对齐，SegVG在早期的解码层成功识别了目标的位置，并在每个层中始终做出正确预测。另一个例子可以在图5的下两行中观察到。在这张图片中，由于颜色复杂，VLTVG未能定位到目标“盘子”并重复相同的错误。而SegVG即使在第一个解码层也正确检测到目标。此外，作者可视化了由SegVG获得的分割 Mask ，在图5中准确识别了具有高置信度的目标框。这种行为与框回归一致，证明了它们共享的目标，即区分框。

picture.image

unset

unset5 Conclusionunset

unset

作者提出了一种基于Transformer的视觉定位模型 SegVG。具体来说，作者引入了多层多任务编码器-解码器，以迭代地充分利用边界框注释，从而引入像素级监督。

此外，作者通过三元对齐模块解决了查询、文本和视觉之间的领域差异，以提高后续目标定位的准确性。

广泛的实验证明了SegVG的卓越性能。此外，作者还探索了我们的分割输出在现实应用中的可靠性优势。

unset

unset参考unset

unset

[1].SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding.

点击上方卡片，关注「AI视界引擎」公众号

从标注到像素级监督， SegVG 方法在视觉定位中的 SOTA 性能 ！

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset