零样本新突破！CLIP-SENet 端到端语义增强网络登顶车辆 Re-ID 三大数据集SOTA - 文章 - 开发者社区

点击下方卡片，关注

「集智书童」

公众号

picture.image

导读

车辆再识别（Re-ID）是智能交通系统（ITS）中的一个关键任务，旨在跨不同监控摄像头检索和匹配同一辆车。众多研究探索了通过关注语义增强来提升车辆Re-ID的方法。然而，这些方法通常依赖于额外的标注信息，以便模型提取有效的语义特征，这带来了许多限制。在本工作中，作者提出了一种基于CLIP的语义增强网络（CLIP-SENet），这是一个端到端框架，旨在自主提取和细化车辆语义属性，从而促进更鲁棒的语义特征表示的生成。受大型视觉-语言模型提出的下游任务的零样本解决方案的启发，作者利用CLIP图像编码器的强大跨模态描述能力，最初提取一般语义信息。而不是使用文本编码器进行语义对齐，作者设计了一个自适应细粒度增强模块（AFEM），以自适应地细化这一般语义信息，从而获得鲁棒的语义特征表示。然后，将这些特征与常见的Re-ID外观特征融合，以进一步细化车辆之间的区别。作者在三个基准数据集上的全面评估展示了CLIP-SENet的有效性。CLIP-SENet实现了新的最先进性能，在VeRi-776数据集上达到92.9%的mAP和98.7%的Rank-1，在VehicleID数据集上达到90.4%的Rank-1和98.7%的Rank-5，在更具挑战性的VeRi-Wild数据集上达到89.1%的mAP和97.9%的Rank-1。

引言

车辆再识别（Re-ID）是交通监控和安全系统中的关键任务，旨在准确检索和匹配由不同监控摄像头捕获的车辆图像。深度卷积神经网络（CNNs）的快速发展导致了车辆Re-ID领域的重要突破[1]、[2]、[3]、[4]。尽管取得了这些进展，车辆Re-ID仍然面临挑战。由于摄像头角度和光照条件的变化，同一车辆的图像存在显著的外观差异，这导致了较大的类内差异。因此，建模车辆外观的视角不变特征已成为车辆Re-ID的关键策略。

在考虑不变特征时，车辆属性如类型、颜色和品牌很容易被想到。这些属性可以作为车辆识别的稳健 Token ，为在多变条件下进行重识别提供稳定的基石。先前在重识别领域中的属性增强方法[5]、[6]、[7]、[8]、[9]主要关注通过利用数据集的标注信息来突出不同的车辆属性，以提取外观特征。然而，这种依赖于通过交叉熵损失函数学习到的属性特征的方法存在两个主要缺点。首先，并非所有数据集都为每辆车提供标注的属性信息，使得这种属性提取方法本质上效率低下，缺乏泛化能力，受限于标注信息的可用性和质量。其次，这些方法往往无法有效地平衡属性特征和外观特征在最终特征表示中的权重。它们突出了一些外观特征中的属性信息，导致属性分类偏向，并忽略了外观中的重要细粒度细节。这为具有小类间差异的车辆ID分类带来了重大挑战。

大规模视觉语言模型的出现为语义特征的提取提供了新的视角。在这些模型中，对比语言-图像预训练（CLIP [1o]）框架因其创新的跨模态表示学习方法而脱颖而出。通过在广泛的图像-文本对上进行训练，CLIP有效地将图像和文本嵌入到一个统一的语义空间中，使得视觉特征与文本描述对齐，从而丰富了提取的特征的语义内容。这些特征具有可迁移性和适应性，适用于多种不同的任务。CLIP的影响推动了Re-ID研究社区的一系列研究努力[11]，[12]，[13]，旨在通过将语义图像特征与相应的文本描述对齐来增强目标的独特表示。值得注意的是，CLIPReID [11]采用两阶段训练方法将CLIP范式应用于Re-ID任务，在领域内取得了重大进展。在第一阶段，该方法为每个车辆ID学习独特的语言描述。随后，在第二阶段，它微调图像编码器，以语义对齐图像特征与这些学习到的语言描述。尽管CLIP-ReID取得了令人印象深刻的实验结果，但它仍存在某些局限性。首先，虽然CLIP-ReID没有使用数据集中的标注属性信息，而是使用NLP方法生成句子描述，但最终的表示高度依赖于生成的句子质量，并显著增加了模型的训练时间。其次，两阶段学习过程在大型模型的训练和微调过程中引入了参数调整和模型收敛的复杂性。

本文提出了一种基于CLIP的语义增强网络（CLIP-SENet），该网络能够高效地提取车辆语义属性并增强车辆特征的独特表示。与图1中详细说明的先前基于CNN和CLIP的方法不同，CLIP-SENet在提取语义特征时不需要任何额外的文本标注信息进行训练。CLIP-SENet不仅丢弃了CLIP中的文本编码器，还使用通过知识蒸馏获得的轻量级CLIP模型，即TinyCLIP [14]，以消除对文本标注的依赖并降低调整大型模型的复杂性。作者利用TinyCLIP的图像编码器来高效地捕获图像的原始语义特征。然而，由于缺乏文本-语义对齐，提取的特征包含了一些影响ReID过程的噪声。为了解决这个问题，作者提出了自适应细粒度增强模块（AFEM），该模块采用自适应加权来过滤原始语义信息，减少噪声并强调有助于区分不同车辆的属性。最终，作者将细化后的特征与由CNN Baseline 提取的外观特征相结合，以增强最终特征表示，从而实现更鲁棒和准确的车辆Re-ID性能。

picture.image

总结而言，本文的贡献可以从以下方面概述：

• 作者提出了基于CLIP的语义增强网络（CLIP-SENet），以高效地以无监督方式提取车辆语义信息，为车辆重识别中的基于属性的增强方法提供了一种新的视角。
• 作者研究了仅使用CLIP图像编码器进行语义提取在下游任务中的性能，进一步展示了CLIP模型强大的跨模态语义表示能力。
• 作者提出了自适应细粒度增强模块（AFEM），用于细化TinyCLIP图像编码器提取的原始语义信息。AFEM通过自适应加权强调关键语义细节，同时最小化无关语义信息的影响。
• 在车辆重识别领域的三个基准数据集上进行的广泛实验表明，CLIP-SENet实现了最先进的性能，超越了之前的最领先方法。

相关工作

A. 基于属性的增强方法。

重识别任务的目的在于匹配图库中的物体，但不同物体（例如，车辆和人）的匹配存在差异。由于行人图像中丰富的属性信息，一些基于属性的特性增强最初在行人重识别[15]、[16]、[17]、[18]、[19]中得到了普及。近期的研究[20]、[8]、[21]、[22]、[9]展示了基于属性增强在车辆重识别中的有效性。Quispe等人[20]提出了属性网络（ANet）来细化重识别中的有价值属性特征，并将它们与通用ReID特征结合以增强区分能力。Li等人[8]设计了属性和状态引导的结构嵌入网络（ASSEN），通过减轻光照和视角的负面影响，同时利用颜色和类型等积极属性来增强区分特征。Yu等人[22]使用Transformer[23]进行属性提取，并利用多属性自适应聚合网络来突出关键属性的重要性。然而，这些基于属性的增强工作无一例外地需要额外的标注信息以进行监督训练。事实上，大多数重识别数据集缺乏属性标签，而手动标注属性信息是一项极其昂贵且耗时的任务。

B.细粒度增强方法

重识别任务可以被视为一种细粒度识别，主要关注区分同类之间的差异，同时区分不同的目标类别。注意力机制，如自注意力，在细粒度识别中起着关键作用。基于注意力的细粒度增强在许多重识别研究中已被证明是有效的[24]、[25]、[26]、[27]。Rao等人[24]提出了一种反事实注意力学习方法，该方法利用因果推理来增强细粒度特征的有效学习。Hong等人[25]设计了形状-外观互学习框架（FSAM），其中形状流和外观流相互补充，以基于身份提取细粒度身体形状特征。Yin等人[26]使用注意力模块关注行人姿态特征，这些特征更独特，有助于区分人们之间相似的外观。与先前的研究相比，CLIP-SENet利用全连接层分组来学习不同语义属性权重，达到类似注意力机制的效果，但避免了与注意力模块相关的计算复杂性。

C. 大规模视觉语言学习

近年来，大规模视觉语言模型[28]、[29]、[30]、[10]得到了广泛的应用，其中CLIP[10]是一个突出的例子，并成为众多衍生作品的基础。CLIP是基于对比文本-图像对预训练的模型，能够理解图像中的内容并将其与文本描述关联起来。它在下游任务中表现出强大的泛化能力，并实现了令人印象深刻的零样本性能。然而，CLIP对更大模型容量的依赖带来了计算效率的挑战，这成为其实际部署的一个显著障碍。值得注意的是，直接训练较小的模型通常会导致次优性能，需要压缩技术来生成更紧凑、更快的模型，同时不牺牲其有效性。为了解决这个问题，Wu等人[14]引入了TinyCLIP，这是一种使用知识蒸馏来压缩CLIP模型的新方法。TinyCLIP通过亲和力模拟和权重继承有效地压缩了CLIP模型的参数，保持了轻量级的尺寸，同时在ImageNet上以最少的参数展示了显著的零样本准确率，并表现出强大的迁移能力到下游任务。考虑到作者提出的模型的综合方面，作者选择TinyCLIP中的图像编码器进行实验，以减轻模型参数的负担。

基于CLIP的Re-ID方法

随着CLIP框架的流行，Re-ID领域进行了众多研究[11]、[12]、[13]，探讨将CLIP框架应用于Re-ID任务。开创性的CLIPReID首次将CLIP范式应用于Re-ID任务，采用两阶段训练方法，取得了极具竞争力的成果。鉴于Re-ID数据集中针对目标ID缺乏具体的文本描述，传统的文本-图像对比学习难以实施。CLIP-ReID[11]通过CoOp[31]方法，在第一阶段为每个目标生成文本 Prompt ，在第二阶段微调图像编码器以适应Re-ID任务。CLIP范式的成功应用显著推动了Re-ID领域的发展。Yan等人[13]探讨了使用CLIP模型从行人重识别中提取细粒度信息，旨在利用CLIP的鲁棒能力进行跨模态细粒度对齐，以提升Re-ID模型的表现。从上述方法中可以看出，将CLIP范式应用于Re-ID任务涉及使用额外的文本 Prompt 进行训练。然而，这些训练好的文本 Prompt 可能不稳定，显著增加了模型训练的复杂性。

研究方法

车辆重识别任务负责匹配来自非重叠监控摄像头的车辆图像，识别那些与 Query 车辆身份匹配的图像库中的车辆。传统方法在提取属性时难以高效地不依赖标注标签，而基于CLIP的方法需要额外步骤为每辆车训练文本描述。

picture.image

针对这一问题，作者引入了基于CLIP的语义增强网络（CLIP-SENet），如图2所示，该网络有效地提高了从车辆图像中提取语义属性特征。CLIP-SENet集成了三个关键组件：CNN Backbone 网络用于初始图像处理，TinyCLIP中的图像编码器作为语义提取模块（SEM）用于提取原始语义属性，以及自适应细粒度增强模块（AFEM）用于将这些属性精炼为具有判别性的特征。为了在训练过程中在车辆身份准确性和特征表示相似性之间取得平衡，作者采用了在重识别方法中常见的双损失策略。该策略结合了平滑交叉熵（CE）损失以实现精确的身份分类，以及监督对比（SupCon）损失以增强不同车辆身份之间的区分度。

A. 卷积神经网络主干网络

作者将实例批量归一化（Instance Batch Normalization，IBN）网络家族[33]集成到作者的CNN Backbone 网络中，以提升其性能。将IBN集成到ResNet[34]、ResNeXt[35]和SE-Net[36]等CNN模型中已被证明可以有效改善外观相关特征的建模。这是通过在实例归一化和批量归一化之间提供平衡来实现的，从而提高在不同条件下特征泛化的能力。作者使用不带最终线性分类层的ResNeXt with IBN网络作为作者的CNN Backbone 网络

，以提取车辆外观特征。对于一个输入批次数据

，网络编码的张量表示为：

表示全局平均池化，

和

分别表示批大小和张量的维度。

B.语义提取模块

与以往依赖数据集标注来开发语义提取能力的方法不同，作者的SEM直接使用TinyCLIP预训练的图像编码器，记作

，来提取目标数据集的语义属性。这种方法显著消除了对任何先前标注信息的需要。

在CLIP范式下，当将CLIP模型拟合到特定任务数据集时，图像编码器和文本编码器需要协同工作。该数据集的额外文本标注被输入到文本编码器中，以提取语义向量，这些向量随后在高维空间中与视觉特征对齐。与其他视觉任务不同，车辆重识别（Re-ID）数据集通常缺乏明确的语义标注。先前的工作，如CLIP-ReID，通过使用自然语言处理（NLP）技术生成可学习的文本 Prompt 来应对数据集中属性文本信息的缺失。相比之下，作者采取了一种完全相反的方法，即完全丢弃文本编码器，仅依靠预训练的图像编码器从图像中提取原始语义属性。然后，使用后续的属性细粒度增强网络来自适应地加权特定的语义特征，从而获得更精细的语义特征。这种设置将CLIP模型的参数数量减少了半，作者还采用了从CLIP知识蒸馏中衍生出的紧凑模型TinyCLIP，以进一步降低大规模视觉语言模型的实际参数使用量。

在语义分割（SEM）中，TinyCLIP的图像编码器作为提取语义属性的关键组件，与CNN主干网络协同工作，捕捉车辆的大量特征集。同时，图像编码器处理视觉输入，将图像转换为高维语义空间，其中语义属性被编码为向量，表示为：

此双重过程确保了有效捕捉车辆局部外观特征和内在语义差异。为了有效融合语义和外观特征，作者将这两种不同类型的特征连接起来，然后应用一个全连接（FC）层。这个过程产生了一个2048维的复合特征表示

，它保留了车辆外观的细微细节和完整的语义信息。融合的目的在于更好地在反向传播过程中更新参数

和

。它可以表示为：

代表1批车辆图像，而‘

’表示拼接操作。

picture.image

C.自适应细粒度增强模块

尽管

拥有原始语义信息，但由于缺乏通过文本编码器的对齐，它被大量的噪声语义信息和通用车辆描述所混合，这阻碍了区分外观相似但ID不同的车辆的能力。为了解决这个问题，作者提出了自适应细粒度增强模块（AFEM），旨在分离细粒度语义信息并抑制

中的噪声信息。对于细粒度识别任务，一种常见的方法是使用注意力机制来关注图像中的关键目标或区域，从而增强网络性能和区分能力。然而，这通常会导致参数数量庞大。为了解决这个问题，作者将原始语义特征分为组，并通过引入自适应参数学习，评估不同语义特征对车辆重识别的重要性，从而细化特征。整个过程在 FC 层上执行，减少了计算开销。

具体来说，作者将

输入到一组线性映射层、批量归一化（BN）层和修正线性单元（ReLU）层，生成

个向量。这些向量随后分为两个分支：一个分支包含

个分组向量，形成一个具有分组 Aware 的表示，允许一组可学习的权重参数独立优化每个分组内的信息。这些可学习参数按照标准正态分布初始化，并在反向传播过程中持续更新。另一个分支保留了原始特征的参数信息。最后，将聚合的加权分组特征逐元素加到原始特征上，得到最终的特征表示。整个过程可以表示为：

其中

包含线性映射、BN和ReLU处理，

表示组数，“

” 表示逐元素乘积，

表示一组自适应学习参数，“

” 表示逐元素加法。

通过上述过程，AFEM通过分组和自适应调整语义特征的权重，区分强相关和弱相关属性，以实现更清晰的分类。它还降低非目标特征的权重以抑制噪声，增强模型在复杂环境中的鲁棒性。AFEM使用加权公式计算特征组的重要性，并根据损失函数自适应调整这些权重。

最后，作者将精炼的语义特征

与融合特征

结合，以获得最终的特性表示，表示为：

损失函数用于监督与ID相关的训练，通过比较预测值

与真实标签

。其公式如下：

其中，参数

表示平滑因子，在作者的实验中被设置为0.1。

在一个训练批次中，为了更好地增强同一类内的相似性并增加不同类之间的差异性，作者使用SupCon损失函数。具体公式如下：

代表 Anchor 样本的特征，

表示正样本（来自同一类别），而

对应于负样本。温度参数

控制特征向量之间相似度的尺度。

最终，作者的损失函数可以表示为：

通过优化最终表示

以 Eq. 8，作者最终获得了用于车辆重识别的鲁棒特征。整个训练过程是一个端到端的流程，详细内容在算法 1 中以全面清晰的方式呈现。

遵循大多数车辆重识别方法，作者将

输入到分类器中，以输出预测的分类

，并使用交叉熵（CE）损失函数。

实验

A. 数据集分析

作者评估了作者的CLIP-SENet模型在三个具有挑战性的车辆重识别基准数据集上的性能。

VeRi-776数据集[51]包含超过50,000张来自776个独特车辆的图片，这些图片是从20个不同的摄像头视角、不同的光照条件和方向拍摄的。该数据集分为训练集和测试集，其中训练集包含576个身份和37,778张图片，测试集包含200个身份和11,579张图片。此外，测试集中的1,678张图片作为 Query 使用。该数据集提供了车辆ID、摄像头ID、颜色ID和类型ID的标签。值得注意的是，王等人[52]标注了视角信息，包括前视图、前侧视图、后侧视图和后视图。

VehicleID数据集[53]包含由一个摄像头从前方或后方视角捕获的26,267辆独特车辆的221,763张图像。其中一半的身份（13,164个）用于训练，另一半用于在不同画廊大小上进行测试：Test800（小型）、Test1600（中型）和Test2400（大型）。与其他数据集不同，VehicleID数据集只包含车辆属性的局部信息。

VeRi-Wild数据集[54]是最大的车辆ReID数据集，包含174个摄像头视角、416,314张图像和40,671个独特的车辆身份。值得注意的是，它提供了车辆型号、颜色和类型的属性标签。测试集被划分为三个子集，每个子集具有不同数量的独特ID：3,000（小）、5,000（中）和10,000（大）。

这些数据集的详细信息总结于表2。值得注意的是，VehicleID数据集提供了详细的标注，直至车辆类型的品牌，而其他两个数据集则是根据车辆的外观进行分类。

picture.image

B. 实施细节

1. 训练细节：在作者的实验设置中，作者采用具有IBN结构的ResNextl01作为作者的CNN Backbone 网络，并结合基于ViT-B/32的TinyCLIP图像编码器。作者的图像预处理包括将图像大小调整为

，并伴随各种数据增强技术。在模型优化方面，作者采用了ADAM优化器[55]并集成了余弦退火调度器，初始学习率为5e-4。批大小设置为128，每个批次包含来自16个不同车辆身份的样本，每个身份由8张图像表示。训练轮数配置为24轮。对于如VehicleID和VeRi-Wild等大量数据集，作者进行了调整以适应更大的数据量，将训练时间设置为120轮，并使用WarmupMultiStepLR来优化学习率，初始化为3.5e-4以实现有效的数据拟合。作者的整个实验过程都是在NVIDIA A40 GPU上进行的，全局种子设置为3407，以确保实验的可重复性。

1. 评估：遵循常见做法，作者使用平均精确度（mAP）以及排名1（Rank-1）和排名5（Rank-5）的累积匹配特征作为主要指标来评估模型性能。在本研究中，作者仅将重排序技术作为后处理步骤应用于VeRi-776数据集。
1. 比较方法：作者将CLIP-SENet与一些最先进的方法进行比较，这些方法可以分为三大类。
1. 基于细粒度方法：在局部和细粒度细节上工作的模型。例如，反事实注意力学习（Counterfactual Attention Learning, CAL）[37]、基于解析的视图感知嵌入网络（Parsing-based View-aware Embedding Network, PVEN）[38]、双重交叉注意力学习（Dual cross-attention learning, DCAL）[27]、图交互Transformer（Graph Interactive Transformer, GiT）[39]、车辆重识别的自监督注意力（Self-supervised Attention for Vehicle Re-identification, SAVER）[40]、MaskAware推理Transformer（MaskAware Reasoning Transformer, MART）[48]、共现注意力网（Co-occurrence Attention Net, CAN）[44]。
1. 属性方法：通过语义或基于属性的信息增强的模型。例如，基于条纹和属性感知的深度卷积神经网络（SAN）[6]、面向语义的特征耦合Transformer（SOFCT）[9]、属性网络（ANet）[20]、属性和状态引导的结构嵌入网络（ASSEN）[8]、多尺度知识感知Transformer（MsKAT）[41]、双级隐式语义数据增强（BIDA）[49]、CLIP-ReID [11]。
1. 基于全局特征嵌入的方法：基于全局特征进行操作的模式。例如，基于GCN的全局结构嵌入网络（GSE-Net）[46]、FastReID [2]、TransReID [3]、空间正则化特征（SRF）[47]、异构关系互补网络（HRCN）[42]、vehicleNet [43]、显著性导航车辆重识别网络（SVRN）[45]、StrongBaseline [4]、多分支表示（MBR）[50]。

C. 与现有方法的比较

作者对CLIP-SENet与最先进的方法在车辆重识别的三个基准数据集上的全面比较进行了研究，具体细节见表1和表1000。

1. VeRi-776评估结果：CLIP-SENet实现了92.9%的mAP和98.7%的Rank-1，相较于基于CLIP的CLIP-ReID（基于ViT）方法，mAP提升了1.2%，Rank-1提升了0.7%。这证明了作者对TinyCLIP图像编码器改进的有效性。通过舍弃语义对齐，作者增强原始视觉语义特征的方法，通过添加细粒度细节，证明是有效的。与细粒度方法CAN相比，CLIP-SENet在mAP上提升了9.5%，在Rank-1上提升了1.1%。这突出了CLIP-SENet的优势，该模型充分考虑了语义和细粒度特征。此外，作者的CLIP-SENet在VeRi776数据集上显著超越了之前表现最佳的方法MBR，在mAP上提升了1%，在Rank-1上提升了0.5%。
1. 车辆ID数据集上的评估结果：CLIP-SENet在VehicleID数据集上也取得了具有竞争力的结果，在小测试集上实现了90.4%的Rank-1和98.7%的Rank-5，显著超越了基于全局特征嵌入的先前方法。对于仅由单摄像头从两个视角捕获的车辆数据集，细粒度和基于属性的方法的优势变得明显。与细粒度方法CAN相比，作者的CLIP-SENet在小、中、大测试集上分别提高了2.1%、2.2%和2.2%的Rank-1准确率。此外，CLIP-SENet在ViT-based CLIP-ReID模型上保持了明显的优势。具体来说，在VehicleID测试集上，与CLIP-ReID相比，CLIP-SENet在小、中、大测试集上分别提高了5.1%、4.5%和4.6%的Rank-1准确率。
1. VeRi-Wild数据集上的评估结果：在更大、更具挑战性的VeRi-Wild数据集上，作者的CLIP-SENet模型始终表现出性能优势。与最佳的属性增强方法ANet相比，CLIP-SENet在小、中、大型测试集上分别提高了Rank-1性能的3.2%、2.7%和3.6%。与最佳的细粒度方法CAN相比，CLIP-SENet分别提高了1.6%、2%和2.2%。此外，与最佳的基于全局特征的方法MBR相比，CLIP-SENet分别提高了1%、1.4%和2.1%。这进一步证明了通过结合语义和细粒度特征的CLIP-SENet的优势。

D. 消融研究

为了验证CLIP-SENet的有效性，在固定的训练条件下，作者使用VeRi-776数据集作为基准数据集，并设置了一个全局随机种子。

1. 基准模型：作者仅采用ResNeXtl01-IBN作为CNN主干网络，不使用CLIP，并在CE损失和SupCon损失的指导下进行优化，将此配置作为作者的基准模型。作者的基准模型在VeRi-776数据集上实现了86.7%的mAP、96.8%的Rank-1和97.9%的Rank-5的性能。
1. CLIP-SENet组件消融研究：作者逐步添加了SE模块和AFEM模块来构建作者的CLIP-SENet，并验证了每个组件的有效性，如表4所示。仅添加SE模块后，CLIP-SENet达到了

的mAP和

的Rank-1，与 Baseline 相比，mAP仅提高了

。这表明简单地将原始语义特征进行连接和线性投影并不能显著提升性能。这可能是由于原始语义信息中包含无关噪声，从而损害了车辆ReID的区分能力。为了解决这个问题，作者引入了AFEM来细化语义特征。在相同条件下，添加AFEM后，mAP达到了

，而Rank-1保持在

。类似于应用于VeRi776的许多方法，当CLIP-SENet结合了相机和视角信息时，其性能进一步提升了至

的mAP和

的Rank-1。为了验证CV信息的影响，作者在每次添加组件时都进行了比较实验。很明显，仅添加CV信息导致了有限的性能提升。这进一步验证了AFEM的有效性。

picture.image

作者使用t-SNE可视化方法直观地展示了逐个添加每个组件对数据分布的影响，如图4所示。从横向角度来看，作者可以观察到随着组件的逐渐添加，属于每个ID的特征变得越来越紧凑且聚集。从纵向角度来看，作者可以得出结论，包含CV对数据集有显著的正向影响，有效减少了类内距离。

picture.image

1. 损失函数消融实验：为了验证SupCon损失函数的有效性，作者在 Baseline 模型和CLIP-SENet上进行了实验，并将结果与常用的Triplet Loss进行了比较。如图3所示， Baseline 模型和CLIP-SENet在使用SupCon损失函数时均表现出性能提升。

picture.image

1. 超参数消融研究：在AFEM中，组数是一个关键的超参数，表示需要关注的语义属性的数量。通过作者在不同组数下的实验，如表5所示，作者观察到随着组数的增加，模型的性能最初会提高，但最终会下降。这一发现突出了平衡语义属性分组粒度的重要性。组数过少可能导致语义细节捕捉不足，而组数过多可能会引入噪声和冗余，对模型的性能产生负面影响。因此，将组数设置为32可以达到平衡，增强CLIP-SENet的判别能力和有效性。

picture.image

1. CNN Backbone 网络消融研究：利用IBN-Net提供的预训练权重，作者选择了ResNet50-IBN、ResNet101-IBN、SE-ResNet101-IBN和ResNeXt101-IBN进行消融实验。表6显示，ResNet101-IBN的性能优于ResNet50-IBN，mAP提高了0.8%，这得益于其更大的网络规模。然而，SE-ResNet101-IBN的性能不如ResNet101-IBN，甚至在mAP上低于ResNet50-IBN，这可能是由于SE结构提取的信息与CLIP提取的信息整合不佳。表现最佳的 Backbone 网络是ResNeXt101-IBN，其mAP提高了1%，Rank-1提高了0.5%，相对于ResNet101-IBN。

picture.image

E. CLIP-SENet的可视化

为了展示CLIP-SENet在VeRi-776数据集上的强大特征表示能力及其相较于 Baseline 模型的改进，作者采用了各种可视化技术以实现更直观的描述。

激活图可视化实验突出了模型最关注的图像区域。如图5所示，对于每个提供的示例，CLIP-SENet相较于 Baseline 模型明显关注更广泛的区域，表明对相关特征的注意力更高。

picture.image

此外，通过Rank-5列表可视化评估了CLIP-SENet在实际车辆重识别场景中的有效性。这包括比较 Baseline 模型和CLIP-SENet模型生成的 Query 图像及其相应的排名列表，如图6所示。检索准确率的统计分析表明，虽然 Baseline 模型保持了一定的鲁棒性，但在处理具有相似特征的车辆时，它在生成精确排名列表方面存在局限性。相反，CLIPSENet始终优于 Baseline 模型，在生成排名列表方面表现出卓越的精确性。这不仅突出了CLIP-SENet的鲁棒判别能力，也突出了其应对相似车辆外观带来的复杂挑战的增强能力。

picture.image

结论

在本工作中，作者探讨了仅使用TinyCLIP的图像编码器来提取车辆语义属性信息的潜力。为了解决现有车辆重识别框架中属性特征提取的不足，作者引入了CLIP-SENet。首先，作者利用图像编码器提取原始语义属性，利用其强大的零样本学习能力，消除了手动标注的需求。接着，作者应用自适应细粒度增强模块来细化这些原始语义特征，使每个车辆的语义属性能够进行自适应加权。最后，作者将细化后的语义属性与由CNN Backbone 网络提取的车辆外观特征融合，创建了一个鲁棒的Re-ID特征表示。

与之前的基于属性和基于CLIP的方法相比，CLIPSENet克服了对额外文本标注的依赖，并有效地增强了语义表示。作者希望作者的研究能够推动车辆重识别领域向更有前景的方向发展。

参考

[1]. CLIP-SENet: CLIP-based Semantic Enhancement Network for Vehicle Re-identification

picture.image

扫码加入👉

「集智书童」

交流群

（备注：

方向

学校/公司+

昵称

）

picture.image