港中文提出VLPose | 语言与视觉协同将Pose模型的泛化性&鲁棒性扩展到意想不到的领域 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

得益于深度学习技术的进步，人体姿态估计（HPE）在自然场景中已取得了显著进展。然而，由于领域差异，这些模型在绘画和雕塑等人造场景中的表现较差，这限制了虚拟现实和增强现实的发展。

随着模型规模的增大，在自然和人造数据上重新训练整个模型在计算上既昂贵又低效。作者的研究旨在通过有效的调整策略，弥合自然和人造场景之间的领域差距。利用语言模型的潜力，作者通过一个名为VLPose的新颖框架，增强了传统姿态估计模型在各种场景中的适应性。

VLPose利用语言与视觉的协同作用，将姿态估计模型的泛化能力和鲁棒性扩展到传统领域之外。VLPose在HumanArt和MSCOCO上，相较于现有最先进的调整策略，分别提高了2.26%和3.74%。

1 Introduction

人体姿态估计（HPE）近年来已经取得了显著的进展。然而，这些努力大多数是针对自然场景中的人，并且缺乏对其他情景的泛化能力，尤其是如绘画和雕塑等人造场景。例如，如图1所示，当前在自然场景上预训练的SOTA模型在人造场景上的表现不佳，而当在人造场景上进行微调时，它们在自然场景上的性能往往会出现下降。

picture.image

根本原因在于自然场景与人工场景之间的领域差距，以及各种人工场景（如动画、水彩画、皮影戏、素描等）之间的差距。在人工人类场景中表现不佳对包括动漫角色图像生成、角色渲染和角色动作重定位等计算机图形学相关任务的发展造成了重大限制。随着虚拟现实、增强现实和元宇宙等技术的兴趣和应用日益增长，人体姿态估计（HPE）中的领域差距变得更加明显，需要立即关注。在作者的研究中，作者的主要目标是缩小自然场景与多样化人工场景之间显著的领域差距。

近年来，在计算机视觉领域，语言模型的显著能力已得到广泛认可。一种简单的方法是将文本编码器引入以编码特定领域的资讯，以此来连接自然与人工场景。然而，作者观察到，如第4.1.1节所描述，直接将图像和文本特征进行拼接只能带来有限的改进。

因此，作者引入了一个Vision-Language关系匹配器，它有效地捕捉了图像与领域特定文本标记之间的相互关系，提升了模型的总体性能。为了利用这些图像-文本关系，作者设计了一个新颖的视觉-语言解码器，名为Dual Extractor-Injector解码器，用于姿态估计。这个精心设计的解码器在视觉和语言之间引入了一个更高层次的交互，从而带来更有效和健壮的性能，具体在第3.4节中阐述。

总之，作者提出的名为VLPose的视觉-语言姿态估计框架如图2所示。通过融合特定领域的知识，作者的框架有效减轻了因不同领域固有差异而产生的性能不一致问题。如图1所示，作者提出的VLPose在不对自然场景性能产生影响的前提下，显著提高了模型在各类人工场景下的泛化能力。

作者的贡献主要有三个方面：

作者提出了一种新颖的框架VLPose，旨在解决以人为中心的自然领域与艺术领域之间的领域差距。VLPose在HumanArt和MSCOCO数据集上，相较于当前最先进技术分别展示了2.26%和3.74%的改进。
作者引入的视觉-语言关系匹配器有效地捕捉并建模了图像与特定领域文本标记之间复杂的相互作用，提升了模型的总体性能。
作者提出的双提取器-注入器解码器将视觉与语言关系整合到作者的姿态估计器的核心中，进一步提升了其性能和在不同场景下的适应性。

2 Related Work

Pose Estimation Datasets

在以人为中心的计算机视觉数据集领域，主要有两种类型：一种专注于自然场景，另一种则专注于人造场景。以人为中心的识别任务基本上包括人体检测和姿态估计。大多数成熟的数据集在自然环境中精心使用边界框和关键点标注来标注人。在这些数据集中，MSCOCO因其对各种姿态的全面覆盖和复杂的自然场景而占据了突出地位。

相比之下，围绕人造场景的数据集相对稀少。例如，Sketch2Pose是为涉及素描的场景而设计，而ClassArch则专门展示古董花瓶绘画。People-Art是一个包含自然和人造图像的数据集，它通过直接融入wiki-art的艺术绘画风格来对人造场景进行分类。在这些数据集中，HumanArt因其丰富的场景多样性、高质量的图像和多样化的标注而成为一个具有代表性的数据集。

尽管现有的深度学习模型在广泛的自然场景下游任务中一直表现出卓越的性能，但当这些模型应用于人工场景时，存在一个挑战，在这些场景中，场景特征和上下文因素有显著差异。通过作者的研究努力，作者致力于利用语言模型的能力来克服之前限制这些模型应用于特定领域的局限性。

Pose Estimation Methods

姿态估计领域已经见证了快速的发展，从卷积神经网络（CNNs）转变为视觉 Transformer （ViT）网络。在早期阶段， Transformer 通常被视为改进的解码器。例如，TransPose直接处理由CNN提取的特征以捕获全局关系，而TokenPose引入额外的标记来估计被遮挡的关键点位置，并通过基于标记的表示在不同关键点之间建模关系。HRFormer作为一项解决方案，消除了在特征提取中对CNN的需求，依靠 Transformer 直接提取高分辨率特征。此外，ViTPose探讨了普通视觉 Transformer 在姿态估计任务中的潜力，基于这些 Transformer 引入了一个简单而有效的 Baseline 模型。

在作者的工作中，据作者所知，作者代表了首次在以人为中心的识别背景下，解决自然场景与人工场景之间差异的共同努力。此外，这还标志着将语言模型与姿态估计模型整合的先驱性举措。这种独特的结合推动VLPose实现了卓越的跨领域性能。

3 Method

在作者的研究中，作者提出了一个名为VLPose的框架，如图2所示。作者在第3.1节介绍了作者的图像编码器，并在第3.2节介绍了文本编码器。随后，在第3.3节中，一个视觉语言关系匹配器捕捉图像与文本之间存在的复杂联系。然后，这一知识被导入到作者在第3.4节中的视觉语言解码器中。

picture.image

Image Encoder

在作者的框架内，作者将图像编码器的特征表示为，其中是图像块的数量，是其通道维度。作者采用了一种视觉提示调整策略，这包括冻结原始模型权重并在架构中融入图像提示，如图2所示。这种方法的一个显著优势是其可逆性，因为只需移除添加的视觉提示，作者就可以无缝地恢复到原始模型的性能。这使作者能够在模型在现实世界场景和虚拟环境中的熟练程度之间找到平衡。通过切换视觉提示的存在，作者可以轻松地调整模型的行为以适应特定任务和领域，同时不牺牲其基本能力。

Text Encoder

作者使用文本编码器来编码特定领域的文本提示。这些编码特征表示为，其中表示文本标记的长度，代表通道维度。作者精心为每个类别设计了特定的提示。利用预训练的语言模型，这些模型对提示有着深刻的理解，为作者的模型提供了宝贵的特征。这使得作者的模型在各种场景中都能显著提高性能，从而展示了其在多样化环境中的灵活性和有效性。在第4.1.3节中，作者进行了实验探索，研究领域提示对模型性能的影响。

Relation Matcher

为了在视觉和语言特征之间建立健壮的联系，作者引入了一种简单的架构，称为“关系匹配器”（Relation Matcher），如图2所示。

关系匹配器包括一个多头注意力机制，结合两个线性层和一个归一化层。文本特征，由文本编码器编码后，通过一个线性层进行初步转换，以使它们的维度与图像特征的维度对齐：

其中是的线性层；是文本标记的长度，而是图像特征的通道维度。随后，转换后的文本特征与原始图像特征进行拼接。

复合输入随后输入到多头注意力机制中，其 Query 、键和值为：

因此，关系匹配器生成图像-文本关系如下：

其中是的线性层；和分别指代归一化层和softmax层。表示注意力块的输出。作者的关系匹配器有助于学习复杂的视觉-语言关系，从而在各种任务和场景中提高性能。在第4.1.1节中，作者进行了全面的消融实验来检验和证实作者所提出结构的有效性。

Vision-Language Decoder

通过将视觉和语言特征输入到关系匹配器中，作者获得了图像-文本关系矩阵，然后将其输入到姿态解码器中。在本节中，作者将概述姿态解码器的结构，包括传统的姿态估计器和作者提出的视觉-语言解码器。架构细节展示在图3中。

picture.image

基准线。基准线解码器由两个去卷积块组成，每个块包含一个去卷积层，之后是批量归一化，并使用线性整流单元（ReLU）进行激活。遵循之前研究[44, 51]的既定惯例，每个块执行上采样操作，有效地将特征图的大小翻倍。

随后，使用卷积核大小的卷积层生成关键点的定位 Heatmap 。这种架构的具体情况在图2(a)中进行了视觉表示。从数学上讲，这个过程可以表达为。

其中表示估计的 Heatmap ，每个关键点生成一个 Heatmap ，表示要估计的关键点的总数。表示图像特征。指的是预测器，它包含一个卷积层。表示一个解码器块，下标用以将其标识为主分支，与后面将讨论的辅助分支区分开来。

注入器解码器。注入器解码器涉及一种简单的方法，将图像-文本关系知识注入到传统的解码器中。它将图像特征与图像-文本关系结合，随后将组合后的信息输入到与 Baseline 相同结构的解码器中。图2(b) 展示了这个设计。这个过程可以形式化表示为：

在这里，(p) 和 (f_{m}) 分别表示预测器和解码器块。

提取器-注入器解码器。受到密集预测任务领域内成功发展的启发，作者设计了一种特别针对作者的视觉语言解码器的方法。解码器主要由两个分支组成，每个分支包含2个解码块。主分支被标记为，而辅助分支表示为。辅助分支的作用是提取图像特征并将关系知识注入主分支，通过提取器-注入器机制帮助姿态估计。该架构的视觉表示在图2(c)中。主分支的输出如下：

由于主分支与传统姿态解码器的结构相同，很明显，当等于0且辅助分支权重全为零（权重）时，VLPose估计器将恢复到 Baseline 姿态解码器，如方程式(5)所示。因此，当作者冻结主分支并微调辅助分支时，作者仍然可以保持原有结构的能力。

双重提取器-注入器解码器。此外，作者通过引入了一种解码器来推进VLPose，这种解码器融合了双重提取器-注入器结构，如图2(d)所示。在这个配置中：

在这段文本中，"" 表示预测器。和分别代表主线和辅助分支。

双重提取器-注入器解码器结合了提取器-注入器解码器的优势，通过简单地将设为零并省略辅助分支，提供了恢复预训练权重的灵活性。这种方法在保持预训练性能的同时，允许对模型进行微调。此外，双重提取器-注入器解码器在主分支和辅助分支之间引入了更高层次的协同和合作。这种增强的互动有助于提升模型的整体能力，使得模型在各种任务和领域上的表现更加有效和健壮。

在4.1.2节中，作者执行了一系列消融实验，以验证当与常规架构对比时，作者的提取器-注入器结构所带来的优势。在附录中，作者进一步深入探讨了融合多模态知识的其他策略。将特征直接传递给解码器，而不通过关系匹配器。如表格(a)a所示，这种方法并不能有效地利用拼接的特征，仅带来了0.09%的轻微提升。然而，结合作者的关系匹配器则引入了显著的增加，达到0.71%。

然后，作者系统地研究了多头注意力机制中键（key）和值（value）组件的各种输入配置。如表格（c）所示的结果清楚地表明，将两种特征连接起来表示，记作，在多个评估指标上，包括不同阈值下的平均精度（Average Precision, AP）和平均召回率（Average Recall, AR），都取得了最有希望的性能。这表明关系匹配器能够利用简单的图像和文本连接方式，显著提高姿态估计的整体性能。

4.1.2 Vision-Language Decoder

在第3.4节中，作者深入概述了姿态解码器结构：基准解码器、注入器解码器、提取-注入器解码器以及双提取-注入器解码器。为了全面评估它们的性能并了解它们的贡献，作者进行了一系列的消融实验。如表格(e)e中所示的结果揭示了这些解码器结构有效性的重要见解。很明显，所有三种视觉-语言解码器配置变体都相对于基准解码器显示出了改进。这突显了引入文本特征在提高模型在各个领域和场景下的性能中的重要性。

picture.image

比较注入器解码器和提取器-注入器解码器，作者发现后者更有效地利用了关系。这归功于引入了一个辅助分支，它帮助提取并将关系知识融入到主分支中。这种设计利用了视觉特征与文本关系之间的协同作用，从而带来了更优的性能。值得注意的是，双提取器-注入器解码器达到了最高性能水平。这一成就可归因于它对主分支与辅助分支之间交互和协作的加强重视。在附录中，作者探讨了两个分支之间各种交互模式，确认了作者采用的方法对于模型利用跨模态知识最为有益。

4.1.3 Text Encoder

为了研究文本特征对作者结果的影响，作者进行了消融实验，使用了不同的文本编码器，如图(b)b所示。所有的文本特征表示相比于 Baseline 都有性能提升，其中BLIP取得了最为突出的表现。因此，作者将BLIP整合到作者框架中作为文本编码器。

此外，为了探索不同文本提示对作者结果的影响，作者进行了消融实验。结果在表(d)d中。最初，作者试图证明，由于文本特征所带来的性能提升并不仅仅是模型参数数量增加的结果。为了证实这一点，作者在保持一致设置的条件下，进行了涉及随机提示的消融实验，使得参数与作者的框架相同。结果明确表明，增加参数数量对性能的提升相对有限。相比之下，性能提升的主要来源是特定文本提示的融入。这种优势可以归因于精心预训练的语言模型所促进的细粒度的语义理解。因此，这些模型提供了有助于增强整体架构的文本特征。此外，将提示针对每个语义环境进行定制进一步提升了作者的结果，强调了在不同语义环境中实现性能提升时，领域特定提示的重要性，具体内容详见附录。

4.1.4 Finetuning Method

为了保持模型的泛化能力，作者力求避免干扰原始模型权重。因此，VLPose包括通过可学习的视觉提示调整进行微调。

picture.image

根据表2f中的实验，作者为每种尺寸选择了最佳的可学习图像标记数量。如表3a所示，与当前的SOTA水平相比，VLPose在所有尺寸上均显示出显著的改进。特别是，当针对与当前SOTA模型相同的50个标记进行微调时，VLPose在ViT-H上的性能提高了2.14%。

picture.image

此外，作者在当前最优（SOTA）模型的最后一层进行了微调，引入了更多的参数。这种增强使得竞争方法的结果更为有利。然而，VLPose在将参数数量减少46%的情况下，仍然为ViT-H实现了1.71%的性能提升。更多的参数比较见表3b。

Results

在本节中，模型使用从MSCOCO预训练的权重进行初始化，并在HumanArt上进行微调。作者冻结原始权重，并对视觉提示和视觉语言解码器的辅助分支进行微调。比较被系统地应用于各种规模的模型上，并在MSCOCO和HumanArt上都进行了广泛的评估。

结果见表4。VLPose在HumanArt和MSCOCO数据集上均显示出显著的改进。在HumanArt上，与当前使用ViT-H主干网络的SOTA相比，VLPose实现了2.26%和2.86%的AP和AP性能提升。这一结果有力地证明了作者引入的语言模型在促进跨领域知识整合中的有益影响。

picture.image

在MSCOCO测试期间，VLPose可以通过移除辅助分支和额外的图像提示来恢复到原始模型权重。作者使用这些恢复的权重进行评估，因此微调不会导致在MSCOCO上的性能下降。这种灵活性使得作者能够根据任务的具体要求在不同微调权重和原始权重之间无缝切换，而不会损害在MSCOCO上的性能。因此，在MSCOCO上，VLPose相较于当前的最先进技术（SOTA）实现了显著性的3.74% AP和4.07% AP提升。

为了验证VLPose对模型的普遍适用性，作者还基于swin-transformer、PVT 和 PVTv2 主干网络进行了实验，作者的相应模型分别称为SwinVLPose和PVLT。如表4所示，SwinVLPose-L 和 PVLT-B 在 HumanArt 上分别展示了0.96% 和 1.67% 的提升。结果表明，VLPose在各种模型架构上均显示出一致的改进趋势，展示了其广泛适用性。

此外，作者为每个类别提供了性能分析。VLPose在具有挑战性的艺术类别中，特别是在ViT-H上的表现，显示了特别显著的提升，包括皮影戏（5.3%）、素描（3.4%）、彩绘玻璃（4.7%）和浮世绘（8.2%）。这种趋势在不同的模型大小中同样观察到，表明VLPose对于具有挑战性的艺术性人体姿态展示了强大的泛化能力。关于按类别细分性能的更详细信息，请参考附录中的详细信息。

picture.image

在图4中，作者展示了VLPose与当前最高水平（SOTA）的定性比较。作者为每个类别提供了1-2个可视化结果，以展示VLPose对不同类别强大的适应性。当前的SOTA在涉及实际人体和大动作幅度、艺术化人体的挑战性任务中仍然表现不佳，例如图4I(a)中的人体脚部，图4I(c)中的肩膀，以及图4III(e)中的眼睛。相比之下，VLPose在多种困难场景中均显示出显著的改进。

5 Conclusion

总之，作者的研究提出了一种新颖的框架VLPose，它有效地弥合了以人为中心的自然场景与人工场景之间的领域差距。VLPose特点是融合了特定领域的文本知识，增强了姿态估计模型在多样化场景下的适应性和鲁棒性。

这项工作有望拓展视觉模型在包括虚拟现实和增强现实在内的广阔实际和人工设定中的应用，从而为技术和其应用的发展趋势做出贡献。通过结合语言和视觉特征的协同作用，作者在HumanArt和MSCOCO数据集上相较于现有最先进模型，分别实现了2.26%和3.74%的显著性能提升。

Vision-Language Decoder

由于篇幅限制，作者在本文中只介绍了三种经验验证过的视觉-语言解码器结构。在附录中，作者进一步深入探讨了融合多模态知识的其他策略。

视觉-语言解码器包括一个主分支和一个辅助分支，每个分支由两个块组成。每个块包括一个反卷积层、批量归一化和ReLU激活函数。这些块执行上采样，并使用 Kernel 的卷积层生成关键点的定位 Heatmap 。作者用术语First、Middle和Final来表示多模态知识融合的不同位置，分别指在第一个块之前、两个块之间以及第二个块之后。默认情况下，知识是从辅助分支注入到主分支的，用表示从主分支注入到辅助分支。按照这种命名约定，作者探索了如图A1所示的多种视觉-语言解码器结构。

picture.image