杜克大学探索视觉Transformer的语义奥秘|sViT模型引领新一代图像理解革命

智能语音交互数据库管理服务

点击下方卡片,关注 「AI视界引擎」 公众号

picture.image

在视觉 Transformer (ViT)中的标记或块缺乏基本的语义信息,这与自然语言处理(NLP)中的对应部分不同。通常,ViT标记与缺乏特定语义上下文的矩形图像块相关联,这使得解释变得困难,并且无法有效地封装信息。作者引入了一种新颖的 Transformer 模型——语义视觉 Transformer (sViT),它利用了分割模型最近的进展来设计新颖的标记器策略。sViT有效地利用了语义信息,创造了一种类似卷积神经网络的归纳偏置,同时捕捉到了图像中全局依赖关系和上下文信息,这些是 Transformer 的特点。通过使用真实数据集进行验证,sViT在需要较少训练数据的同时,表现优于ViT,保持了相似或更优的性能。此外,sViT在处理分布外泛化和对自然分布偏移的鲁棒性方面表现出显著的优越性,这归功于其尺度不变性语义特征。值得注意的是,使用语义标记显著增强了模型的解释性。最后,所 Proposal 的范式便于在标记(或段) Level 引入新的强大的增强技术,增加了训练数据的多样性和泛化能力。正如句子由单词组成,图像也由语义目标构成;作者提出的方法利用了目标分割最近的进展,并朝着可解释且鲁棒视觉 Transformer 迈出了重要且自然的一步。

unset

unset1 Introductionunset

unset

Transformer在自然语言处理(NLP)领域取得了重大突破[3, 10, 40],这导致了它在计算机视觉(CV)领域的广泛应用,在该领域它也迅速产生了类似的影响[11, 1, 28]。与之前占主导地位的卷积神经网络(CNN)[21, 23, 15]相比,基于Transformer的视觉模型因其能够捕捉图像中的非局部依赖关系和上下文信息而受到欢迎,超越了标准的CNN。

因此,这些模型在各种任务中已达到最先进(SOTA)的性能,包括分类、目标检测、分割和图像字幕生成[13, 25, 36, 46]。

尽管 Transformer 在计算机视觉(CV)和自然语言处理(NLP)中具有类似的影响,但它们的应用方式有所不同,特别是在分词方面。关键的区别在于 Token 携带的语义信息。在NLP中, Token 携带高语义信息,因为作者理解单个词或 Token 的含义。相比之下,CV中的 Token 具有较低的语义信息,因为图像被表示为规则图块的集合。按照与NLP方法的类比,这相当于实施将句子每隔固定数量的字符(而不是单词)打断的NLP模型,如图1所示。当考察非语义分词时,如图1的第二行所示,即使在NLP的背景下,也可能难以分辨它们的意义。相比之下,第三行显示的语义分词能够清晰理解每个 Token 的含义,并导致具有丰富语义的单个元素的注意力机制。

picture.image

在计算机视觉(CV)中采用本文所提出的语义标记化方法具有众多优势。首先,这种标记化形式通过将语义先验知识融入模型中,从而减少了搜索空间。例如,它为自然语言处理(NLP)模型提供了有关语法结构的信息,类似的上下文信息也可以为计算机视觉模型所用。特别是,它减少了模型作为输入所需的标记数量,进一步降低了搜索空间,这对于小训练数据集特别有用(第3节提供了实证示例和证据)。其次,这种语义标记化使视觉模型能够具有尺度不变性,增强了在非分布数据集上进行迁移学习的鲁棒性,特别是针对以目标为中心和以非目标为中心的数据集之间的迁移学习。如图2所示,在使用非语义标记化时,非目标中心数据集和目标中心数据集中关于女性的色块差异显著。然而,采用语义标记化后,两种数据集中的女性色块保持一致。

picture.image

因此,采用语义标记化的视觉模型有望具有更好的泛化能力,即使在不同数据集中目标尺度发生变化时也是如此。

第三,语义标记化增强了模型的可解释性。大多数当前的解释方法假设模型和人类以相同的方式感知语义。然而,正如Hoffmann等人[18]所指出的,这个假设并不成立,因为一些用于解释的突出部分缺乏任何语义意义。作者新开发的方法,训练将图像分割成人类可解释的语义标记,克服了这些局限性(见第3节的实验示例)。第四,这种标记化形式扩展了增强的可能性。传统上,大多数增强都是应用于整个图像。然而,正如本文中对单个语义标记所做的那样,它显著增加了多样性。最后,这里介绍的语义标记器通过构建捕捉多尺度信息,并提供位置嵌入信息。目前,所有基于 Transformer 的视觉模型都将图像块顺序作为位置嵌入的输入。然而,通过利用语义标记化,作者使用图像中提取段的位置和像素大小作为位置嵌入的输入。这提供了丰富的多尺度和空间信息,并为作者描述和讨论在第2节中的极其高效和丰富的位置数据增强提供了机会。

尽管具有明显的优势,但由于与NLP相比复杂性更高,语义标记化在计算机视觉中并未得到广泛应用。与NLP中空格分隔单词不同,计算机视觉缺乏一个通用的分隔符,导致了多种多样且特定领域的分割方法。这些复杂性使得语义标记化在CV中成为一个独特的任务。在本文中,作者针对这一问题,并引入了语义视觉 Transformer (sViT),利用分割模型最近的进展。据作者所知,这是首次在基于转换的视觉模型背景下利用语义图像标记化的方法。

作者的主要贡献包括:i) 作者识别了与NLP相比,在CV中 Transformer (transformers)的限制,因为CV使用非语义块作为标记,而不是NLP使用的语义块,作者提供了一个实用的替代方案;(ii)作者证明作者提出的方法比标准(非语义)方法更具表现力,尤其是在分布外泛化和对自然分布偏移的鲁棒性方面;(iii)作者提出了一个新的数据增强范式,对每个语义段应用增强,而不是整个图像,从而增加了多样性。作者还提高了模型对于语义元素位置和大小的变化的鲁棒性;以及(iv)尽管在标准视觉 Transformer 和视觉模型解释方法中突出显示的区域并不一定具有解释性,但作者的新的语义标记方法正在提高学习到的视觉模型的可解释性。作者在第2节中描述了所提出的方法。作者在第3节中呈现了实证证据和可解释性结果。作者在第4节中讨论了相关工作。最后,作者在第6节中提供了结论。

unset

unset2 Methodsunset

unset

sViT

为了构建一个语义标记化模型,作者利用了Segment Anything Model(SAM)[19],该模型已经在1100万张图像上进行过分割任务的训练。每个分割片段被调整到或像素大小,作者使用匹配大小的卷积层将它们展平为向量嵌入,这一过程类似于原始的Vision Transformer(ViT)方法。作者没有使用 Patch 的位置或顺序进行位置编码,而是采用了由SAM提供的边界框的水平与垂直图像坐标以及每个分割的像素大小。

边界框的坐标提供了关于图像中物体相对位置和上下文信息,这对于理解图像内容至关重要。例如,一个人骑在马上的图像与一个人站在马旁边的图像传达了不同的意义,分别表明了可能是骑马或照顾马的动作。片段尺寸信息也很宝贵,它作为信号帮助模型识别哪些物体对于理解图像可能是关键的。这些信息被添加到标记中,关于该过程的详细解释在补充材料中进行了总结。

作者采用了原始ViT模型的基本架构,该架构被设计为处理196个输入标记。与原始ViT相比,作者的模型能够适应不同长度的标记输入,鉴于SAM根据输入图像产生不同数量的片段。为了处理这种变异性,作者引入了一种被称为“背景标记”的标记,它代表在图像中分割所有目标后剩余的像素。为了将其指定为背景标记,作者给边界框的和坐标分配值,类似于语言模型中的特殊标记的概念。对于拥有超过195个片段的图像,作者使用前195个片段作为标记,并将剩余的片段分配给背景标记。这种方法确保了原始图像的任何部分都不会被丢弃。这个模型在图3中展示,并与原始ViT进行了比较。

picture.image

Data Augmentation

数据增强技术已被证明可以带来强大的泛化性能。这些增强技术大多数是应用于整个图像的,这样就限制了它们在给定场景中鼓励相对(语义)组件多样性的能力。例如,当作者对整张图像应用水平翻转时,图像内的所有目标都会翻转,并保持它们之间的相对关系。为了从单一图像实现更广泛的数据增强,必须在片段层面应用增强技术。在片段层面应用增强技术也可以提升裁剪和调整大小技术。当作者对整张图像应用裁剪和调整大小技术时,由于裁剪,有可能会丢失一些目标。例如,在图4中,如果专注于裁剪图像中的女性,可能会导致一些目标被裁剪掉。然而,当作者在片段层面应用裁剪和调整大小技术时,作者可以保留所有目标,并创建更多种类的数据增强。

picture.image

picture.image

picture.image

通过在标记层面进行增强,作者进一步避免了重新渲染整个场景的复杂任务。此外,作者新的标记器为位置嵌入引入了额外的输入,这些输入是图像片段的位置和大小。这些输入使作者能够实施一种创新的增强方法,即向每个语义标记的位置和大小的输入中引入噪声。考虑一张一群马在平原上奔跑的图像。马匹之间的相对位置轻微变化或它们大小的改变可能是由摄像机角度或距离的移动引起的。向每个语义标记的位置和大小数据中引入噪声,可以帮助视觉模型泛化到这些变化上,这是当前全局数据增强方法没有解决的问题。

为了整合这些概念,sViT的增强函数接收以下输入:段列表、段的位置和大小的数据、增强采样的最大百分比,以及详述于算法1中的增强函数。作者不是在每一个周期中对相同数量的段应用增强,而是通过采样增强的百分比来引入变异性。这种方法通过在训练过程中让图像接触不同 Level 的增强强度,从而提高多样性。

picture.image

Enhancing Model Interpretability

类似于其他基于梯度的方法,作者使用梯度传播来识别图像中对于预测特定类别至关重要的语义片段。与现有方法相比,作者不仅仅依赖于视觉模型最后一层的梯度信息,而是使用语义(且可解释的)标记上的梯度信息。sViT分词器,一个分割模型,以监督的方式训练,以学习人类如何将图像分割成独特且易于理解的部分。

fortodo endfor Return , Output:List of token embeddings: Input:Image: , Convolutional layer: , Neural network: , Resize function: , Segmentation model: fortodo endfor Return

算法1 分割与标记化

unset

unset6 Ablations studies on segment-level augmentationunset

unset

在作者的消融研究中,作者尝试应用了各种片段 Level 的增强技术,以评估它们对性能的影响。这些增强技术包括水平翻转(flip)、裁剪和调整大小(crop),以及在位置嵌入中添加高斯噪声(pos)。作者还探索了这些增强技术的组合,以检查它们对性能的累积影响,如表格1所示。

有趣的是,将高斯噪声添加到位置嵌入在大多数以目标为中心和细粒度数据集中并没有提升性能。然而,作者在风景数据集中观察到了明显的改进。这种差异表明,在风景图像中,各段的相对位置尤其重要,空间排列在定义场景上下文中起着关键作用。相反,对于以目标为中心和细粒度的数据集,其重点更多地在于单个元素而非它们之间的空间关系,这种类型的增强显得不那么有效。

unset

unset7 Interpretable'mistakes'unset

unset

作者的方法的有效性在本补充材料的图3中进一步说明,特别是作者能够理解为何模型有时会产生不准确的预测。即使sViT模型在预测中犯错误,作者的方法也能让作者辨别出这些错误背后的原因。例如,考虑这样一个场景:sViT将一个标记为“山脉”的输入图像预测为“苔原”。观察突出显示的区域后,很明显为什么模型会做出这样的预测,因为它强调了一个被雪覆盖的山脉,这是苔原景观中常见的特征。在其他示例中(图3)也可以看到类似的见解。在特定情况下,模型将“幼儿园”图像不准确预测为“教室”,或将“峡谷”图像预测为“悬崖”,在检查突出显示的语义片段后,这些预测似乎是有道理的,因为这些物体通常出现在教室或悬崖图像中。

unset

unset参考unset

unset

[1].Vision Transformers with Natural Language Semantics.

点击上方卡片,关注 「AI视界引擎」

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生机器学习系统落地和实践
机器学习在字节跳动有着丰富业务场景:推广搜、CV/NLP/Speech 等。业务规模的不断增大对机器学习系统从用户体验、训练效率、编排调度、资源利用等方面也提出了新的挑战,而 Kubernetes 云原生理念的提出正是为了应对这些挑战。本次分享将主要介绍字节跳动机器学习系统云原生化的落地和实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论