SAM & CLIP | 实现零样本物体分割，文本提示与图像分割的新颖整合开辟了新的可能性！ - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

作者提出了SLIP（SAM+CLIP），一种增强型零样本目标分割架构。SLIP结合了Segment Anything Model（SAM）[11]与对比语言-图像预训练（CLIP）[1]。

通过使用CLIP将文本提示整合到SAM中，SLIP能够在没有针对特定类别或分类的先前训练的情况下进行目标分割。

作者在一个宝可梦数据集上对CLIP进行微调，使其能够学习有意义的图像-文本表示。

SLIP展示了根据文本提示中的上下文信息识别和分割图像中目标的能力，扩展了SAM在多用途目标分割方面的能力。作者的实验验证了SLIP架构在基于文本提示分割图像目标方面的有效性。将CLIP的文本-图像理解能力整合到SAM中，扩展了原始架构的功能，并使目标分割更加多用途和上下文感知。

Introduction

物体分割，即识别并在图像中描绘出物体的任务，是计算机视觉领域的一个基本问题，具有广泛的应用。传统方法需要在针对每个目标类别的大型标注数据集上进行训练，这使得它们的泛化能力受限[10][11]。然而，深度学习的最新进展导致了能够进行零样本物体分割的模型的开发，这使得可以在没有特定类别先前训练的情况下识别物体[12][1]。

本文介绍了SLIP（SAM+CLIP）这一协同架构，它结合了Segment Anything Model（SAM）和Contrastive Language-Image Pretraining（CLIP）模型的优势。虽然SAM在图像和 Mask 的物体分割方面表现出色，但它缺乏融入文本信息的能力。为了解决这一限制，作者引入了CLIP，这是一个通过对比学习联合学习图像和文本表示的模型。通过微调CLIP，作者训练它理解图像中呈现的上下文信息。这个训练后的CLIP模型使作者能够利用文本提示作为SAM分割过程中的附加输入，从而基于提取的上下文实现零样本物体分割。

SLIP的关键优势是它能够在不需要对每个类别进行特定训练的情况下分割任何类别或类别的物体。SLIP不仅依赖基于图像的信息，而是将CLIP的视觉理解与SAM的分割能力相结合，使用文本提示指导分割过程。这种文本提示与图像分割的新颖整合为物体识别和分割在广泛的应用中开辟了新的可能性。

需要强调的是，SLIP并不需要对分割后的图像进行训练。相反，它利用作者数据集中的原始图像，应用CLIP学习到的相同变换和上下文理解。然后，作者在一个宝可梦数据集上评估SLIP的性能，展示了它基于文本提示在图像中识别和分割物体的能力。实验结果突显了SLIP在实现零样本物体分割方面的有效性，为计算机视觉中的高级应用铺平了道路。

Our Contributions

提出了一种利用SAM和CLIP之间协同作用，通过文本提示进行零样本目标分割的新方法。

通过在宝可梦数据集上微调CLIP模型，并将其与SAM集成，扩展了CLIP模型的功能，以基于文本提示进行零样本目标分割。
使用与SAM集成的预训练和微调CLIP模型对基于文本提示的宝可梦分割结果进行了全面评估和比较。
此外，建立了一个ResNet分类器作为评估所提出方法有效性的 Baseline 。

Literature Survey

对比语言-图像预训练（CLIP）模型[1]是OpenAI在2021年开发的一项在计算机视觉与自然语言处理领域的重大突破。CLIP通过利用大量且多样的配对图像和文本描述数据集，学习图像和文本的联合表示空间。该模型基于 Transformer 架构，将视觉和文本模态编码到共享的嵌入空间中。

这使得模型能够执行图像和文本的跨模态检索，并通过语言推理视觉概念。CLIP在各种任务中都取得了最先进的结果，包括图像分类、目标检测和图像检索，超过了此前的最先进模型。此外，模型执行跨模态推理的能力已经在图像字幕生成、视觉问答以及生成艺术等领域的创新应用中得到了体现。

图像分割是计算机视觉中的一个基本问题，它涉及预测图像中每个像素的二值 Mask 。传统上，这一任务是通过在固定的目标类别集上训练模型来完成的，更新或扩展这些类别可能成本高昂。

2022年，CLIPSeg[16]提出了一种系统，可以在测试时基于任意提示生成图像分割，使用一个统一模型一次训练用于多个分割任务。该系统以CLIP模型作为基础，并扩展了基于 Transformer 的解码器进行密集预测。根据自由文本提示或表达 Query 的附加图像生成图像的二值分割图。

这种新颖的混合输入允许动态适应不仅限于三个分割任务，而且适用于任何可以形成文本或图像 Query 的二值分割任务。

Segment Anything模型[15]是由Meta研究开发并于2023年4月发布的革命性实例分割模型。该模型在1100万张图像和110亿个分割 Mask 上进行训练，是迄今为止最大的分割数据集。SAM的一个显著特点是它的提示性，这使得它能够将其分割能力转移到新的图像分布和任务上，例如在感兴趣的目标周围绘制框。

尽管SAM在各类分割任务上的零样本性能令人印象深刻，但SAM目前缺乏将文本提示纳入分割过程的能力，这表明在这一领域还有改进的空间。

大量数据集的可用性，结合模型的效率，使SAM能够实现强大的零样本性能，通常甚至超过了完全监督的方法。这些能力在无法进行大规模数据集手动标注的场景中特别有用，例如在医学成像或遥感领域。

Methodology

Dataset

为了有效地分割那些在大规模数据集如ImageNet [1]中找不到的目标，作者在Pokemon数据集[13]上对CLIP进行了微调。这帮助作者展示了在复杂任务（如目标分割）中微调CLIP的效果。

Pokemon数据集按151个类别组织，分别对应第一代宝可梦。每个类别包含50-60张图片，代表了相应宝可梦的不同视角、姿势和变化。总的来说，该数据集包含超过10,000张图片，为训练和评估提供了全面的集合。

picture.image

通过利用这个数据集，作者可以提高SLIP（SAM+CLIP）等模型在零样本目标分割方面的性能，使得即使没有针对特定宝可梦片段的先前训练，也能在图像中对宝可梦目标进行准确和上下文感知的分割。

数据预处理

在数据预处理阶段，作者执行了几个步骤以准备数据集进行进一步的分析和训练。由于数据集只包含图片，作者手动为每张图片生成了标题。

作者尝试了各种标题生成方式，如“这是一张宝可梦名称的图片”，和“宝可梦名称”。这使得作者能够有效地在图像、文本对上训练CLIP，生成了正样本和负样本。作者还发现后一种标题生成方式比前一种在上下文理解方面表现得更好。

Model Architecture

作者提出的模型架构结合了SAM（Segment Anything Model）和CLIP（Contrastive Language-Image Pretraining）框架，以实现有效的零样本目标分割。

这些组件的整合利用了它们各自的优势，提升了作者模型的整体性能。

SLIP中的SAM部分负责生成图像中所有目标的精确分割，并不考虑上下文信息。这个过程从将图像传递给SAM的图像编码器开始。图像编码器编码后的图像接着传递给SAM Mask 解码器。SAM Mask 解码器生成与输入图像对应的标注。作者进一步改进了这些生成的标注，使用了后处理标注过滤器。

作者创建了过滤器，这些过滤器可以分离相交的分割，同时不丢失任何相关信息。这一步骤确保了生成的分割准确地表示图像中的目标，并由于显著减少了分割数量，也提高了作者模型的推理时间。

在SAM Mask 解码器之后，分割被传递给CLIP图像编码器。利用经过微调的CLIP模型，CLIP图像编码器生成了一个相似性矩阵，该矩阵测量编码图像 Mask 与提供的文本提示之间的相似性。

这个相似性矩阵作为选择与提示相似度最高的分割图像的基础，最终被选为模型的输出。

通过将SAM图像编码器、CLIP提示编码器、SAM Mask 解码器和CLIP图像编码器协同结合，SLIP利用两个框架的优势实现了健壮的零样本目标分割。这种无缝整合使得作者的模型能够通过有效利用用户通过文本提示提供的上下文信息，生成高度准确的分割。

Training

picture.image

为了从零开始训练作者的CLIP（对比语言-图像预训练）模型，作者遵循了一系列步骤和技术。以下是训练过程概览：

数据加载器准备：作者使用了包含大约10,000张图片的Pokemon数据集来训练作者的CLIP模型。数据集被划分为80-20%的训练和验证分割，以评估模型的性能。
数据转换：在训练之前，数据集中的所有图片都被调整到固定的224x224像素大小，三个颜色通道（224x224x3）。应用了归一化技术以确保数据集中图像表示的一致性。
预训练的图像和文本嵌入：作者使用了在ResNet-50架构上预训练的图像嵌入，它捕捉了图像中丰富的视觉特征和表示。同样，使用了在DistilBERT模型上预训练的文本嵌入，以将文本信息编码成有意义的表示。
投影头：使用投影头将来自预训练模型的图像嵌入和文本嵌入投射到共同的潜在空间中。
对数几率和目标：为了训练模型，作者计算了对数几率，它代表了文本和图像嵌入之间的相似性得分。使用 GT 相似性生成了目标，为每一对文本和图像样本提供了正确的相似性值。
交叉熵损失：作者计算了对数几率和目标之间的交叉熵损失，以衡量预测相似性与 GT 相似性之间的差异。
优化和学习率调整：作者使用了AdamW优化器在训练期间更新模型的参数。此外，还使用了ReduceLROnPlateau调度器根据模型的表现调整学习率。在一定的周期数（耐心=5）后，学习率降低了0.9倍。
网格搜索：为了确定训练CLIP模型的最佳超参数，作者执行了网格搜索。作者尝试了不同的学习率（例如，0.00001、0.0001、0.001、0.01、0.1、0.5）和投影维度。训练损失达到了0.3710的值。验证损失达到了0.7791的值，在未见过的图像上泛化得很好。该模型能够捕捉图像和文本之间的有意义的关系，使其能够准确测量相似性，并在不同的样本之间进行区分。

Evaluation

在评估作者的模型过程中，作者分析了其在预测与提供给SLIP的输入提示最密切相关的片段方面的表现。作者的评估是在一个由One Shot Pokemon Dataset [20]中的四个随机类别组合成的单一图像上进行的，该图像作为输入提供给SLIP，同时还有输入提示。

为了实现这一点，作者向SLIP提供了输入文本提示以及包含这四个组合类别的图像。模型的输出是与所提供输入最相近的片段。为了确定这些预测的准确性，作者建立了一个 Baseline ResNet-18模型进行图像分类，其准确率达到97%。这个ResNet-18模型作为作者比较的基准真值。

如果分类器对预测片段的预测标签与输入文本提示相匹配，作者则认为SLIP模型对文本提示最相近片段的预测是正确的。

为了进一步研究在特定数据集上训练CLIP模型的影响，作者对SLIP架构进行了比较评估，分别使用预训练的CLIP和微调后的CLIP。这次评估使作者能够深入了解在数据集上训练CLIP带来的性能提升，以及它对分割和分类任务的准确性和鲁棒性的影响。

需要注意的是，作者的评估主要关注模型在提供与给定输入文本提示最相近的片段方面的准确性。实际片段的准确性评估属于SAM模型的范围，这不是作者当前研究的主要焦点。然而，作者建议在未来的研究中，可以使用作者的数据集对SAM模型进行微调，并考虑用于片段评估的目的。

Results

图2：SLIP架构概览：SLIP接收图像和文本提示作为输入，并生成与文本提示对应的输入图像的片段。SAM：接收图像输入并产生所有可能的片段，随后对这些片段进行过滤。CLIP：接收过滤后的片段和文本提示作为输入，并输出与输入文本密切对齐的片段。

picture.image

作者项目的目标是通过对零样本目标分割引入文本提示，来增强Segment Anything Model（SAM）的能力。尽管SAM是一个强大的目标分割框架，但它缺乏在分割过程中结合文本信息的能力。通过作者的项目，作者成功地将对比语言-图像预训练（CLIP）模型与SAM集成在一起，实现了基于文本提示的目标分割。

作者在特定的数据集上训练了CLIP模型，该数据集由宝可梦的图像组成。训练损失达到了0.3710的值。验证损失达到了0.7791的值，在未见图像上泛化效果良好。该模型能够捕捉图像和文本之间的有意义关系，使其能够准确测量相似性并区分不同样本。

使用作者提出的评估方法，并以ResNet18作为 Baseline ，最终微调后的SLIP模型的准确度为69.75%。与预训练的SLIP模型（准确度为15.25%）相比，准确度的显著提高证明了作者方法的有效性。

Conclusion

综上所述，作者介绍了SLIP（SAM+CLIP）这一高级架构，它无缝地集成了Segment Anything Model（SAM）和Contrastive Language-Image Pretraining（CLIP）模型，用于零样本目标分割。

通过将文本提示通过CLIP引入SAM，SLIP能够在不需要特定类别或分类的预训练的情况下实现精确的目标分割。作者特别在全面的宝可梦数据集上对CLIP进行微调，使其能够获取丰富的图像-文本表示。通过大量实验，作者证明了SLIP架构在基于通过文本提示提供的上下文信息准确识别和分割图像中的目标方面是有效的。CLIP的文本-图像理解能力的集成显著扩展了原始SAM架构的功能，使得目标分割更加多能和上下文感知。

SLIP模型的通用性和潜力延伸到各种应用，包括图像理解、场景理解和交互式图像分析，在这些应用中，无需先前的类别特定训练就能执行目标分割具有极大的优势。

总的来说，SLIP在零样本目标分割方面代表了重要的进步，为计算机视觉任务的创新解决方案铺平了道路。