TextureSAM：基于纹理增强与渐进微调的分割模型，突破形状偏好实现纹理主导分割！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

任何物体分割模型（SAM）在各种数据集上的物体分割任务中取得了显著成功。然而，这些模型主要在大型语义分割数据集上进行训练，这导致它们倾向于物体形状而非图像中的纹理线索。

这一局限性在医学影像、材料分类和遥感等领域尤为关键，因为这些领域中物体边界的定义依赖于纹理变化。

在本研究中，作者研究了SAM对语义的偏好超过纹理，并介绍了一种新的基于纹理的基础模型TextureSAM，该模型在以纹理为主的场景中表现出更优的分割性能。为此，作者采用了一种新颖的微调方法，结合纹理增强技术，逐步修改训练图像以突出纹理特征。

通过利用ADE20K数据集的新颖纹理交替方法，作者引导TextureSAM优先考虑由纹理定义的区域，从而减轻原始SAM模型中存在的固有形状偏差。作者的大量实验表明，TextureSAM在自然（+0.2：mIoU）和合成（+0.15：mIoU）基于纹理的分割数据集上均显著优于SAM-2。

unsetunset1. 引言unsetunset

传统的分割模型旨在基于语义特征识别物体，然而许多实际应用依赖于纹理，而纹理本质上难以定义。纹理可以表现为结构化、重复的图案或不规则、随机的变化，这使得在统一框架中对其进行建模成为一项挑战。在生物医学成像[4][8]（如病理学、放射学和显微镜学）中，诊断任务依赖于细微的纹理差异来识别肿瘤、组织异常和细胞边界，而显式的物体边缘往往不存在。类似地，在材料科学[2,7,29,30]中，金属学和复合材料分析需要基于纹理的分割来检测晶粒结构、裂缝和表面不规则性，因为这些特征缺乏明确的语义类别。在遥感领域，纹理对于土地覆盖分类和植被制图至关重要，而在工业检测中，缺陷检测依赖于分析复杂的空间统计特征，而非离散的物体边界。尽管基于纹理的分割具有广泛的相关性，但先前方法依赖于针对通常较小、特定领域数据集进行训练的特设模型，限制了泛化能力。尚未建立基础模型来提供跨领域的统一、可迁移的纹理表示。本研究通过引入一种协议，将预训练的基础分割模型适应为纹理感知模型，从而解决了这一差距，使得学习到的纹理表示能够在各种分割任务中应用。

现有的分割模型，包括SAM [21]及其后续模型SAM-2 [28]，在纹理驱动的应用中表现不佳，因为这些应用中的边界是由局部表面属性而非明确的物体轮廓定义的。这一局限性凸显了一个基本的研究空白：能否开发一个通用的分割基础模型，该模型能够明确地整合纹理信息，而非完全依赖基于形状的先验？作者推测SAM-2结合了形状和纹理线索。也就是说，它学会了预期某些物体通常具有特定的纹理。因此，作者的目标是通过解耦这两种线索来实现改进。为此，作者采用了一种最近引入的合成神经纹理方法（CNT）[32]，该方法可以在源图像和风格（即纹理）图像之间进行插值。通过这种方式，作者可以利用现有数据集（如作者的案例中的ADE20k）的真实标签 Mask ，为实例赋予任意新的纹理，从而实现形状与纹理的解耦。借助这个新构建的增强数据集，作者对SAM-2进行微调。作者将所得模型命名为TextureSAM。作者详细介绍了yinqing-TextureSAM_2505，并在多个数据集上评估了TextureSAM的性能。

贡献。本工作的主要贡献如下：

构建了一个纹理增强的ADE20K数据集，用于微调SAM-2，并在纹理感知场景中提供基准分割性能。
作者提出了一种新的微调方法，使SAM能够专注于纹理线索。
一种经过微调的分割模型TextureSAM被引入以提升纹理驱动分割任务中的性能。
大量的定量和定性评估表明，TextureSAM在自然和合成纹理分割数据集上均显著优于SAM-2。

unsetunset2. 先前工作unsetunset

2.1. 纹理分析

纹理分析通常与语义分割相关联，大致可分为两个部分：语义分割和实例分割。在语义分割中，每个像素被分配属于其类别的标签（例如，道路、车辆、天空、行人等）。在实例分割中，每个像素被分配属于其类别和实例的标签（例如，两个不同的人将被分配不同的标签）。

近期，这两种方法已被整合为一种单一的、整体的方法，称为全景分割，其目标是给每个像素分配其类别标签，并且在存在多个目标实例的情况下，为不同的目标分配不同的标签。全景分割被应用于自动驾驶和通用图像理解等多种场景。

纹理分析的另一个密切相关分支是边界检测，其目标是检测纹理、晶胞、晶粒等之间的有意义边界/界面。该分支源于边缘检测问题，边缘检测关注强度值的变化，而边界检测关注区域（即纹理）之间的边界检测。

传统方法主要关注Low-Level线索。例如，Martin等人[24]提出了一种概率边界 $( \mathrm { P b } )$ 检测模块，该模块通过局部亮度、颜色和纹理线索学习检测图像中的边界。Dollar和Zitnick[9]使用结构化森林将局部图像块映射到局部边缘图。

一系列论文[3, 22, 31]建议使用深度特征来改进图像边界检测。所有这些方法都使用深度特征作为检测边界的空间。利用多尺度表示和扩张卷积帮助He等人[14]将该领域的最先进技术进一步推进。最近，Pu等人将Transformer应用于边界检测[27]。他们的方法基于一个双层Transformer架构，其中第一层捕获全局场景信息，第二层精炼层计算边界。他们的网络在多个数据集[19]上实现了最先进的结果，包括BSD数据集[1]。使用Transformer进行这项任务的最新进展是Segment Anything Model (SAM)[21]，它虽然向前迈进了一大步，但在专业数据（尤其是在纹理和医学图像）方面仍存在局限性[15, 17]。

2.2. SAM在纹理方面的局限性

Segment Anything (SAM) [21] 通过实现跨不同数据集的零样本分割，为分割研究引入了一种新范式。SAM 在包含 1100 万张图像和 10 亿个 Mask 的 SA-1B 数据集上进行训练，使用视觉Transformer (ViT) 作为 Backbone 网络进行特征提取。SAM-2 [28] 通过更大的数据集和架构改进扩展了这一方法，但其基本设计仍针对语义分割而非纹理感知分割。[16] 对 SAM 在医学图像分割中的应用进行了评估，表明其在处理细粒度结构和低对比度区域时存在困难，突出了领域自适应的必要性。先前研究尝试生成特定领域的模型。例如 [23] 引入了 MedSAM，这是一个在庞大的医学分割数据集上训练的模型。他们的方法试图解决 SAM-2 在医学数据上的局限性，但并未直接解决由语义中心化训练数据引入的固有形状偏差问题。当然，这种方法不适用于缺乏大量标注数据所需的领域。

深度学习中形状与纹理偏差之间的权衡已被广泛研究。卷积神经网络（CNN）由于其局部感受野和权重共享特性表现出强烈的纹理偏差[13]。相比之下，视觉Transformer（ViT），如SAM中使用的，优先考虑全局形状而非局部纹理[26]。这是由于其基于块的 Token 化和自注意力机制，这些机制强调长距离依赖性，但牺牲了细粒度纹理表示[10]。使用Stylized ImageNet[26]进行的实验证实，ViT即使在极端纹理改变下也能保持物体识别能力，进一步强化了它们对基于形状分割的偏好。此外，SAM-2[18]的现实世界评估表明，在纹理敏感场景下其性能会下降，突显了在分割基础模型中提高纹理感知能力的需求。

近期研究探索了调节视觉模型中形状与纹理偏置的方法。Gavrikov等人[12]证明了视觉语言模型中的形状偏置可以通过语言 Prompt 进行控制，但据作者所知，之前没有明确研究过如何在分割基础模型中增加纹理偏置。虽然诸如[32]等纹理迁移技术能够实现纹理的受控修改，但它们尚未被用于系统地微调基础模型以进行纹理感知分割。本研究引入了一种以纹理为中心的SAM适应性方法，直接解决了其形状优先的局限性。

unsetunset3. TextureSAMunsetunset

3.1. 概述

TextureSAM是Segment Anything Model（SAM）的一个纹理感知变体，通过在纹理增强数据集上进行微调创建。虽然SAM-2在通用分割方面表现出色，但其对High-Level语义线索的依赖限制了其在纹理是主要区分特征场景下的性能。为此，作者在ADE20K数据集上对SAM-2进行微调，通过最先进的纹理替换方法增强图像。在由真实标签 Mask 定义的目标区域内，逐步引入纹理，使用来自描述性纹理数据集（DTD）[6]的样本，该数据集专为研究现实世界、无约束环境中的纹理识别而设计，包含5,640张纹理图像。这种增强促使SAM-2利用纹理线索进行分割。

作者训练了TextureSAM的两个版本：一个采用轻度纹理增强（η≤0.3），该版本保留了大部分语义结构；另一个采用强力纹理增强（η≤1.0），其中物体完全被纹理替换，消除了所有语义信息。

作者在两个以纹理为重点的数据集上评估了TextureSAM与原始SAM-2的性能：RwTD [20]，一个具有基于纹理分割的标注真值的自然图像数据集；以及一个完全由纹理过渡组成的合成数据集STMD [25]。性能评估采用平均IoU（mIoU）和调整兰德指数（ARI）来衡量基于纹理的分割质量。

3.2. 数据集

ADE20K数据集[34]是一个大规模场景解析数据集，包含超过20,000张图像，涵盖150个语义类别，包括物体、部件和材料。该数据集提供密集标注的场景布局，是语义分割、场景理解和上下文推理的基准。数据集覆盖了多种室内外环境，广泛应用于基于深度学习的分割研究。该数据集的训练部分用于训练TextureSAM，而ADE20K数据集的验证部分（包含2000张图像）用于评估模型在微调后进行通用语义分割的能力。

为评估TextureSAM的有效性，作者评估了其在两个以纹理为中心的数据集上的纹理分割性能，其中边界由纹理变化定义，而非物体语义。

作者使用真实世界纹理数据集（RWTD），这是一个包含256张标注图像的自然图像数据集，其中真实 Token 的是纹理边界而非物体边缘。该数据集源自[20]，为依赖纹理线索的分割模型提供了具有挑战性的基准。

此外，作者在合成纹理 Mask 数据集（STMD）[25]上进行了评估。与RWTD不同，STMD不包含任何显式目标，仅由具有清晰纹理过渡的合成图像组成。该数据集通过消除形状和语义信息，隔离了基于纹理的分割性能，使其成为评估TextureSAM纯粹基于纹理区分区域能力的有力测试用例。

数据集准备

为了在保留SAM-2原始分割能力的同时对其进行微调，作者使用了ADE20K训练集，该数据集是SA-1B（SAM-2训练所使用的原始数据集）的一个子集。这种方法有助于缓解灾难性遗忘[11]，确保TextureSAM在适应基于纹理的线索的同时，仍能保持一般分割能力。ADE20K提供了一个极具挑战性的基准，原始SAM-2在其验证集上的mIoU仅为0.46，表明仍有很大的改进空间。下一节将详细说明应用于ADE20K数据集的增强策略，以在SAM-2中引入纹理感知能力。

3.3. Textured-ADE20K数据集

作者采用[32]中的纹理迁移技术来创建Textured-ADE20K数据集。作者将描述性纹理数据集（DTD）[5]中的纹理 $I \_ { t }$ 迁移到ADE20K [33]中的语义内容图像 $I \_ { c }$ 。DTD数据集中包含5640张纹理图像，分为47类纹理。ADE20K数据集包含27574张图像（25574张用于训练，2000张用于验证），每张图像都附带相应的真实实例分割 Mask $\mathcal { M }$ 。为了创建用于分割的Textured-ADE20K数据集，图像中的实例会被迁移到不同的纹理上。图2展示了Textured-ADE20K数据集的样本。

picture.image

$~f\_c^m = ηf\_c^m + (1 - η)f\_t.$

插值系数 $\eta$ 决定了输入图像与纹理图像之间的权衡。当 $\eta := 0$ 时， $\tilde { I \_ { c } }$ 是 $I \_ { c }$ 的纹理化结果。 $\tilde { I \_ { c } }$ 与 $I \_ { c }$ 非常接近，但并非精确重建（图2，行：1-2，列：1-2）。这是因为作者使用 $E$ 以逐块方式将 $I \_ { c }$ 编码为高斯分布，并使用 $D$ 进行重建，其过程包括（1）将每个图像块投影到学习到的纹理空间（2）合并重叠的高斯块（3）将高斯重建为 $\tilde { I \_ { c } }$ 。直观上，该过程包括1）为图像块找到最接近的纹理嵌入2）在空间上合并纹理嵌入以确保平滑过渡3）从混合纹理中重建图像。

3.4. 模型微调

TextureSAM的训练协议遵循SAM-2仓库中的默认微调配置，以确保与先前工作的连贯性。超参数保持不变，并在补充材料中提供以供参考。由于资源限制，作者使用单个A100 GPU对SAM-2的sam2 hiera_small变体进行微调。尽管模型尺寸有所减小，但此配置使作者能够高效评估纹理增强的影响，同时保持与原始训练设置的对应关系。作者在 $\eta \leq 0.3$ 时训练19个epoch，在 $\eta \leq 1.0$ 时训练25个epoch，在训练时间与性能提升之间取得平衡。

3.5. 评估协议

指标作者使用两个互补的指标来衡量分割性能：
平均IoU (mIoU): 评估预测区域与真实区域之间的重叠程度。 : 调整兰德指数 (ARI): 衡量聚类一致性，特别适用于评估基于纹理数据集的分割质量，因为它会惩罚纹理区域被分割成单个感知元素的情况。

作者将TextureSAM（ $\operatorname { \bar { \eta } } \leq 0 . 3$ 和 $\eta \leq 1 . 0 \dot { }$ ）与原始SAM-2进行比较，分析模型在保持通用分割能力的同时，如何适应纹理线索。

推理与评估流程。为确保有意义的分割结果，作者修改了用于TextureSAM推理的SAM-2默认推理参数。具体来说，作者将每边点数参数从32修改为64，将稳定性分数阈值从0.95修改为0.2。使用TextureSAM的默认推理参数导致大多数图像没有预测的 Mask ，使得直接评估不可靠。通过调整模型推理的工作点，作者允许进行更有意义的比较。鉴于修改后的推理参数会导致更密集的分割，可能会增加纹理区域碎片化，作者通过使用原始SAM-2模型在原始和修改后的推理参数下获取结果，确保了公平的评估。在全文中，作者将默认参数的原始模型称为SAM-2，将使用作者调整后的推理参数评估的模型称为SAM- $^ { 2 ^ { * } }$ 。

预测 Mask 聚合。对于每个真实标签（GT） Mask ，作者首先识别模型输出中与之重叠的预测 Mask ，并在计算IoU之前将它们统一。这提供了对模型整体分割能力的评估，而不考虑碎片化。作者报告了使用 Mask 聚合和使用 Mask 聚合的结果。

下一节详细描述了增强型ADE20K数据集，包括纹理增强方法、数据集统计信息和示例转换。

unsetunset4. 结果unsetunset

作者使用两个具有挑战性的基于纹理的分割数据集评估yinqing-TextureSAM_2505：RWTD自然图像数据集，以及由包含多重纹理变化且无前景目标的合成图像组成的STMD数据集。每个数据集都为纹理感知分割提出了独特的挑战，从而能够全面评估yinqing-TextureSAM_2505。

作者将作者的纹理感知模型TextureSAM与原始的Segment Anything Model（SAM2）进行比较。为了进行公平的比较，对于原始的SAM2模型，作者使用默认的推理参数以及TextureSAM所使用的修改后的推理参数进行评估。评估采用两个主要指标：平均IoU（mIoU）和调整兰德指数（ARI）。

作者观察到SAM2在RWTD数据集上倾向于过度分割图像，如图1所示。因此，在后续实验中，作者在SAM2的基础上增加了一个 Mask 聚合步骤，以评估模型捕捉基于纹理区域的能力，同时避免因形状偏差导致的过度碎片化。

picture.image

合成数据集作为额外的验证，使作者能够在受控环境中测试yinqing-TextureSAM_2505泛化能力，其中纹理区域在真实标签中明确界定且图像中不出现物体。这进一步在图4中得到了说明，其中作者观察到SAM倾向于将纹理区域分割成多个较小的片段，而TextureSAM更有效地捕获整个纹理区域。下面，作者将详细阐述在这些数据集和评估协议下的发现。

picture.image

箱线图：预测与真实分割 STMD

4.1. Mask 聚合分析

为评估TextureSAM与原始SAM2模型在整体分割质量上的差异，作者采用 Mask 聚合方法，将预测分割 Mask 根据其与真实区域的重叠程度进行分组。这种方法通过整合属于同一纹理定义区域的碎片化预测，提供了更全面的分割性能评估指标。作者期望模型能将具有独特重复模式的区域作为一个整体进行识别。因此，作者还报告了未聚合的指标，其中对单个预测 Mask 进行独立评估。这种评估方式会惩罚那些过度分割区域的模型，因为它们会为纹理区域生成多个小碎片，而不是一个连贯的单一 Mask 。

4.2. 合成STMD数据集结果

合成纹理变换数据集提供了一个受控的基准，其中分割完全基于纹理，没有物体结构存在。这使得作者能够隔离纹理对分割性能的影响，而不会受到基于形状的线索的干扰。如表1所示，当 $\eta \leq 1.0$ 时，TextureSAM实现了最佳的mIoU和ARI分数，显示出改进的分割性能。 $\eta \leq 1.0$ 的训练包括仅由纹理边界定义的图像，类似于STMD中的图像，因此这一结果具有逻辑性。TextureSAM在mIoU和ARI两方面都优于SAM2，显示出与纹理定义的真实区域更好的对齐。

picture.image

进一步应用 Mask 聚合揭示了原始SAM-2中形状偏差的影响，因为其表现不佳。有趣的是，在作者的推理参数下，原始SAM-2也受益于此场景，因为它难以从语义无关的数据中获得置信度高的 Mask 。通过聚合，两个模型均实现了更高的mIoU，因为碎片化的预测被整合为连贯的区域。然而，在此情况下，使用修改参数的TextureSAM仅取得了与原始SAM-2相当的结果，表明yinqing-TextureSAM_2505保留了整体分割能力，同时具备纹理感知能力。在没有聚合的情况下，原始SAM2的ARI和mIoU显著降低，证实其倾向于将纹理区域过度分割成多个较小的组成部分，这是由于其固有的基于形状的分割偏好。相比之下，TextureSAM减轻了这种碎片化，导致更一致的分割结果，这些结果遵循纹理边界而非任意形状结构。

4.3. 真实世界分割结果

在真实世界纹理数据集（RWTD）上，该数据集包含自然图像，作者观察到TextureSAM相较于SAM-2在分割性能上具有持续的提升。由于RWTD是专门为基于纹理的分割而设计的，因此该数据集为评估模型捕捉纹理定义区域的能力而非依赖形状线索提供了一个强有力的基准。图1展示了原始SAM-2模型与TextureSAM之间的定性可视化差异。SAM-2倾向于根据构成纹理的语义元素将纹理区域进行分割。SAM-2预测的 Mask 数量进一步通过箱线图可视化展示在补充材料中，与STMD数据集展示的结果相似。定量结果在表2中呈现，其中TextureSAM在 $\eta ~ \leq ~ 0 . 3$ 时取得了最佳的mIoU和ARI分数，证明了其纹理感知分割性能的提升。

picture.image

在应用 Mask 聚合时，TextureSAM获得了与原始SAM相当且略高的结果

然而，在没有聚合的情况下，SAM-2在ARI和mIoU上表现出显著的下降，这证实了其由于形状偏差倾向于过度分割纹理定义区域。当比较原始SAM-2与不同推理参数的性能时，作者发现使用作者修改后的推理参数时，自然图像的分割能力显著下降。

4.4. ADE20K验证数据集分割结果

对SAM-2进行微调以增强其纹理感知能力，存在损害其现有语义分割能力的风险。作者使用ADE20k数据集尝试避免灾难性遗忘，因为它是用于训练SAM-2的原始数据集的一部分。ADE20k的验证数据集是一个具有挑战性的语义分割基准，即使是对于原始的SAM-2模型也是如此。因此，该验证数据集有助于评估TextureSAM的整体语义分割能力与原始SAM-2模型之间的差异。表3展示了原始SAM-2模型、默认参数和TextureSAM推理参数下的TextureSAM、TextureSAM轻度增强模型 $( \eta \leq 0 . 3 )$ 以及严重增强模型 $( \eta \leq 1 . 0 )$ 的比较结果。结果表明，TextureSAM的两个变体在ARI和mIoU指标上均优于原始SAM-2模型，进一步表明SAM-2对GT区域过度分割。原始SAM-2模型在修改后的推理参数下在聚合mIoU分数上得分最高，该分数与语义分割评估最相关。TextureSAM在轻度增强 $\eta \leq 0 . 3$ 下取得了相当的成绩（-0.1 mIoU），表明将模型的关注点转向纹理确实在一定程度上降低了其语义分割能力。使用修改后的推理参数...

picture.image

参数增加使得原始SAM-2的得分提升，表现为生成了更多 Mask 。这一提升在纹理数据集上也得到验证，其中TextureSAM依然表现出优越性。图5进一步展示了SAM-2与TextureSAM在ADE20K上的视觉差异，表明TextureSAM在纹理定义区域的分割上比SAM-2提供了更连贯的结果。

picture.image

unsetunset5. 结论unsetunset

在这项工作中，作者通过在以纹理为中心的数据集上进行评估，展示了SAM-2的形状偏差。这为先前的研究提供了强有力的实证支持。因此，关于RQ1，根据作者的发现，SAM-2确实存在形状偏差。作者的工作中存在一些证据表明，SAM-2能够将纹理视为整体区域，但它与形状的强耦合关系明显，这从纹理区域更频繁的碎片化现象中可以看出。

为解决这一问题，作者引入了TextureSAM，它是SAM的微调变体，在训练过程中集成了针对性的纹理增强。TextureSAM成功缓解了SAM的形状偏差，从而在纹理驱动场景中实现了更优的分割效果。

关于RQ2，作者提供了经验证据表明确实可以将基础模型调整至执行纹理驱动分割。这些观察结果突显了增强纹理敏感性与保持更广泛分割性能之间的权衡，指出了对纹理聚焦训练协议进行仔细校准的必要性。

unsetunset参考unsetunset

[1]. TextureSAM: Towards a Texture Aware Foundation Model for Segmentation

点击上方卡片，关注「AI视界引擎」公众号

TextureSAM：基于纹理增强与渐进微调的分割模型，突破形状偏好实现纹理主导分割 ！

unsetunset1. 引言unsetunset

unsetunset2. 先前工作unsetunset

2.1. 纹理分析

2.2. SAM在纹理方面的局限性

unsetunset3. TextureSAMunsetunset

3.1. 概述

3.2. 数据集

3.3. Textured-ADE20K数据集

3.4. 模型微调

3.5. 评估协议

unsetunset4. 结果unsetunset

4.1. Mask 聚合分析

4.2. 合成STMD数据集结果

4.3. 真实世界分割结果

4.4. ADE20K验证数据集分割结果

unsetunset5. 结论unsetunset

unsetunset参考unsetunset