超越SAM局限 | X-SAM用统一MLLM架构横扫7大分割任务，RefCOCOg暴涨10% - 文章 - 开发者社区

picture.image

精简阅读版本

本文主要解决了什么问题

1. 大语言模型(LLMs)在像素级感知理解方面存在固有的缺陷，难以直接处理需要像素级理解视觉数据的任务，如图像分割。
1. 分割任何模型(SAM)在视觉Prompt驱动的图像分割方面虽有进展，但在多Mask预测和特定类别分割任务上表现出明显局限性。
1. 现有方法无法将所有分割任务集成到一个统一的模型架构中，缺乏处理多样化图像分割任务的统一框架。
1. 当前的MLLMs仅限于生成文本输出，无法有效结合视觉和文本信息进行像素级理解。

本文的核心创新是什么

1. 提出了X-SAM，一个简化的多模态大语言模型(MLLM)框架，将分割范式从"分割任何"扩展到"任何分割"，实现了统一的图像分割模型架构。
1. 引入了一种新的分割任务——视觉接地(VGD)分割，该任务通过交互式视觉Prompt分割所有实例目标，赋予MLLMs视觉接地和像素级解释能力。
1. 提出了一种统一的输入格式和训练方法，将分割任务重新表述在一个统一的框架内，包括文本Query输入和视觉Query输入两大类别。
1. 设计了一种统一的多阶段训练策略，支持跨多个数据集的协同训练，包括分割器微调、对齐预训练和混合微调三个阶段。
1. 构建了包含双编码器、双Projector、LLM、分割连接器和分割解码器的创新架构，使MLLMs能够实现更高级别的像素级感知理解。

结果相较于以前的方法有哪些提升

1. 在指代分割任务上，X-SAM在RefCOCO、RefCOCO+和RefCOCOg验证集上分别比PSALM高出1.5% cIoU、5.1% cIoU和10.0% cIoU。
1. 在GCG分割任务上，X-SAM在验证集上将GLaMM的性能提高了0.2%的METEOR和3.2%的CIDEr，在测试集上将性能提高了0.5%的METEOR和4.8%的CIDEr；在像素级理解方面，验证集上将OMG-LLaVA的性能提高了3.3%的AP和3.9%的mIoU，测试集上将性能提高了4.3%的AP和4.3%的mIoU。
1. 在VGD分割任务上，X-SAM在Point、Scribble、Box和Mask视觉Prompt上分别比PSALM高45.9% AP、45.9% AP、45.8% AP和47.4% AP。
1. 在广泛的图像分割基准测试中取得了最先进的性能，包括通用分割、开集分割、指代分割、推理分割、GCG分割、交互式分割和VGD分割等七个分割任务。
1. 建立了统一的像素级图像理解的稳健新基准，为MLLMs中的统一像素级感知理解设定了新的强基线。

局限性总结

1. 混合微调虽然在领域外COCO基准测试上提升了性能，但在COCO-Pan上性能下降了0.8%，表明在多源训练中平衡性能仍具有挑战性。
1. 论文中提到在训练过程中需要平衡多样化数据集上的训练数据，这可能需要复杂的重采样策略和调整。
1. 虽然X-SAM支持多种分割任务，但在处理某些特定类型的分割任务时可能仍有优化空间。
1. 模型架构相对复杂，包含双编码器、双Projector等多个组件，可能增加了计算和部署的复杂性。
1. 论文没有详细讨论模型在实时应用中的性能和效率，这对于某些实际应用场景可能是一个考虑因素。

深入阅读版本

导读

大语言模型（LLMs）在广泛的知识表示方面展现出强大的能力，但它们在像素级感知理解方面存在固有的缺陷。尽管分割任何模型（SAM）在视觉 Prompt 驱动的图像分割方面取得了显著进展，但它在对多 Mask 预测和特定类别分割任务表现出明显局限性，并且无法将所有分割任务集成到一个统一的模型架构中。为了解决这些局限性，作者提出了X-SAM，一个简化的多模态大语言模型（MLLM）框架，将分割范式从分割任何扩展到任何分割。具体而言，作者引入了一个新的统一框架，使MLLMs能够实现更High-Level的像素级感知理解。此外，作者提出了一种新的分割任务，称为视觉接地（VGD）分割，该任务通过交互式视觉 Prompt 分割所有实例目标，并赋予MLLMs视觉接地、像素级解释能力。为了能够在各种数据源上进行有效训练，作者提出了一种统一训练策略，支持跨多个数据集的协同训练。实验结果表明，X-SAM在广泛的图像分割基准测试中取得了最先进的性能，突出了其在多模态、像素级视觉理解方面的效率。

代码 https://github.com/wanghao9610/X-SAM

1 引言

多模态大语言模型（MLLMs）随着大语言模型（LLMs）的快速发展以及多模态预训练方法的进步（Bai等人，2023；Touvron等人，2023a,b；Abdin等人，2024）展现出显著进展。这些模型在图像描述（Xu等人，2015）、视觉问答（VQA）（Antol等人，2015）和视觉编辑（Chen等人，2018）等众多应用中表现出卓越的有效性。然而，开发真正通用模型的一个重大障碍仍然存在：当前的MLLMs仅限于生成文本输出。这一局限性在直接处理需要像素级理解视觉数据的任务（如图像分割，这是计算机视觉领域最关键的任务）时构成了重大挑战。

任何东西分割模型（SAM）是一种基础分割模型，其在生成密集分割 Mask 方面表现出色，并启发了多种分割任务的开发，例如高质量分割（Ke等人，2023年）、匹配任何（Li等人，2024c）和跟踪任何（Rajic等人，2025年）。然而，SAM的架构本质上受限于其对视觉 Prompt 的依赖，这极大地限制了其直接应用于广泛的图像分割任务，包括通用（语义、实例、全景）分割、指代分割和开集（OV）分割等。实现一个能够处理各种图像分割任务的统一框架仍然是一个具有挑战性的问题。

在这项工作中，作者介绍了X-SAM，一个创新的框架，它统一了各种图像分割任务，将分割范式从“分割任何东西”扩展到“任何分割”。为了实现这一目标，X-SAM解决了三个关键的技术挑战：(1) 任务构建：将SAM转化为具有跨任务适用性的通用分割架构。(2) 模态增强：增强LLMs的多模态输入处理能力。(3) 统一框架：开发一种协同的方法，以有效促进跨不同领域的综合分割应用。

首先，作者开发了一种统一的分割MLLM架构，该架构集成了一个统一的 Mask 解码器，能够生成适用于通用图像分割任务的分割 Mask 。其次，作者扩展了MLLM的多模态能力，使其不仅能够处理文本 Query ，还能处理视觉 Query 。具体而言，作者引入了一项新任务，称为视觉 grounding（VGD）分割，该任务通过交互式视觉 Prompt 对图像中的所有实例目标进行分割。这项任务将视觉引导模态引入到大语言模型（LLMs）中。此外，作者提出了一种统一的输入格式和训练方法，将分割任务重新表述在一个统一的框架内，从而优化MLLMs对多样化图像分割任务的适应性。

如图1和表1所示，作者展示了X-SAM的全面能力，并将其与其他方法进行了比较。作者提出的框架在处理基于文本 Query 的任务方面表现出色，例如通用分割和指代分割，同时也能兼容基于视觉 Query 的任务，如交互式分割（Zhang等人，2024d）以及作者新型VGD分割，该分割方法在单图像和跨图像环境中均能有效运行。此外，X-SAM利用了大语言模型（LLMs）的推理和生成能力，从而实现了High-Level推理分割和基于对话生成的分割（GCG）（Rasheed等人，2024）。

picture.image

X-SAM通过多种数据集进行协同训练。作者在七种不同的图像分割任务中，对超过二十个分割数据集进行了全面评估，甚至包括图像转换任务。X-SAM在所有图像分割基准测试中均取得了最先进的性能，并建立了统一的像素级图像理解的稳健新基准。总之，作者的贡献如下：

• 作者介绍了X-SAM，一个新颖的统一框架，它将分割范式从“分割任何事物”扩展到“分割任何分割”。X-SAM将多样化的图像分割任务转化为标准化的分割格式。
• 作者提出了一种新的图像分割基准——视觉基础地分割（Visual GrounDed Segmentation，VGD Segmentation），该基准为多模态大语言模型（MLLMs）提供视觉基础地 Prompt ，以分割图像中的实例目标。该基准引入了用户友好的输入方式，用于对分割目标进行基础地定位，并指导MLLMs输出分割 Mask 。
• 作者提出了一种统一的分阶段训练策略，用于在多样化的数据集上协同训练X-SAM，并在超过二十个图像分割基准数据集上进行了广泛的评估，在所有数据集上都取得了最先进的性能。这为MLLMs中的统一像素级感知理解建立了一个新的强 Baseline 。

2 相关工作

多模态大语言模型。多模态学习从早期专注于特定任务融合和特征提取的模型（Li等人 2022b）发展到利用大语言模型（Brown等人 2020；Touvron等人 2023a,b）进行通用、指令调优的多任务基准（Li等人 2023a；Liu等人 2024c；Hudson等人 2019）。LLaVA（Liu等人 2024a,b, 2023a）引入了视觉特征 Token 化，推动了视觉表征的进步（Yuan等人 2024b）、专门视觉扩展（Lai等人 2024；Lin等人 2023；Dong等人 2024a,b；Zhang等人 2023；Ren等人 2024；Zhang等人 2024a；Zang等人 2025）以及语言引导分割（Li等人 2024e；Zhang等人 2024b）。然而，大多数进展仍局限于特定任务。据作者所知，作者是首个成功实施综合方法的研究，为图像分割开辟了新方向。

多模态定位分割。近期研究（Pan等人2024；Sun等人2024；Zhou等人2022a；Bar等人2022；Wang等人2023a,b）探索了视觉启动方法，包括可学习 Token （Zhou等人2022a）、 Mask 视觉建模（Wang等人2024；Fang等人2023；Wang等人2023b）以及视觉 Prompt 编码器（Yuan等人2024a；Wang等人2023c,a）。SAM（Kirillov等人2023b）及其扩展（Xu等人2024；Yuan等人2024a）将视觉定位信号引入分割模型，显著提升了性能。交互式分割（Li等人2024e）进一步增强了用户引导的分割功能，适用于多模态大语言模型。然而，现有方法无法将定位输入自由地作为文本输入用于分割。为解决这一问题，作者提出了视觉定位分割（VGD）方法，实现了更多样化的多模态定位分割。

统一分割模型。视觉Transformer（Mehta等人2021；Dosovitskiy等人2020；Carion等人2020）推动了通用分割的进步，近期研究（Zhou等人2022b；Xu等人2024；Li等人2024d；Zhou等人2024；Sun等人2023；Yang等人2021；Cheng等人2022b；Wang等人2021a）开发了端到端的 Mask 分类框架，在多种应用中超越了早期模型（Zhou等人2022c；Li等人2021, 2020；Chen等人2019）。研究已扩展到开放世界和开集分割（Wu等人2024；Yuan等人2024a；Qi等人2022a,b），以及适用于多任务的统一架构（Athar等人2023；Gu等人2023；Yan等人2023b；Xu等人2024；Jain等人2023；Li等人2024e）。然而，大多数方法仅关注视觉分割，缺乏MLLMs中常见的交互式文本和视觉 Prompt 。为解决这一问题，作者将SAM与MLLMs结合，将SAM从“分割任何东西”扩展到“任何分割”，并引入一个适用于所有图像分割任务的统一框架，建立了一个新的强 Baseline 。

3 方法

为达成统一图像分割，作者提出了X-SAM，一种新型多模态分割MLLM。作者设计了一种通用的输入格式和统一框架，将多样化的分割任务集成到单一模型中。此外，作者引入了一种创新的训练策略，使SAM能够处理任何分割任务。以下章节将详细阐述X-SAM。

3.1 建模

统一分割模型的开发面临着来自分割任务多样性以及输入格式多变性的挑战。为解决这些问题，作者引入了一种通用的输入格式，以支持广泛的图像分割任务，为XSAM统一框架奠定基础。作者将输入格式划分为两大主要类别：文本 Query 输入和视觉 Query 输入。文本 Query 输入仅包含源自用户请求的语言 Prompt ，而视觉 Query 输入则整合了用户提供的语言 Prompt 和视觉 Prompt 。

文本 Query 输入。现有的大多数图像分割任务可以概念化为文本 Query 输入，包括通用分割（Kirillov等人，2019年）、指代分割、开集（OV）分割（Li等人，2022a）、GCG分割（Rasheed等人，2024年）和推理分割（Lai等人，2024年）。文本 Query 输入封装了用户的请求以及需要分割的具体类别或目标，这些信息可能嵌入在用户的 Prompt 中，也可能由大语言模型（LLM）生成。为了促进GCG分割任务，受GLaMM（Rasheed等人，2024年）的启发，作者将两个特殊短语 Token

和

整合到分词器中，分别表示短语的开始和结束。对于通用分割和GCG分割中的每个类别、指代分割中的短语或推理分割中的句子，格式标准化为

类别/短语/句子

。具体而言，

和

Token 不仅在输入 Token 中被编码，也在输出 Token 中被生成，确保不同任务之间的一致性。此外，对于输出，作者引入特殊 Token

到分词器中，以表示分割结果，遵循（Lai等人，2024年）的方法。

视觉 Query 输入。除了文本 Query 输入之外，某些任务需要视觉 Query 输入，例如交互式分割（Zhang等人 2024d）以及本文提出的视觉GrounDed分割。与文本 Query 输入不同，视觉 Query 输入包含用户提供的视觉 Prompt ，这种 Prompt 可以是点、涂鸦、框或 Mask 。为了表示视觉 Prompt ，作者在输入格式中采用一个专用 Token 。类似于文本 Query 输入，视觉 Prompt 的格式为

，分割输出同样由

Token 指示。

Token 作为视觉 Prompt 的占位符，将被分割编码器提取的区域特征所替换。

统一公式。在

和

Token 之间的潜在语言嵌入被用作分割解码器的条件嵌入，以计算分类分数。基于此公式，作者实现了一个适用于所有图像分割任务的统一框架。给定一个输入图像

和一个语言指令

，模型将图像和语言指令作为输入，输出语言响应

和分割 Mask

。这里，

是输入文本 Token 的长度，

是输入和输出文本 Token 的总长度。

和

分别表示图像的高度和宽度。详细的输入格式示例可以在图1 (a) 和 (b) 中找到。

3.2 架构

在本节中，作者提出了X-SAM，一种用于任意分割的统一分割MLLM。如图2所示，它包括双编码器、双 Projector 、LLM、分割连接器和分割解码器。

picture.image

双编码器。X-SAM中有两个编码器，一个图像编码器和一个分割编码器。图像编码器

用于提取全局图像特征

，而分割编码器

提取细粒度图像特征

。图像编码器提取的特征是全局的，有助于图像理解任务，而分割编码器提取的特征是细粒度的，有助于图像分割任务。作者采用SigLIP2-

（Tschannen et al. 2025）作为图像编码器，SAM-L（Ke et al. 2023）作为分割编码器。

双 Projector 。为了增强大语言模型对图像的理解，作者在将特征传递给大语言模型之前，将图像编码器和分割编码器的特征进行拼接。具体来说，分割编码器的特征太大，无法直接由大语言模型处理，因此作者利用像素重排操作来减小其空间尺寸。然后，作者通过MLP Projector

将减小后的特征投影到语言嵌入空间

中。对于图像编码器的特征，作者直接通过MLP Projector

将其投影到语言嵌入空间中，使得

和

。然后，作者将双 Projector 的特征和语言嵌入进行拼接，并输入到大语言模型

中。

对于图像分割任务，细粒度多尺度特征对于分割解码器准确预测分割 Mask 至关重要。SAM中的分割编码器输出是单尺度（1/16）且空间分辨率降低的。为了获得多尺度特征，作者设计了一个分割连接器

，以连接分割编码器和解码器。如图3所示，作者使用0.5尺度的像素重排（Chen等人，2024）进行块合并，将编码器中最后一个特征的空间尺寸减小到更小的尺度（1/32）。作者还使用2.0尺度的像素重排进行块扩展，将最后一个特征的空间尺寸增加到更大的尺度（1/8），从而为分割解码器提供多尺度特征。

picture.image

分割解码器。Segment Anything模型（SAM）能够根据输入文本或视觉 Prompt 分割单个目标，但在单次推理中无法分割所有目标。为了一次性分割所有目标，作者替换了其原始分割解码器，采用了(Cheng等人2022a；VS等人2024)中的方法。分割解码器

根据输入潜在嵌入

或输出潜在嵌入

、多尺度分割特征

以及一组 Mask Query token加上

token嵌入进行 Mask 及其类别概率的预测，该嵌入将LLM输出与分割解码器连接起来。值得注意的是，作者引入了潜在背景嵌入来表示所有任务中的"忽略"类别，从而将所有图像分割任务统一到一个模型中。

3.3 训练

为提升多样化图像分割任务的性能，作者提出了一种新颖的多阶段训练策略。该训练策略包含三个阶段：分割器微调、对齐预训练和混合微调。

第一阶段：分割器微调。随着分割解码器的重新设计，作者需要训练分割器以适应在单次前向传递中分割所有目标。作者遵循(Cheng等人2022a)中的训练流程，该流程在流行的COCO-Panoptic(Kirillov等人2019)数据集上训练模型。为了在训练过程中实现更快的收敛，作者在使用较低学习率训练分割编码器时解冻分割器中的所有参数。训练目标

与(Cheng等人2022a)中相同，定义为分类损失

、 Mask 损失

和dice损失

的总和。

阶段2：对齐预训练。为了对齐语言嵌入和视觉嵌入，作者遵循(Liu et al. 2023b)的方法，在LLaVA-558K数据集上执行对齐预训练。作者保持双编码器和LLM参数冻结，仅训练双 Projector 。通过这种方式，图像嵌入和分割嵌入可以与预训练的LLM词嵌入对齐。对齐预训练的训练目标是一个自回归损失

。

其中

是输入序列

，

是输出序列

RLD，其中 L = P + N 表示输出序列的长度，

表示LLM的隐藏层大小。

是LLM中的一个可训练参数，作者仅计算生成文本的损失。

阶段三：混合微调。X-SAM以端到端的方式在多个不同任务的数据集上进行协同训练。对于图像对话任务，作者采用在MLLM训练中常见的自回归损失

。对于分割任务，作者不仅使用分割器训练中的分割损失，还向训练目标中添加了自回归损失。得益于统一的公式表述和简单的训练目标，跨不同任务的端到端混合微调可以在统一的框架内进行。混合微调的训练目标可以表述为：

4 实验

4.1 实验设置

数据集与任务。对于分割器微调，作者在COCO-Panoptic（Kirillov等人，2019）数据集上进行训练。对于对齐预训练，作者使用LLaVA-558K（Liu等人，2023b）数据集。对于端到端混合微调，作者将一个图像对话数据集和五种类型的图像分割数据集纳入训练过程。为了平衡这些多样化数据集上的训练数据，作者设置训练轮数为1，并使用数据集平衡重采样调整不同数据集的重采样率。训练后，X-SAM能够执行多种任务，包括图像对话、通用、指代、推理、GCG、交互和VGD分割。此外，X-SAM支持开集（OV）（OV-语义、OV-实例、OV-全景）分割，使其能够分割输入 Prompt 中定义的所有目标，即使这些目标以前从未见过。请注意，COCO-VGD是作者提出的VGD分割数据集，它基于COCO2017数据集构建。数据集的详细信息在附录A.1中呈现。

评估指标。作者进行了广泛的实验来评估X-SAM的性能。对于通用分割和开集分割，作者分别使用PQ、mIoU和mAP作为全景分割、语义分割和实例分割的主要指标。对于指代分割和推理分割，作者采用cIoU和gIoU作为指标，遵循(Zhang et al. 2024d)。对于GCG分割，作者使用M、C、AP50和mIoU作为指标，遵循(Rasheed et al. 2024)。对于交互式分割，作者使用mIoU和cIoU，同样遵循(Zhang et al. 2024d)。对于VGD分割，作者使用AP和AP50。对于图像对话，作者采用常见MLLM基准的分数作为主要指标，遵循(Liu et al. 2023b)。

实现细节。作者采用XTuner（Contributors 2023）代码库进行训练和评估。在分割器微调过程中，作者训练所有参数，将批处理大小设置为64，并使用1e-5的学习率对SAM编码器进行训练，使用1e-4的学习率对其他参数进行训练。训练轮数设置为36。对于对齐预训练，作者仅训练双 Projector 参数，批处理大小为256，学习率为1e-3，训练一轮。对于端到端混合微调，作者训练所有参数，将批处理大小设置为64，使用4e-6的学习率对双编码器进行训练，使用4e-5的学习率对其他参数进行训练，训练一轮。所有训练均在16块A100 GPU上进行。对于图像对话评估，作者使用VLMEvalKit（Duan et al. 2024）代码库在MLLM基准上进行性能评估。对于分割任务评估，作者遵循相应论文和代码库中描述的设置。更多实现细节请参见附录A.3。

4.2 主要结果

作者对七个分割任务进行了广泛的评估，包括通用分割、开集分割、指代分割、推理分割、GCG分割、交互式分割和VGD分割。

总体而言在表2中作者将X-SAM与当前的分割特定模型和MLLMs进行比较 X-SAM展现出最全面的性能它在通用分割方面达到了与当前最佳技术相当的性能并且在其它基准测试中使用单个模型实现了最佳性能 X-SAM为图像分割基准测试设定了新的当前最佳技术记录每个任务的详细结果将在下文讨论

引用分割。作者在RefCOCO、RefCOCO+和

上评估了X-SAM，结果如表3所示。X-SAM在RefCOCO、

和

的验证集上分别比PSALM（Zhang et al. 2024d）高出1.5% cIoU、5.1% cIoU和10.0% cIoU。与Sa2VA-8B（Yuan et al. 2025）相比，X-SAM在更小的模型尺寸下实现了更好的结果。它在RefCOCO、

和RefCOCOg上分别取得了3.5% cIoU、1.8% cIoU和5.1% cIoU的性能提升。

GCG分割。基于对话生成需要详细的图像和像素级理解，要求多模态语言模型将带标注的目标与其分割 Mask 进行关联。如表4所示，X-SAM与先前方法相比实现了显著的性能提升，并在验证集和测试集上均取得了最佳结果。在图像级理解方面，X-SAM在验证集上将GLaMM（Rasheed等人，2024）的性能提高了0.2%的METEOR和3.2%的CIDEr，在测试集上将性能提高了0.5%的METEOR和4.8%的CIDEr。在像素级理解方面，X-SAM在验证集上将OMG-LLaVA（Zhang等人，2024c）的性能提高了3.3%的AP和3.9%的mIoU，在测试集上将性能提高了4.3%的AP和4.3%的mIoU。

VGD分割。视觉基础分割需要理解视觉 Query ，要求多模态语言模型（MLLM）理解视觉模态并分割所有相关实例。表5展示了VGD分割结果。由于VGD分割是作者的新提出任务，作者按照X-SAM的设置评估了PSALM（Zhang等人2024d）。X-SAM在Point、Scribble、Box和Mask视觉 Prompt 上分别比PSALM高45.9% AP、45.9% AP、45.8% AP和47.4% AP。

picture.image

其他分割和对话基准测试的更多结果和讨论在附录A.5中提供。

4.3 滑动

作者对混合微调、双编码器、多阶段训练和分割器架构进行了消融研究，由于篇幅限制，仅呈现了部分基准测试结果。

混合微调。作者消融了混合微调对X-SAM性能的影响。如表6所示，混合微调提升了在领域外COCO基准测试上的性能，展示了X-SAM的鲁棒分割能力——例如，在A150-OV上提升了6.0%的AP，在Reason-Val上提升了8.9%的gIoU。然而，由于在多源训练中平衡性能的挑战，这导致了在COCO-Pan上性能下降了0.8%。

picture.image

双编码器。作者移除了X-SAM中双编码器的设计。如表7所示，采用SAM或Swin编码器的双编码器均有助于VGD分割，分别在对COCO-VGD的评估中达到了

AP和

AP。此外，采用SAM编码器的双编码器在GCG-Val和A150-OV上的性能始终得到提升，而缺乏鲁棒分割能力的Swin编码器仅在对A150-OV的评估中提供了微小的改进，甚至在GCG-Val上产生了负面影响。

picture.image

多阶段训练。作者消融了多阶段训练策略的影响。如表8所示，S1分割器微调阶段提升了分割能力，在COCO-Pan数据集上PQ提升了9.3%，在A150-OV数据集上AP提升了1.5%。同时，S2对齐预训练阶段增强了图像理解能力，在Conv.-MMB上额外提升了2.1%的准确率。通过整合这些阶段，X-SAM在图像分割和理解方面展现了显著的进步，证明了其在处理复杂视觉任务上的有效性。

picture.image

分割器架构。作者通过执行12个epoch的分割器微调来消融分割器架构的影响。如表9所示，M2F解码器带来了大幅提升，以

的PQ作为M2F的有效设计。卷积连接器表现优于MLP连接器，因为卷积的空间感知性有助于分割，并且多尺度通过更多样化的尺度特征进一步提升了性能（

PQ）。

picture.image

更多消融实验结果可参见附录A.6。

5 结论

在这项工作中，作者提出了X-SAM，一种统一的分割多模态语言模型，将分割范式从“分割任何事物”扩展到“任何分割”，将所有图像分割任务集成到一个模型中。X-SAM能够处理MLLM中的各种多模态输入，包括文本和视觉 Query 。此外，为了使MLLM具备视觉接地感知能力，作者引入了一种新的分割任务——视觉接地分割（VGD）分割，进一步扩展了统一分割模型的能力。作者在所有图像分割任务上进行了广泛的实验，X-SAM在各个任务上均实现了单模型的最优性能。

参考

[1]. X-SAM: From Segment Anything to Any Segmentation