本文主要解决了什么问题
-
- 将DINO自监督视觉模型家族的表示有效适配于分割任务仍然具有挑战性
-
- 现有方法通常依赖具有多尺度融合或复杂上采样的重型解码器,引入大量参数开销和计算成本
-
- 现有基于SAM的分割模型在冻结设置下计算开销大,不适合轻量级或资源受限的应用
本文的核心创新是什么
-
- 提出了SegDINO框架,将冻结的DINOv3 Backbone网络与轻量级解码器相结合
-
- 从预训练编码器中提取多级特征,将它们对齐到统一的分辨率和通道宽度
-
- 利用轻量级MLP头直接预测分割Mask,最小化可训练参数
结果相较于以前的方法有哪些提升
-
- 在医学图像数据集上:在TN3K数据集上Dice分数达到0.8318,比最佳基线提高3%;在Kvasir-SEG数据集上Dice分数达到0.8765,提高3.5%;在ISIC数据集上Dice分数达到0.8576,提高2.3%
-
- 在自然图像数据集上:在MSD数据集上IoU超过最佳方法5%;在VMD-D数据集上IoU相对提升超过19%;在ViSha数据集上IoU提升近1%
-
- 在效率方面:仅使用2.21M可训练参数就实现了最佳性能,保持53 FPS的推理速度,在性能、模型大小和推理速度之间实现了最有利的权衡
局限性
-
- 通过冻结编码器,特征对高度特定领域分布(如罕见病理病例)的适应性可能会受到限制
-
- 需要进一步的消融研究来更好地理解各个组件的贡献,如特征选择深度、重构策略和解码器设计
导读
DINO自监督视觉模型家族展现了显著的可迁移性,然而将其表示有效适配于分割任务仍然具有挑战性。现有方法通常依赖具有多尺度融合或复杂上采样的重型解码器,这引入了大量的参数开销和计算成本。在这项工作中,作者提出了SegDINO,一个高效的分割框架,它将冻结的DINOv3 Backbone 网络与轻量级解码器相结合。SegDINO从预训练编码器中提取多级特征,将它们对齐到统一的分辨率和通道宽度,并利用轻量级MLP头直接预测分割 Mask 。这种设计在保留基础特征表示能力的同时,最小化了可训练参数。在六个基准测试上的广泛实验,包括三个医学数据集(TN3K、Kvasir-SEG、ISIC)和三个自然图像数据集(MSD、VMD-D、ViSha),表明与现有方法相比,SegDINO始终实现最先进的性能。代码可在https://github.com/script-Yang/SegDINO获取。
1 引言
图像分割在图像分析中扮演着核心角色,为物体识别(Minaee等人,2021)、场景理解(Jain等人,2023;Wang等人,2024b)和计算机辅助诊断(Azad等人,2024;Wang等人,2024a;2025a)等下游任务奠定基础。尽管卷积网络(Long等人,2015;Ronneberger等人,2015)、基于transformer的模型(Strudel等人,2021;Li等人,2024)、基于diffusion的架构(Amit等人,2021;Wu等人,2024)和基于Mamba的框架(Ma等人,2024;Xing等人,2024)取得了显著进展,但这些方法在训练数据有限时往往难以实现强大的泛化能力(Zhang等人,2021)。最近基于SAM的分割模型(Kirillov等人,2023;Mazurowski等人,2023)提供了强大的zero-shot能力,但通常需要针对下游任务进行大量微调,导致效率低下(Zhang等人,2024)。此外,即使在冻结设置下,SAM模型的计算开销也很大,使它们不太适合轻量级或资源受限的应用(Zhao等人,2023)。因此,设计高性能且高效的分割框架仍然是一个开放的挑战。
随着自监督基础模型(Caron et al., 2021; He et al., 2022)的出现,预训练视觉 Backbone 网络在密集预测任务中变得越来越普遍。与从头开始训练编码器不同,最近的分割方法利用大规模预训练表示来捕获丰富的语义和结构先验(Zhou et al., 2024b)。与基于SAM的模型相比,自监督视觉模型通过保持相对适中的参数数量同时提取高质量的语义特征(Simeoni et al., 2025),实现了良好的平衡,使它们在分割任务中特别有吸引力。
在各种自监督基础模型中,DINO家族在广泛的视觉任务中展现了卓越的迁移能力(Wang等人,2025c;Gao等人,2025)。DINO(Caron等人,2021)和DINOv2(Oquab等人,2023)已被广泛用于表示学习(Zhu等人,2024;Wang等人,2025b),提供了适用于检测(Damm等人,2025)和分割(Ayzenberg等人,2024)的稳健多尺度特征。最近,DINOv3(Simeoni等人,2025)在预训练策略和架构优化方面引入了显著改进,实现了更强的不变性和可扩展性,并确立了自己作为最先进的预训练 Backbone 网络的地位。
然而,将基于DINO的表示有效调整用于分割任务仍然是一个非平凡的挑战。现有方法通常采用相对较重的解码器,如多尺度融合模块(Gao等人,2025)或复杂的上采样流程(Yang等人,2025),这些引入了大量的参数开销和计算成本。这种解码器复杂性因此抵消了冻结的预训练编码器的效率优势,并对在资源受限环境中的部署构成了障碍(Xie等人,2021)。
为解决这些局限性,作者提出了SegDINO,这是一个将冻结的DINOv3主干与轻量级解码器相结合的分割框架。SegDINO利用DINO主干提取语义丰富的特征,并采用基于轻量级MLP的 Head 直接预测分割 Mask 。这种设计在保持基础编码器表示能力的同时,最小化了可训练参数的负担。在医学和自然图像分割基准上的大量实验表明,与 Baseline 相比,SegDINO实现了具有竞争力或更优的准确性,同时提供了显著的效率优势。
2 方法论
2.1 概述
如图2所示,输入图像被输入到一个预训练的、冻结的DINOv3模型中以提取多层特征。所选特征被轻微上采样到一个共同的空间分辨率,沿通道维度连接,并传递给一个轻量级解码器以生成最终的分割 Mask 。在训练过程中,只有解码器被更新。
2.2 编码器 Backbone 网络
作者采用预训练的DINOv3 Vision Transformer (Simeoni et al., 2025)作为编码器,并在整个训练过程中冻结其所有参数。给定输入图像
和 Patch 大小
,编码器将
划分为
个 Patch ,每个 Patch 被线性投影为
维的token表示。得到的 Patch -token矩阵表示为
。遵循DINOv3的设计, Backbone 网络是一个带有
个Transformer块的ViT。令
表示第
个Transformer块;token序列更新为
为了同时获取Low-Level结构和High-Level语义,作者从层的子集中收集中间token矩阵
对于每个
,作者直接从ViT输出中获取patch tokens
,并丢弃任何non-patch tokens(例如class或register tokens)。编码器的输出是multi-level token set
这些块 Token 特征被转发到轻量级解码器(见图2)以生成分割表示。冻结编码器可以稳定训练并产生可迁移特征,同时将可训练负担保持在轻量解码器头上。
2.3 L-DECODER
所提出的Light-Decoder遵循一种类似于(Ranftl等人,2021)中上采样和通道集成设计的改革策略,其中多级特征逐步对齐到共同的空间分辨率和通道宽度。令
表示重新构建的特征
从每个选定层
获得的特征图。这些特征沿着通道维度进行拼接以形成
融合表示
随后通过一个轻量级解码器
,该解码器实现为多层感知机(MLP),以生成最终的分割 Mask 。
其中
表示语义类别的数量。这种轻量级设计确保了高效训练,同时保持了用于密集预测的强大表示能力。
3 实验
3.1 DATASETS
医学图像数据集
作者在三个医学图像分割基准上评估SegDINO。TN3K (Gong et al., 2023) 是一个大规模甲状腺结节分割数据集,包含3,493张从多家医院收集的带有像素级标注的超声图像。KvasirSEG (Jha et al., 2019) 是一个源自结肠镜检查的息肉分割数据集,包含1,000张具有高质量专家标注的图像。ISIC (Codella et al., 2018) 是一个皮肤病变分割基准,提供了2,750张针对病变边界进行标注的皮肤镜图像,涵盖了广泛的病变类型和采集条件。
自然图像数据集
作者在三个涵盖镜像和阴影分割任务的代表性基准上进行了实验。MSD (Yang et al., 2019) 是一个基于静态图像的镜像分割数据集,包含来自不同场景的4,018张标注图像,如室内镜子、商店橱窗和车辆后视镜。VMD-D (Lin et al., 2023) 是第一个大规模视频镜像检测数据集,包含269个视频(14,988帧)的高分辨率标注,捕捉了包括相机运动、光照变化和多镜像在内的具有挑战性的动态条件。VISHA (Chen et al., 2021c) 是广泛使用的视频阴影检测基准,提供了11,685个带有细粒度标注的视频帧。
3.2 实现细节
实验设置。对于每个数据集,作者遵循组织者提供的官方训练-测试分割以确保公平比较。所有图像都被调整为
的大小,以保持模型间一致的输入分辨率,并使用与DINOv3 (Simeoni et al., 2025)中相同的均值和标准差参数进行归一化。作者使用PyTorch框架(Paszke et al., 2019)实现所有实验。模型使用AdamW (Loshchilov & Hutter, 2017)进行优化,学习率为
,权重衰减为
。采用交叉熵损失作为训练目标。训练进行50个周期,批大小为4。对于SegDINO,DINO Backbone 网络被冻结,仅更新解码器参数。在本工作中,作者专门采用DINOv3-S Backbone 网络,从中提取第3、6、9和12个Transformer层的中间特征。所有实验在配备四块NVIDIA RTX A6000 GPU的云平台上运行。
评估指标。对于医学图像数据集,作者采用Dice相似系数(DSC)和IoU来测量预测与真实标签之间的重叠度,同时使用95%分位数Hausdorff距离(HD95)来评估边界定位准确性。对于自然图像数据集,作者采用IoU(IoU)、像素准确率(Accuracy)、F度量
(Lin et al., 2023)、平均绝对误差(MAE)和平衡错误率(BER)来评估SegDINO。对于阴影分割,作者另外报告阴影-BER(S-BER)和非阴影-BER(N-BER)以进行类别特定评估(Vicente et al., 2017)。
3.3 与现有方法的比较
医学图像基准测试比较。作者将SegDINO与多种最先进的分割模型进行比较,包括U-Net (Ronneberger et al., 2015)、SegNet (Badrinarayanan et al., 2017)、R2U-Net (Alom et al., 2018)、Attention U-Net (Oktay et al., 2018)、TransUNet (Chen et al., 2021a)、U-NeXt (Valanarasu & Patel, 2022)和U-KAN (Li et al., 2025)。
如表1所示,两种变体在TN3K、Kvasir-SEG和ISIC数据集上都取得了一致的改进。在TN3K数据集上,SegDINO取得了0.8318的最佳Dice分数,超越了最强的竞争对手TransUNet,在DSC上提高了
,在IoU上提高了
,并将HD95从23.95降低到18.62。在Kvasir-SEG数据集上,SegDINO以0.8765的Dice分数和0.8064的IoU取得了最高性能,比第二好的SegNet在DSC上高出
,在IoU上高出
,同时将HD95从25.89降低到20.80。在ISIC数据集上,SegDINO再次领先,Dice分数为0.8576,IoU为0.7760,比最佳 Baseline U-KAN在DSC上提高了
,在IoU上提高了
,并将HD95从23.57降低到17.80。
自然图像基准测试比较
作者在三个代表性的自然图像分割基准测试上进行了全面比较,包括用于静态镜像分割的MSD、用于动态视频镜像检测的VMD-D,以及用于视频阴影检测的ViSha。在MSD上,作者的SegDINO与SegFormer (Xie et al., 2021)、Mask2Former (Chen et al., 2021b)、MirrorNet (Yang et al., 2019)、PMDNet (Lin et al., 2020)、VCNet (Tan et al., 2022)、SANet (Guan et al., 2022)、HetNet (He et al., 2023)和CSFwinformer (Xie et al., 2024)进行了比较。在VMD-D上,作者与TVSD (Chen et al., 2021c)、STICT (Lu et al., 2022)、Sc-Cor (Ding et al., 2022)、Scotch-Soda (Liu et al., 2023)、HFAN (Pei et al., 2022)、STCN (Cheng et al., 2021)、GlassNet (Lin et al., 2021)、MirrorNet (Yang et al., 2019)、PMDNet (Lin et al., 2020)、VCNet (Tan et al., 2022)、HetNet (He et al., 2023)和VMD-Net (Lin et al., 2023)进行了评估。在ViSha上,作者与STM (Oh et al., 2019)、COS-Net (Lu et al., 2019)、MTMT (Chen et al., 2020)、FSD (Hu et al., 2021)、TVSD (Chen et al., 2021c)、STICT (Lu et al., 2022)、Sc-Cor (Ding et al., 2022)、Scotch-Soda (Liu et al., 2023)、SATNet (Huang et al., 2023)、CSFwinformer (Xie et al., 2024)、VGSD-Net (Liu et al., 2024)和TBGDiff (Zhou et al., 2024a)进行了基准测试。
在所有三个数据集上,SegDINO始终取得最佳结果,并以显著优势超越了现有方法。在MSD数据集(表2)上,它在IoU上超过第二好的方法HetNet超过
,在准确率上超过
,在
上超过
。在VMD-D数据集(表3)上,它超越了最强的竞争对手VMD-Net,在IoU上的相对提升超过
,在准确率上超过
,在
上超过
。在ViSha数据集(表4)上,SegDINO相比第二好的方法TBG-Diff在IoU上提升了近
,在
上提升了超过
,同时实现了显著更低的BER。
效率比较
如图2所示,SegDINO在医学和自然数据集上都展示了显著的参数效率,同时保持了卓越的分割性能。在Kvasir上,SegDINO仅使用2.21M可训练参数就实现了最佳性能。在VMD-D数据集上,SegDINO在同样紧凑的参数预算下再次提供了卓越的性能。此外,SegDINO保持了53 FPS的推理速度,超过了大多数基于transformer的方法,同时略低于基于卷积的架构。这些结果强调,SegDINO始终在性能、模型大小和推理速度之间实现了最有利的权衡,确立了其作为医学和自然图像分割的高效解决方案的优势。
4 结论
在这项工作中,作者介绍了SegDINO,这是一个轻量级分割框架,将冻结的DINOv3 Backbone 网络与一个基于MLP的最小化解码器相结合。作者的设计直接解决了将自监督表示适应分割任务的长期挑战,而无需依赖重型解码器。通过将多级patch tokens重新表述为统一表示并采用极轻的预测头,SegDINO在保持显著效率的同时实现了强大的分割准确性。
在六个基准测试上的广泛实验,包括三个医学数据集(TN3K、KvasirSEG、ISIC)和三个自然图像数据集(MSD、VMD-D、ViSha),一致地证明了SegDINO的优势。SegDINO在自然图像和医学图像任务上都以较大优势超越了现有的state-of-the-art模型,突显了通过轻量级解码流水线利用foundation model特征的有效性。值得注意的是,结果表明,即使是冻结的DINOv3 Backbone 网络,当与精心设计的轻量级解码器配对时,也能超越那些需要显著更多参数和计算的模型。这验证了作者的核心假设,即当foundation features被适当利用时,解码器的简单性并不一定会损害分割性能。
尽管有这些优势,SegDINO并非没有局限性。首先,通过冻结编码器,特征对高度特定领域分布(例如罕见病理病例)的适应性可能会受到限制。其次,虽然作者的结果证实了轻量级解码的好处,但需要进一步的消融研究来更好地理解各个组件的贡献,例如特征选择深度、重构策略和解码器设计。这些分析将为SegDINO的鲁棒性提供更深入的见解,并指导未来的架构改进。
参考
[1]. SEGDINO: AN EFFICIENT DESIGN FOR MEDICAL ANDNATURAL IMAGE SEGMENTATION WITH DINO-V3
