点击下方卡片,关注 「AI视界引擎」 公众号
在数字病理学中,精确的细胞核分割至关重要,但这一过程受到组织类型、染色协议和成像条件的多样性挑战。最近,分割任何物体模型(SAM)在自然环境场景中展现了卓越的性能,并且对医学成像的适应能力令人印象深刻。尽管有这些优势,但依赖劳动密集型的手动标注作为分割提示严重阻碍了它们在临床上的应用,特别是对于包含大量细胞核的图像分析,密集的手动提示在实际中并不可行。为了克服当前SAM方法的局限性同时保留其优势,作者提出了一个无需提示的通用细胞核分割SAM框架(UN-SAM),提供了一种具有卓越泛化能力的全自动解决方案。具体来说,为了消除对每个细胞核进行手动标注以生成提示的劳动密集型需求,作者设计了一个多尺度的自我提示生成(SPGen)模块,通过自动生成高质量的 Mask 提示来指导分割任务,从而彻底改变临床工作流程。此外,为了使SAM在各种细胞核图像之间发挥泛化能力,作者设计了一个领域自适应调整编码器(DT-Encoder)来无缝融合视觉特征、领域通用知识和领域特定知识,并且进一步设计了一个域 Query 增强解码器(DG-Decoder),通过利用可学习的域 Query 来在不同的细胞核领域中解码分割。广泛的实验证明,UN-SAM在细胞核实例和语义分割方面具有卓越的性能,尤其是在零样本场景下的泛化能力,超过了现有技术水平。源代码可在https://github.com/CUHK-AIM-Group/UN-SAM获取。
I Introduction
在数字病理学领域,对组织病理学图像进行细胞核图像分割的任务是形态量化以及肿瘤分级评估的基础工作[1]。尽管这项任务至关重要,但它给细胞核图像分割任务带来了极大的难度[2, 3],这主要源于组织样本中细胞核的高度密集排列。特别是,那些专为自然图像设计的实例分割方法[4, 5],依赖于区域 Proposal 并且难以区分相邻的细胞核,因此牺牲了单个细胞核精确分割的可能性。
在这一具有挑战性的背景下,通过针对细胞核特性定制网络结构和监督策略,研究了经典的核图像分割算法[6, 7, 8, 9, 10]。这些研究在完全监督的均匀数据集下具有高准确度,并在推进该领域方面发挥了重要作用。然而,这些方法需要精心设计的后处理来识别核实例,这容易受到密集超参数搜索的影响。更严重的是,当面临日常临床实践中遇到的组织类型、染色协议和成像条件的固有的异质性时,这些方法的局限性变得明显。这种变异性对开发具有必要通用性和跨不同数据集准确性的分割模型提出了重大挑战。
分割任何模型(SAM)[11]的近期出现开启了一个新的分割时代,并有望以其超越传统限制的多样化能力来解决这些问题。SAM在自然图像场景中的显著有效性已经得到了很好的验证,展示了其在各种场景中的鲁棒性和适应性。在此基础上,SAM已经开始渗透到医学成像领域,并在具有多种场景潜能的医学图像分割中展示了其能力[12, 13, 14, 15]。此外,初步调查表明,SAM可以适应医学数据所提出的独特挑战,尽管对于临床部署还需要进一步的改进[16, 17, 18]。这些研究共同强调了SAM在多样化场景中革新医学图像分割任务的潜力。
尽管现有的医学SAM研究[16, 17, 18]已取得进展,但将SAM应用于核分割面临着两大障碍,包括对分割提示的手动标注依赖,以及在不同核图像间泛化的挑战。首先,医学SAM算法的一个限制是对手动标注的依赖,例如,基于点的提示和基于边界框的提示,来指导目标目标的分割解码[14, 15]。尽管SAM提供了一个自动模式,可以通过过滤输入图像的滑动窗口来生成基于边界框的提示[11],但当前的研究[12, 15]已经证明,这种简单的自动提示在医学图像分割中的表现不佳,即使简单的手动标注(例如,仅使用一对正负点)也难以确保医学SAM达到满意的分割预测。相比之下,大多数现有的医学SAM研究[14, 16]依赖于更多的手动标注,通过标记额外的点或边界框作为提示。广泛使用手动标注打断了临床工作流程,使这个过程资源密集,通常在临床环境中不切实际[19],特别是对于含有大量细胞的核图像,其成本极高。因此,在核分割任务中理想的SAM算法应消除对手动标注的需求,并基于基础模型的知识自动实现准确的核分割。
此外,核分割任务的异质性,包括不同的组织类型、染色协议和成像设备等众多领域[2],以及不同的任务要求,如语义分割和实例分割,这些都需要具有强大泛化能力的分割算法。然而,现有的医学SAM算法[14, 15]主要依靠其固有的能力将通用知识转移到医学成像中,例如,直接使用SAM[14]的图像编码器,并在下游医学数据上对其编码器进行微调[16, 17, 18]。因此,这些仅利用SAM知识的策略可能难以在不同医学数据集上实现高性能,特别是在图像多样性和复杂性尤为突出的组织病理学核分析中[2]。如图1所示,这些医学SAM[15, 16, 17, 18]在多样场景的核分割上不能令人满意,甚至在使用相同训练数据时,性能还不如经典的医学分割网络[20]。因此,为了在这样的多样化环境中提高泛化能力,SAM模型应该通过针对核分割任务进行定制设计来改进。
为了解决上述提到的核分割中的两大挑战,作者提出了通用无提示SAM(UN-SAM),以实现准确、自动的语义分割和实例分割,并具有卓越的泛化能力。具体来说,为了消除对劳动密集型核标注提示的需求,作者设计了一个多尺度自提示生成(SPGen)模块,以自动生成高质量的 Mask 提示,指导UN-SAM的分割解码。因此,SPGen模块可以简化临床工作流程,使高通量分析成为可能,而无需人工制作提示的劳动密集型过程。此外,为了释放SAM在各种核图像上的泛化能力,作者为UN-SAM设计了一个领域自适应调整编码器(DT-Encoder),以无缝融合视觉特征与领域通用和领域特定知识,并进一步设计了一个定制的领域 Query 增强解码器(DQ-Decoder)用于UN-SAM,通过利用可学习的领域 Query 来区分不同领域复杂语义和实例分割中的核类型和区域。在图1中,对不同核图像数据集的比较证明,所提出的UN-SAM在不同数据集上实现了卓越的泛化能力,与经典医疗分割方法[20]和医疗SAMs[15, 16, 17, 18]相比,具有显著性能优势。
本工作的贡献总结如下:
作者提出了一个无需提示的UN-SAM框架,为细胞核实例和语义分割提供了一个自动化的解决方案,并且该方案在跨不同数据集上展现出了卓越的泛化能力。
作者设计了一个多尺度的SPGen模块,用以自主生成高质量的 Mask 提示,并有效指导UN-SAM解码器,从而消除了对劳动密集型的细胞核标注的迫切需求。
作者设计了一个DT-编码器,以协调视觉特征与领域通用和领域特定知识,以及一个DQ-解码器,利用领域 Query 进行分割解码。这两个设计使得作者的UN-SAM能够泛化到不同的细胞核领域。
作者对多种细胞核图像数据集进行了广泛的实验,作者的UN-SAM模型在性能上超越了现有的顶尖细胞核分割方法和医学SAMs,具有卓越的零样本泛化性能。
2 Related Work
Nuclei Image Segmentation
核图像分割对于组织病理学图像分析至关重要,它可以帮助病理学家做出精确的诊断[3]。现有研究可以分为核语义分割和核实例分割。对于旨在识别核类型及其空间区域的语义分割,早期研究采用了U-Net结构[21]来实现自动核分割。为了提高网络在分割方面的能力,[22, 23, 24, 25, 26]通过循环和注意力机制进一步增强了U-Net的衍生模型。特别是,ConTrans [26]采用了双重注意力编码器来捕捉核细节的全局和局部信息,有效地识别了组织病理学图像中具有不同形状的核。
在进一步识别每个细胞核的实例分割领域[27, 28],现有研究[6, 7, 8, 9, 10]通过针对细胞核特性定制网络结构和监督策略,已经取得了显著进展。例如,HoVer-Net[6]利用水平和垂直距离图来辨别人病理学图像中单个核的边界。为了细化分割输出,CDNet[8]使用了方向特征图,而PROnet[9]则利用偏移图来增强核边界描绘。CPP-Net[7]则另辟蹊径,为每个细胞核生成互补的边界和距离 Mask ,通过这些 Mask 的综合利用促进细胞核的分离。尽管取得了进展,但这些细胞核实例分割方法[6, 7, 8, 9, 10]需要复杂的后处理,并且需要在每个细胞核图像数据集上进行训练,这些方法很难泛化到未见过的细胞核图像领域。相比之下,作为一个通用且无需预设的分割框架,作者的UN-SAM突破了数据集特定的限制,并在各种细胞核图像领域展现了卓越的泛化能力。
The SAM in Medical Imaging
段视模型(SAM)[11]已在各种场景下的图像分割中展现出了优势。通过利用稀疏(例如,点、框和文本)和密集(例如, Mask )提示,SAM得益于强大的特征提取能力[29],使它能够为多样化的图像分割任务执行零样本泛化。为了将SAM强大的分割能力迁移到下游场景,现有研究采用了不同的微调策略,包括直接微调图像编码器[30]或 Mask 解码器[14]。鉴于SAM参数量巨大,参数高效微调(PEFT)已成为一个热门的研究课题,例如低秩适应(LoRA)[31]和 Adapter [32]技术。最近的Conv-LoRA[33]提出了一种针对SAM的PEFT策略,并通过动态选择适当特征尺度促进了特征表示的归纳偏置。
在此基础上,许多医学SAM作品[14, 15, 16, 17, 18]被研究用于定制医学成像的分割能力。黄等人[15]探索了普通SAM[11]使用不同类型提示在医学图像分割中的能力,并进一步在大规模医学图像数据集上用点和边界框提示对SAM进行微调,其性能超过了45个公开数据集的最先进水平。MedSAM[14]收集了一个以CT和MRI扫描为主的多样化医学图像分割数据集,用于用边界框提示调整SAM。此外,SAMUS[16]采用了PEFT策略,并通过 Adapter 模块整合额外的卷积网络嵌入,以改进图像编码器的特征表示,用于下游数据集。对于手术图像,SurgicalSAM[34]引入了类别原型和指定目标类别,以类别信息引导分割。总的来说,大多数医学SAM要么在微调[30]时需要大量的计算资源,要么在推理时依赖手动标注提示[14, 15, 16, 17, 18],这对于每个图像包含数百或数千个细胞核的细胞核图像来说是不切实际的。作者的UN-SAM致力于通过定制的有效训练和自动提示生成机制来解决这一瓶颈,从而简化细胞核图像的分割过程。
在核分割领域,All-in-SAM [35] 利用通过傅里叶变换提取的高频图像信息来调整SAM的提示编码器和 Mask 解码器。以每个核的中心点作为提示,SPPNet [19] 计算中心点周围的邻域点作为辅助提示以促进分割。与针对单一核领域现有方法[19, 30, 35]不同,作者的UN-SAM充分利用了基础模型的知识,在不使用任何手动提示的情况下,在各种核领域实现了泛化。
3 Methodology
Overview of UN-SAM
如图2所示,作者提出了UN-SAM,以提供在多种核图像之间具有显著泛化能力的自动分割。对于来自第个域的核图像,作者首先使用域自适应调整编码器(DT-Encoder)生成增强域知识的图像嵌入。然后,这些嵌入被传递到多尺度自提示生成(SPGen)模块,该模块自主生成一组自生成的提示 Token 以指导核分割。接下来,域 Query 增强解码器(DQ-Decoder)利用相应域的 Query 嵌入来准确预测分割 Mask 。
总的来说,这个新颖的UN-SAM模型,包括DT-Encoder和DQ-Decoder,是专门为了解决在细胞核图像分割中模型在跨不同领域泛化的问题而设计的。同时,SPGen模块消除了与SAM框架[11, 14]相关联的提示的劳动密集型手动标注的需求。因此,这些关键模块构成了作者的UN-SAM,它增强了模型的泛化能力并适用于广泛的细胞核图像分割。
Domain-adaptive Tuning Encoder
近期的研究将SAM的卓越分割能力归功于其大容量的图像编码器[13, 29]。当将SAM应用于医学图像时,现有研究主要直接使用预训练的SAM编码器[14],或者在下游数据集上对其进行微调[16, 17, 18]。然而,这些完全依赖于一套图像编码器参数的研究对于核分割这一复杂任务来说并不是最佳选择,尤其是考虑到核图像领域的异质性。为了在不同领域提取用于核分割的判别性视觉特征,作者提出了一种领域自适应调整编码器(DT-Encoder),它采用一组可学习的领域通用和领域特定嵌入进行下游微调,并采用定制策略,使UN-SAM具有更优的分割性能。
具体来说,DT-Encoder遵循SAM编码器[11]中的ViT[36]架构,由个 Transformer 层组成。为了增强 Transformer 层的领域自适应能力,作者设计了一个领域旁路,以在多头自注意力(MSA)操作后处理图像嵌入,如图3所示。对于每个 Transformer 层,作者引入了一组可学习的领域共享嵌入和领域特定嵌入用于领域旁路,其中是细胞核领域的数量。请注意,作者仅在UN-SAM微调中更新可学习的和,而将SAM中的原始参数保持冻结。
在领域绕过的过程中,作者首先利用领域通用嵌入 处理图像嵌入 ,使用 个核心领域的通用知识,然后使用相应领域特定的知识增强图像嵌入 ,例如,使用第 个核心领域的领域特定嵌入 。之后,将领域绕过的输出添加到残差中以增强图像嵌入,如下所示:
其中 是经过层归一化(LN)操作后的多层感知机(MLP)。这种方式下,每个 Transformer 层中的域旁路通过引入少量的可学习参数,使得 DT-Encoder 能够在多种核图像之间进行泛化。
此外,为了在冻结SAM参数的同时为DT-Encoder提供足够的细胞核图像知识,作者设计了一个领域继承策略,用于领域共享嵌入,以充分利用细胞核图像分割的判别特征。当作者的UN-SAM逐个在不同领域上进行训练时,作者让下一个领域的领域共享嵌入从前一个领域继承,以保持在细胞核分割上的连续学习,如下所示:
因此,DT-Encoder可以充分利用核细胞图像知识,并使微调过程高效。相比之下,领域特定的嵌入用于相应核细胞图像的领域,这使得DT-Encoder能够适应不同的核细胞领域。这种方式,所提出的DT-Encoder可以释放UN-SAM的泛化能力,同时具备领域通用和领域特定的知识。
Multi-scale Self-prompt Generation
标准的SAM [11] 和医学SAM [14, 15] 在图像分割过程中需要手动注解作为提示,例如,点提示和边界框提示。在实际操作中,手动标记医学图像中的点甚至边界框在临床场景中是耗时且昂贵的,特别是对于含有众多细胞核的组织病理学图像。为了解决这个问题,作者提出了一个多尺度自我提示生成(SPGen)模块,该模块可以自动提供一系列具有多尺度知识的高质量自我提示,以促进细胞核分割任务。
如图2所示,所提出的SPGen模块首先将来自DT-Encoder不同层的图像嵌入作为输入,并进行多尺度融合以生成多尺度图像嵌入。为了实现这一点,作者在上采用具有不同步长的卷积层头,以生成不同尺度的图像嵌入,然后应用特征金字塔网络(Feature Pyramid Network, FPN)[37]从上到下整合多级特征。因此,生成的多尺度图像嵌入能够感知不同大小的细胞核,并为分割提示利用判别性表示。
在此之后,为了便于核分割的解码,SPGen模块通过筛选出高质量的前景区域来生成自我提示。首先,作者在多尺度图像嵌入上应用一个卷积头来预测前景区域。前景分割通过二进制交叉熵损失进行优化,如下所示:
其中 是地面真相的第 个标记,而 是图像嵌入的标记数量。Sigmoid函数 将 处理成预测的前景概率,分数越高意味着相应的标记在细胞核预测中起着更重要的作用。为了避免生成噪声提示并减少在 Mask 预测中的假阳性错误,作者动态保留概率高的标记,并过滤掉容易分类错误的低置信度标记,如下所示:
其中 是用来确定高质量前景标记的阈值。通过这种方式,所提出的SPGen模块能够生成一组高置信度的自提示标记集合 以促进细胞核分割,并消除对UN-SAM手动标注的需求。
Domain Query-enhanced Decoder
在标准的SAM [11] 和医学SAM [14, 15] 中的解码器采用了可学习的输出标记作为 Query 来生成相应的分割 Mask 。然而,使用同一组 Query 嵌入来处理不同领域中的细胞核图像是具有挑战性的。为了进一步促进UN-SAM在各种领域中的泛化能力,作者提出了一个域 Query 增强型解码器(DQ-Decoder),使用特定于领域的 Query 嵌入生成准确的分割 Mask 。
为了用前景提示增强图像嵌入,DQ-解码器接收来自SPGen模块的自我提示和来自DT-编码器的图像嵌入作为输入,并执行逐元素加法,即。同时,为了便于UM-SAM分割各种细胞核图像,作者设置了一组域 Query 嵌入,其中对应于第个域,且与具有相同的形状。因此,DQ-解码器首先基于域 Query 嵌入执行自注意力层,然后与提示增强的图像嵌入进行交叉注意力层来更新域 Query 嵌入,如下:
其中 表示矩阵乘法,位置编码 被插入以增强几何位置与类型之间的依赖关系。在MLP之后,DQ-解码器进一步采用反向交叉注意力层,用更新的领域 Query 嵌入 来更新图像嵌入 ,如下所示:
遵循标准的SAM [11],作者将上述过程的解码器块重复两次以获得更新的领域 Query 和图像嵌入。
随后,作者使用两个转置卷积层将域 Query 增强的图像嵌入上采样到目标分辨率。同时,作者通过一个跨注意力层用图像嵌入更新域 Query ,之后通过一个多层感知机(MLP)来调整通道维度,使其与上采样的图像嵌入一致。最终,DQ-Decoder通过执行上采样图像嵌入与第个域 Query 之间的点积来生成分割预测。通过这种方式,DQ-Decoder中的域信息不会相互干扰,这进一步提高了所提出UN-SAM的泛化能力。
Optimization Pipeline
作者在算法III-D中概述了UN-SAM在不同细胞核领域的学习流程。首先初始化UN-SAM,包括DT-编码器()、SPGen模块()和DQ-解码器(),特别是作者利用预训练的SAM [11]来初始化DT-编码器中的相应参数,并保持这些参数冻结。UN-SAM按顺序在不同细胞核领域上进行优化,在每个领域的末尾, 继承自前一个领域的参数。对于每个-th领域细胞核图像批次,DT-编码器生成领域自适应特征,然后SPGen模块提供自我提示作为分割的线索,最后DQ-解码器生成分割预测。在每个领域上的预测分割 Mask 由Focal Loss和骰子损失 [11]的加权组合进行监督,如下所示:
其中 是用来平衡这两个损失项的系数。通过优化 和 ,作者的UN-SAM在不需手动标注的情况下,实现了在不同领域间的精确分割并具有卓越的泛化能力。
IV Experiment
Datasets and Implementations
Iv-A1 Datasets
为了验证所提出的UN-SAM的有效性,作者采用了四个核分割数据集,包括DSB[2]、MoNuSeg[27]、TNBC[28]、SegPC[3]数据集,来进行全面的跨领域比较,以及一个额外的CryoNuSeg[38]数据集来评估零样本泛化能力。具体如下:DSB[2]数据集来源于2018年数据科学碗挑战,包含670张不同图像类型、多样细胞系、成像条件和染色协议的显微幻灯片。图像大小从到不等。MoNuSeg[27]是一个从多个器官收集的核分割数据集,包括乳腺、肝脏、肾脏、前列腺、膀胱、结肠和胃,包含44张H&E染色的分辨率的图像。TNBC[28]是一个来自三阴性乳腺癌患者的核分割数据集,包含50张分辨率为,在40倍放大镜下捕获的组织病理学图像。SegPC[3]是一个多发性骨髓瘤浆细胞分割数据集,包含498张标记有两类细胞质和细胞核的核图像,每张图像大小为或。CryoNuSeg[38]是一个来自10种不同器官的H&E染色组织冷冻切片核分割数据集,包含30张在40倍放大下捕获的的切片。作者将此数据集在模型训练中保持不可见,以评估零样本泛化能力。
Iv-A2 Implementation Details
作者在单个NVIDIA A800 GPU上使用PyTorch进行了所有实验。为了公平比较,作者用相同的训练设置和配置实现了所有核分割方法,其中所有SAM模型都使用ViT-H [36]结构作为图像编码器。作者使用批量大小为4的Adam优化器进行30个周期的优化。学习率初始化为,并使用指数衰减策略进行调整,其系数为。对于作者的UN-SAM,作者在SPGen中将前景阈值设置为,在训练期间将损失系数设置为。为了生成实例分割预测,作者使用OpenCV中的connectedComponents函数,从语义分割 Mask 中识别出每个核,没有附加任何花哨的功能。在比较中,医学SAM方法[15, 16, 17, 18]在作者UN-SAM相同的数据集协议下进行了微调并进行了评估。作者实现了这些医学SAM方法的两种模式,包括不使用手动标注的自动模式[11]和使用每个核实例质心作为点提示的提示模式。
Iv-A3 Evaluation Metrics
为了对核分割进行综合评估,作者在语义分割和实例分割方面采用了多种评价指标。对于核的语义分割,作者选择了Dice系数、平均交并比(mIoU)、F1分数和Hausdorff距离(HD)。对于核的实例分割,作者使用四个指标来比较性能,包括聚合的Jaccard指数(AJI)、检测质量(DQ)、分割质量(SQ)和全景质量(PQ)。除了HD之外,这些指标得分越高,表明分割质量越好。
Comparison on Nuclei Instance Segmentation
为了评估作者的UN-SAM在细胞核实例分割中的表现,作者将其与最先进的实例分割方法[4, 5]、细胞核实例分割方法[6, 7, 8]以及医学SAM[15, 16, 17, 18]在DSB、MoNuSeg和TNBC数据集上进行比较。除了将vanilla SAM[11]作为基础模型的 Baseline 外,作者还确保了公平比较,并对所有模型使用相同的训练集进行微调,以适应细胞核图像。首先,作者评估了在各个单一细胞核领域微调后所有模型的性能,具体见表1。作者观察到,在没有手动提示的情况下,微调后的SAM方法[15, 16, 17, 18]劣于细胞核实例分割方法[6, 7, 8]。相比之下,若将每个细胞核质心作为点提示,这些医学SAM显示出了基础模型的优势,例如,Med-SA[18]在MoNuSeg数据集上以1.37%的AJI增长超越了CPP-Net[7]。值得注意的是,作者的UN-SAM在不依赖手动提示的情况下,在不同领域的实例细胞核分割中取得了最佳性能,包括在各自数据集上分别达到78.75%、50.59%和59.48%的AJI。这些比较证明了作者UN-SAM的有效性,展示了其在不需手动标注的情况下,在多种细胞核分割数据集上的优越性能。
此外,为了评估在不同核域之间的泛化能力,作者在DSB、MoNuSeg和TNBC数据集上依次对UN-SAM和基于SAM的方法进行微调后,比较了它们的表现,如表格II所示。作者的UN-SAM在这几个数据集上展示了四种度量指标的压倒性泛化性能。当医学SAM无法获得手动提示时,作者的UN-SAM比排名第二的Med-SA [18]具有显著优势,例如,在DSB、MoNuSeg和TNBC数据集上,PQ分别提高了15.44%、18.37%和19.20%。即使与将核质心作为提示的医学SAM(表示为_point_)相比,作者的UN-SAM也取得了更优的性能,AJI和PQ的P值均小于0.005,超过了这些医学SAM模型[17, 18, 20]。作者在图4中进一步将作者的UN-SAM与最佳 Baseline 方法[18, 20]的定量结果进行了比较,并且作者的UN-SAM可以更准确地分割出具有更好边界的细胞核。这样,这些结果证明了作者的UN-SAM相对于医学基础模型在不同核分割数据集上的显著泛化优势。
Comparison on Nuclei Semantic Segmentation
为了对作者在核分割中的UN-SAM进行通用评估,作者进一步与先进的医学分割算法在细胞核语义分割方面进行比较。首先,作者在表3中展示了在各个单一核领域上微调的模型的性能比较。在医学分割方法中,nnU-Net [20] 在细胞核语义分割任务上取得了领先的结果,并且在手动提示不可用时也优于微调的SAM方法。相比之下,这些微调的SAM方法 [15, 16, 17, 18] 从手动提示中受益,并在经典医学分割方法上的性能表现突出,例如,Med-SA [18] 在TNBC数据集上比nnU-Net [20] 的Dice指数提高了2.05%。作者的UN-SAM进一步提升了SAM在核分割任务上的能力,并在这四个数据集上取得了压倒性的性能,最佳Dice指数分别为93.12%,84.17%,85.72%和89.01%。
此外,作者在表4中展示了在依次对这些四个数据集进行微调后,基于SAM的方法在不同细胞核领域的泛化能力比较。作者的UN-SAM在这四个细胞核图像领域的表现均最佳,这证实了在语义分割任务中泛化能力的优势。特别是,作者的UN-SAM在没有手动提示的情况下,超过了排名第二的Med-SA [18],在这四个数据集上分别实现了显著的Dice得分提升,分别为11.30%、19.29%、9.62%和13.47%。与采用点提示的医疗SAMs相比,作者的UN-SAM在大多数领域显示出超过2%的Dice优势。作者在图6中进一步详细阐述了语义分割的结果,这四个数据集由于不同的组织类型、染色协议和成像条件,揭示了显著的数据异质性。作者的UN-SAM生成了最佳的分割结果,特别是显著减少了细胞核的假阳性预测。这些比较验证了作者的UN-SAM在细胞核语义分割任务上的优越性,以及在不同细胞核领域更好的泛化性能。
Ablation Study
为了研究DT-Encoder 、SPGen模块和DQ-Decoder 的有效性,作者对四个核细胞数据集的语义分割进行了全面的消融研究,具体结果如表5所示。通过从UN-SAM中移除定制模块,微调后的SAM(第行)作为消融基准。分别引入DT-Encoder(第行)、SPGen(第行)和DQ-Decoder(第行)后,所有数据集的平均Dice得分分别提高了7.89%、1.93%和7.56%。作者进一步研究了结合DT-Encoder和DQ-Decoder(第行)的效果,结果表明在四个数据集上的性能更佳,Dice得分分别为92.63%、82.73%、83.33%、88.00%,mIoU分别为86.65%、70.53%、71.48%、81.02%。这一结果表明这两个改进可以促进不同核细胞域之间的泛化能力。通过比较第和第行与第和第行,带有SPGen的配置相较于SAM的手动提示编码器表现出具有竞争力的性能,克服了手动提示生成的繁琐过程,并促进了高通量分析的 临床工作流程。在此基础上,作者的UN-SAM(第行)同时采用DT-Encoder和DQ-Decoder来进一步解决这两个问题。通过这些消融实验,证明了定制的DT-Encoder、SPGen模块和DQ-Decoder在消除标注需求以及增强不同核细胞域之间泛化能力方面对UN-SAM在核分割中发挥了重要作用。
值得注意的是,在SPGen模块中的置信度阈值 对UN-SAM至关重要,它决定了高质量自我提示以指导分割解码。对于可能的值域 ,作者在DSB数据集上使用Dice、mIoU和HD指标进行网格搜索。如图5所示,当 为0.95时,作者的UN-SAM达到最佳性能,较低的阈值会对解码器造成干扰,而较大的阈值则无法为细胞核分割提供足够的提示信息。总的来说,所提出的SPGen模块配合适当的置信度阈值可以显著提升UN-SAM的性能,并消除对分割提示手工标注的依赖。
Comparison on Zero-shot Generalization
为了进一步验证作者UN-SAM的泛化能力,作者比较了医学基础模型(即表4中的模型权重)在CryoNuSeg [38]测试集上的零样本泛化能力。正如表6所示,作者的UN-SAM在医学SAMs中取得了最佳性能,具有压倒性的Dice分数80.42%和mIoU 67.67%。特别是,与所有医学SAMs [15, 16, 17, 18](无论是否有人工提示)相比,作者的UN-SAM显示出具有统计学意义上的性能优势,P值<$0.005。此外,作者展示了在CryoNuSeg训练集上微调的医学分割方法,即U-Net [21]和nnU-Net [20]。值得注意的是,作者的UN-SAM优于微调后的U-Net [21],并且正接近微调后的nnU-Net [20]的性能上限。这些比较证实,作者的UN-SAM具有卓越的零样本泛化能力,有更大的潜力应用于临床场景。
V Conclusion
在这项工作中,作者提出了UN-SAM框架,以实现在数字病理学领域内细胞核分割的通用解决方案。特别是,作者提出了DT-Encoder,旨在在图像编码器内调和领域通用特征与领域特定特征,这推动了SAM在多种细胞核数据集上的泛化潜力。接着,作者设计了SPGen模块,以自主产生高质量 Mask 提示,而不是手动标注提示,从而提高临床工作流程的效率。此外,作者进一步提出了DQ-Decoder,利用可学习的领域 Query 进行不同细胞核领域的分割解码。广泛的实验证实了UN-SAM相对于现有医疗SAM的优势,通过省去了劳动密集型的手动标注,并提供了一种无与伦比的零样本学习能力,轻松适应不同的领域。
参考
[1].UN-SAM: Universal Prompt-Free Segmentation for Generalized Nuclei Images.
点击上方卡片,关注 「AI视界引擎」 公众号