点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
【导读】华南理工大学计算机学院高泛化人工智能与网络安全团队 长期深耕于人工智能安全,近期联合广东省人民医院和不列颠哥伦比亚大学聚焦于病理学数字影像无监督分割,产出工作已被CV顶会ICCV 2025 接收。
目前,病理学图像分割研究面临对像素级标注数据的需求挑战,这促使无监督语义分割(USS)作为可行替代方案受到越来越多关注。本文提出了一种基于上下文的重叠区域一致性约束(OPCC)方法 ,通过利用局部重叠区域相似性与全局上下文相似性的一致性约束,实现相似环境下同一类别的表征一致性。此外,我们引入了跨层自注意力融合(ILSAF)模块,该模块结合多头自注意力机制和跨层重要性加权技术,生成具有上下文感知性和语义区分性的像素表征,从而显著提升像素聚类精度。在两个公开组织病理学图像分割数据集上的大量实验表明,我们的方法以明显优势超越现有最先进方法:在两个数据集上,mIoU较先进方法分别提升了5.74和8.38个百分点。
unsetunset1.引言unsetunset
语义分割是医学图像分析领域的重要研究课题,通过精准勾画肿瘤或病灶区域,为疾病诊断和治疗方案制定提供关键支持。本文聚焦于组织病理学图像的无监督语义分割,旨在仅使用未标注数据捕捉组织切片的结构特征。近期,STEGO提出了一种将特征学习与聚类压缩分离的方法,通过利用大规模预训练骨干网络和对比目标函数来提炼图像块之间的语义关联。基于这一思路,后续研究主要致力于获取更具语义意义且更紧凑的图像块特征以辅助后续聚类任务。但我们注意到这些方法存在局限性——它们不可避免地依赖于冻结的骨干网络特征,而因为缺乏特定任务的上下文信息,这种特征在数字病理学超声图像USS任务中并不适用。
为解决这一问题,本文提出基于上下文的重叠图像块一致性约束(OPCC),旨在实现相似环境中的类别表征一致性。临床经验表明,上下文信息在病理图像解读中起着关键作用,我们观察到:通过参考周围区域的结构和形态特征,能更准确地揭示病变特征。具体而言,病理图像的表征依赖其上下文环境:当处于相似环境时,相同组织应呈现更相似的表征;而不同上下文则会产生差异化的表征。 基于这一发现,我们的OPCC模块从输入图像中提取重叠子图像。在使用主干网络对这些子图像进行编码后,我们获得了局部重叠区域和全局上下文的表征。随后,利用重叠区域表征的相似性作为先验知识来指导主干网络,确保局部重叠区域的相似性与全局上下文的相似性保持一致。这种机制促进了结构相似图像间全局特征的统一性,有助于在相似环境中维持类别表征的一致性,并促进像素级聚类 。 此外,为了获得更鲁棒且具有区分性的像素级表征,本研究提出了一种基于注意 力机制的多层特征融合方法,称为层间自注意力融合(Inter-Layer Self-Attention Fusion, ILSAF)。具体而言,本研究引入具有多个固定注意力头的自注意力机制,从不同角度计算特征之间的相关性。此外,本研究设计了一种重要性加权融合机制,根据每个位置和每个样本的具体特征动态调整聚合过程,从而确保融合后的特征既能够捕捉全局上下文信息,又能保留局部细节。
总体而言,本研究的主要贡献如下:
- 提出了一种基于上下文的重叠图块一致性约束模块,以在结构相似的图像中实现一致的全局上下文特征编码,增强骨干网络提取一致性上下文信息的能力。
- 提出了一种层间自注意力融合模块,该模块自适应地融合多层级特征,以获得具有上下文感知能力和语义区分性的像素级表征。
- 在两个公开组织病理图像分割数据集上进行广泛实验,结果表明本研究的方法在无监督语义分割任务中达到了当前最先进的性能。
unsetunset2.相关工作unsetunset
语义分割分类器能够将图像中的每个像素归类到特定类别,这一技术在多种场景中具有广泛应用。然而,训练语义分割模型需要大量像素级标签,而获取这些标签的成本较高。为此,许多研究者探索了无需标签的语义分割模型训练方法。早期研究主要聚焦于基于不变性的像素聚类。例如,IIC 提出了一种基于最大化图像不同增强版本间互信息的新颖聚类目标函数;PiCIE 则提出了一个结合几何一致性作为像素级聚类归纳偏置的无监督语义分割(USS)框架。近年来,使用预训练模型进行聚类已成为主流方法。DINO预训练ViT 在USS方法中发挥关键作用,作为经典USS方案,其主干网络编码的语义相关特征可直接聚类生成分割图。在此基础上,STEGO通过引入新型对比损失函数,将特征学习与聚类优化分离,将无监督特征提炼为离散语义标签,实现了显著性能提升。HP则利用对比学习同时发现全局和局部隐藏正样本,确保丰富的语义关联性和局部语义一致性。EAGLE通过光谱技术(EiCue)和以对象为中心的对比损失函数,强调以物体为核心的表征学习。DepthG结合深度信息,通过深度特征相关性和三维最远点采样学习场景结构。ReCLIP采用可学习的参考文本输入和logit减法机制,显式建模并修正了基于CLIP的USS中固有的空间偏置和类别偏置,从而显著提升无监督语义分割性能。然而,尽管这些方法取得了性能提升,但固定骨干网络架构生成特征的空间上下文建模存在固有局限,阻碍了其在医学领域的进一步发展。
unsetunset3.方法unsetunset
本研究提出了一种无监督组织病理图像语义分割框架,其核心包括OPCC与ILSAF两个关键模块,如图1所示。首先,**输入图像经过重叠裁剪生成五个具有交叠区域的子图像。随后,这些子图像被输入至所提出的OPCC模块,通过利用重叠区域间的结构相似性作为先验,引导编码器
在跨图像的上下文特征编码过程中保持一致性** 。为了提升稳定性与泛化能力,采用指数移动平均(Exponential Moving Average,EMA)策略将主编码器参数同步至动量编码器
。在编码阶段,从编码器
提取多层特征表征,并输入至ILSAF模块,基于非可学习的多头自注意力机制与重要性加权策略,实现多层特征的融合,以构建具备上下文感知能力且语义区分性强的像素级特征表示 。最终,融合特征经压缩后输入聚类模块,完成像素级类别预测,得到最终的无监督分割结果。
3.1.预备知识
我们的方法基于STEGO框架,通过引入冻结的DINO预训练ViT主干网络
来提取图像特征。具体而言,输入图像
会被编码到更紧凑的特征空间中,生成特征图
,其中
表示特征维度,
和
分别代表特征图的高度和宽度。随后,包含线性变换与非线性变换的可训练分割头
会对这些特征进行进一步转换,生成特征编码
,其中
表示编码维度。
3.1.1.特征紧凑化
在训练过程中,我们引入特征相关性损失来构建更紧凑的特征编码。具体而言,给定输入图像
和
(其中
可以是
自身、
的K近邻点或随机选取),通过主干网络
和分割头
获取对应的特征图
和
,以及特征编码
和
。特征
与
之间的相关性计算公式如下:
其中
表示点积,
表示
范数。
与
之间的相关性通过公式
计算。随后计算对应蒸馏损失:
其中
是标量偏置超参数,用于调节相关项的影响强度。该损失函数旨在促使特征编码在语义相似区域保持高相关性,同时抑制虚假关联,从而生成紧凑且具有区分性的特征表示。
3.1.2.聚类
此外,引入具有
个参数化聚类中心
的簇头模型,其中
代表类别数量。特征向量
与聚类中心
之间的内积计算公式如下:
完成内积计算后,通过softmax函数生成簇概率图
。k均值聚类损失函数的计算公式为:
模型评估流程详见第4.2节。
3.2.重叠区域一致性约束
本研究的动机源于一个观察现象:当同一组织处于相似环境时,其表征应表现出更高的相似性;而在不同环境下则会产生差异化的表征。 基于这一观察,我们提出了一种重叠区域一致性约束(OPCC)模块,该模块通过利用输入图像中重叠子图像特征的相似性作为先验知识,从而增强局部重叠区域相似性与全局上下文相似性之间的协调性。
3.2.1.重叠区域提取
首先,给定输入图像
,我们对其施加5次裁剪操作,生成五个子图像:
这里
表示对图像
在区域
处应用的裁剪算子,其中center、TL、TR、BL、BR分别对应图像中心、左上、右上、左下、右下的子图像。每个裁剪后的图像
均为
形状。
3.2.2重叠区域相关性
接下来,这些裁剪后的子图像被输入梯度更新编码器
以获取特征表示。具体而言,对于每个裁剪区域
,我们计算
其中
表示对应于
的特征表示。
随后,我们从两个子图像的重叠区域中提取块级特征。设
为从图像
中裁剪出的重叠子图像对,其中
和
分别表示
和
中的块标记集合。重叠区域中的块表示为:
对于每个重叠块
,我们从两个特征图中提取对应的特征表示
:
接着,我们计算重叠区域对应块之间的余弦相似度。具体而言,每个重叠块
的相似度定义为:
其中
表示点积,
表示
范数。最终通过计算所有重叠块的相似度平均值获得重叠区域的整体相似度:
3.2.3.上下文信息编码
为有效捕捉上下文信息,我们在编码器
中引入上下文标记
,该标记作为全局表征,整合输入特征图的空间与语义信息。具体而言,我们在输入序列后附加
,再将其送入transformer层:
3.2.4.相似性一致性约束
随后,将获取的重叠区域相似度
作为先验知识,用于表征重叠子图像上下文的差异程度。为使上下文表征与该先验对齐,我们在
与
和
的上下文标记嵌入相似度之间引入
损失函数。设
表示上下文标记嵌入
与
之间的相似度,计算方式同公式等式
。重叠区域一致性约束损失定义为:
该损失函数使上下文相似度
与重叠区域
保持一致,确保结构相似的图像共享一致的全局上下文特征。
3.2.5.EMA更新主干网路
最后,通过指数移动平均(EMA)机制将
的参数更新至冻结的ViT框架
,其定义为:
其中
是控制更新速率的动量系数,在实际应用中设定为0.99。这种EMA更新机制使得
所学的上下文信息编码能力能够稳定迁移至无监督特征提取框架
,从而提升像素聚类的准确性。
3.3.层间自注意力融合
为了增强数字病理图像无监督语义分割对细粒度细节和语义信息的表征能力,我们提出了如图2所示的层间自注意力融合(ILSAF)模块。具体而言,首先从ViT框架
的最后三个Transformer块提取输出特征,记为
、
和
,其中
表示图像中的总补丁数,
表示特征通道数。为缓解不同层特征间的尺度差异,对每个特征图进行了通道归一化处理。
3.3.1.多头自注意力机制
如图2 (a)所示,为捕捉多层级特征间的交互关系,我们采用多个固定注意力头从不同维度计算特征相关性。首先将归一化后的特征堆叠成张量
(其中
)。随后应用固定线性投影生成查询矩阵
、键矩阵
和值矩阵
:
其中
初始化为单位矩阵。自注意力输出直接计算为:
最终得到
形状的特征。该过程能捕捉不同Transformer层内补丁间的相似性关系,并从多维度提取层间交互信息。随后将融合后的特征表示
沿第一维度展开,还原为单层特征
(其中
)。
3.3.2.层间重要性加权
如图2(b)所示,为进一步自适应区分各层特征的重要性,我们计算各层特征在通道维度上的范数,得到层间权重:
其中
为第
层每个补丁位置的
范数表示。最后,通过加权求和的方式对不同层
的特征进行融合:
其中
表示逐元素乘法。最终,对融合后的特征进行归一化处理和非线性激活操作。
3.4.模型优化
在获得融合特征
后,我们可通过公式
计算出分割特征编码
。由此,等式
中提到的对应蒸馏损失可表示为:
多头自注意力层间重要性加权最终训练目标可表示为:
其中权重参数
和
分别用于控制各损失项的贡献度,后续实验中设置为0.5和1。
unsetunset4.实验unsetunset
4.1.数据集
我们在两个公开数据集上评估所提出的方法。第一个数据集是肺腺癌(LUAD )组织分割数据集,第二个是乳腺癌语义分割(BCSS )数据集。
4.2.评估协议与指标
本研究在无监督、基于聚类的设置下对模型进行评估。具体来说,模型输出的是一个像素级的表示图,该表示图经过聚类处理后生成一个概率图,该概率图指示每个 像素属于各个聚类中心的可能性。经过 argmax 操作和上采样后,得到一个与类别无关的分割图。为了为该分割图分配语义标签,本研究采用Hungarian 匹配将整个验证集中的伪标签聚类与真实标签进行对齐。为了验证所提出方法的性能,并与当前最先进的方法进行比较,本研究采用均值交并比(mIoU)、频率加权交并比(FwIoU)以及平均像素准确率(mPA)作为评估指标。
4.3. 实现细节
我们提出的方法及对比实验均基于PyTorch 2.4.0框架,在NVIDIA GeForce RTX 3090显卡上使用CUDA 12.3进行实现。为确保公平性,我们选用ImageNet 数据集预训练的ViT-S/8作为主干网络。数据预处理方面,我们参照前人研究的方法,采用几何变换与光度变换相结合的方式。训练时输入图像分辨率为224×224,验证和测试阶段则调整为320×320分辨率。各方法均以16的批量大小进行单次训练周期。分割头采用Adam优化器,学习率设为5e-4;聚类头则使用5e-3。为筛选最优超参数,我们通过Wandb平台的Sweep智能搜索器对对比方法及本方法进行了50次贝叶斯超参数搜索。最终根据验证集上的平均交并比(mIoU)选择最佳超参数和模型,并在测试集上进行性能评估。
4.4.定量比较与分析
为验证所提出方法的有效性,我们在LUAD和BCSS数据集上将其与STEGO、EAGLE、HP、DepthG及ReCLIP等主流方法进行对比。表1和表2分别展示了验证集与测试集的实验结果。
4.4.1.LUAD数据集上的结果
从表1可见,我们的方法在多个指标上均取得显著提升。在验证集上,本方法在像素精度、mIoU和FwIoU指标上分别比最佳基线模型提升2.61%、10.26%和1.63%。 值得注意的是,现有方法在平衡各类前景类别性能方面存在明显短板,而我们的方法在TE和NEC类别的分割效果上展现出显著优势。在测试集上,本方法继续保持优异表现,像素分类精度、mIoU和FwIoU指标较最佳基线模型分别提升约6.7%、5.7%和5.3%。 我们的方法在TE和NEC类别的分割效果尤为突出,其中NEC类别的分割精度较次优方法提升了超过12个百分点。此外,LYM类别的分割性能也明显优于大多数基线方法。在所有对比方法中,ReCLIP和DepthG方法在测试集上实现了最低的mIoU值。我们推测这可能是因为它们额外整合了来自CLIP和深度估计的预训练知识,而这些知识可能与医学领域存在兼容性问题。这些结果凸显了我们提出的框架在无监督组织病理学分割任务中,能够有效捕捉稳健且具有区分性的表征特征。
4.4.2.BCSS数据集上的结果
我们在BCSS数据集上进一步验证了该方法的性能,定量分析结果详见表2。从验证集表现来看,我们的方法在所有评估指标上均展现出竞争力。在测试集上,本方法在各项指标上持续超越所有基线模型。相较于最优基线模型,我们实现了像素精度提升约9.73%、平均交并比(mIoU)提升8.38%以及平均模糊交并比(FwIoU)提升11.33%的显著进步。 在四个前景类别中,我们的模型均取得最佳交并比成绩,其中在STR和LYM类别中的表现尤为突出,分别以超过11.62%和4.75%的幅度超越第二名模型。
4.5.消融研究
为了进一步验证我们方法中不同组件的贡献,我们针对 LUAD 数据集进行了消融实验。实验通过逐步将重叠图块一致性约束与层间自注意力融合模块集成至基线框架,以评估其对分割性能的影响。结果总结于表3中。
4.5.1.OPCC的有效性
基于基准STEGO模型,我们发现其在验证集和测试集上的分割性能相对较低。引入重叠模块后,性能显著提升:验证集mIoU提高4.76%,测试集提升4.69%。这充分证明了OPCC在强化主干网络提取一致上下文信息能力方面的有效性。当整合EMA模块后,分割性能持续优化,验证集mIoU提升至30.07%,测试集达到32.53%。
4.5.2.ILSAF的有效性
同理,单独使用ILSAF模块即可实现显著性能提升:与基线相比,验证集mIoU提高8.87%,测试集提升3.76%。这突显了通过跨层自注意力机制利用多层级特征交互来增强无监督语义分割特征表征的优势。最终,OPCC与ILSAF双模块协同工作,在所有评估指标中均取得最佳表现,证实了这两个组件能形成协同增效以提升分割质量。
4.6.可视化比较分析
为评估本方法的性能,我们在LUAD测试集(图3)上与DINO、STEGO、EAGLE和HP等主流方法进行了视觉对比。基线方法存在不同程度的误判问题,特别是在第五行中引入了NEC和TAS等不存在的类别(该行真实数据仅包含TE和LYM)。相比之下,我们的方法以更高的精度准确识别了正确类别。BCSS数据集的可视化结果如图4所示。通过在训练过程中对齐上下文表征,我们的方法在保持结构连续性方面优于其他方法。例如,DINO和EAGLE会产生带有错误类别的碎片化结果,而我们的模型始终能生成连续的分割区域。这一性能差距表明,本研究的方法在组织病理图像语义分割任务中能够更好地保持拓扑完整性 ,进一步验证了其在无监督语义分割任务中的优越性。
unsetunset5.结论unsetunset
无监督语义分割是计算机视觉领域极具挑战性的任务。现有方法大多无法适配数字病理图像的超声诊断任务,这源于它们在编码数字病理图像特定上下文信息方面的能力有限。为解决这一问题,我们提出OPCC模块,用于捕捉结构相似图像间的一致全局上下文特征。同时,我们还设计了ILSAF模块,通过生成具有细粒度细节和语义信息的判别性像素表示来实现像素聚类。在两个公开病理图像分割数据集上的大量实验表明,我们的方法在医学超声诊断任务中展现出显著的优越性和有效性。
点击上方卡片,关注「AI视界引擎」公众号