点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
医学图像分割由于严重的类别不平衡和解剖结构的频率特定分布而面临持续挑战。大多数基于CNN的传统方法在空间域内运行,难以捕获少数类信号,常受频率混叠和光谱选择性有限的影响。
虽然基于Transformer的模型在建模全局依赖方面功能强大,但往往忽略了细粒度分割所需的关键局部细节。
为克服这些局限性,作者提出了FreqUFNet,一种在频率域内运行的新型U形分割架构。yinqing-FreqU-FNet_2505包含一个频率编码器,该编码器利用低通频率卷积和基于Daubechies小波的下采样来提取多尺度光谱特征。
为了重建精细的空间细节,作者引入了一个具有自适应多分支上采样策略的空间可学习解码器(SLD)。
此外,作者设计了一个频率感知损失(FAL)函数来增强少数类学习。
在多个医学分割基准上的大量实验表明,FreqUFNet通过有效利用判别性频率带,在处理代表性不足的类别方面始终优于CNN和Transformer Baseline 模型。
unsetunset1 引言unsetunset
医学图像分割是临床诊断、疾病监测和治疗规划中的基础任务,在精确识别解剖结构方面发挥着关键作用。然而,多器官类别的分割精度严重依赖于从医学图像中捕捉复杂的解剖细节和多尺度特征,而现有方法仍未能充分应对这一挑战,从而凸显了本研究的动机。
传统的基于CNN的分割方法主要集中于在空间域中提取和处理特征。著名的模型如U-Net [20] 和
[32] 主要依赖于卷积结合传统的池化以及简单的特征拼接技术。nnUNet [14] 通过引入标准化的自适应框架来提升分割性能,该框架能够根据数据集特性自动优化数据预处理、模型架构和训练协议。尽管这些模型由于简单的池化操作能够提供稳定的抗空间频率混叠 [5] 效果。然而,直接将不同层级的上采样粗略特征和高分辨率特征相加,会导致分割目标内部出现模糊边界和类别不一致的情况。
基于Transformer的架构,以TransUNet [3] 和 Swin-UNet [2] 为例,已成为强大的替代方案,通过自注意力机制有效地捕捉医学图像中的全局上下文关系。然而,这些模型在没有额外数据集的情况下容易过拟合,需要在大规模标注数据集上进行预训练。更重要的是,当前的基于Transformer的方法未能解决不同解剖结构之间分割精度存在显著差异的问题,因为自注意力模块更侧重于全局上下文信息。此外,经验证据 [15] 表明,这些架构在临床分割任务中并未始终超越经典的UNet结构,尤其是在医学图像应用中常见的受数据限制的场景下。此外,大多数上采样方法将单卷积视为上采样工具,忽略了多分支上采样和点采样的效果,而这两者可能非常有效。
为解决这些关键问题,作者提出了频率域U-Net样式的融合网络(FreqU-FNet),这是一种创新性地在频率域内运行的全新架构,能够有效捕捉不同频段上的类特定特征。具体而言,编码器主要基于频率域,采用频率低通卷积结合基于Daubechies小波的降采样,显著减少了混叠伪影,同时保留了关键的解剖学信息,特别是对于在特定频率范围内表现出来的少数类。解码器是一个空间可学习解码器(SLD),集成了自适应分层多分支上采样,帮助网络恢复空间信息。该方法通过自适应加权不同上采样路径,将像素级细节和空间上下文信息相结合,这些上采样路径针对不同的频率分量进行了定制。为了使解码器能够提取语义特征并在空间域重建图像,作者引入了一个受深度监督[28]启发的空间辅助学习模块,以帮助该模块捕捉基本的空间域信息,同时使模型主要在频率域进行学习。相应地,作者修改了损失函数,以指导模型基于频率域进行分割。
总之,作者工作的贡献如下:
- 一种基于频率域的CNN分割网络,高效利用频率域信息,减少频率混叠,获得信号频率选择性并保留细节信息。
- 一种空间可学习解码器(SLD),集成了自适应分层多分支上采样组件,通过自适应上采样同时收集像素级细节和更广泛的空间上下文信息。
- 一种损失函数,结合了空间域和频域信息,能够指导模型在频域上学习并处理类别不平衡问题。
unsetunset2 相关工作unsetunset
2.1 医学图像分割
医学图像分割是计算机辅助诊断和手术规划中的基础任务。经典的U-Net架构[20]及其众多变体[13,16, 32]通过利用多尺度 Shortcut 和对称的编码器-解码器设计,在像素级预测方面取得了显著成功。Residual U-Net[30]和nnU-Net[14]等High-Level扩展通过优化的残差通路和自动配置调优进一步提升了性能,实现了跨多种医学成像模态的强泛化能力。然而,大多数基于卷积神经网络的架构严重依赖重复的卷积和池化操作,这不可避免地会导致空间分辨率损失和混叠伪影,从而阻碍精细结构的准确分割,尤其对于小型或不规则的解剖区域。
此外,直接对编码器和解码器特征进行求和的传统 Shortcut 可能造成层次语义融合的局限性,进而影响分割精度。基于Transformer的分割模型近年来发展迅速,这得益于其捕捉长距离依赖的能力。UNETR[12]和Swin-UNet[2]等架构利用自注意力机制有效建模全局上下文。TransUNet[3]和nnFormer[31]等混合模型结合了卷积神经网络的经验先验和Transformer的上下文建模能力。尽管如此,这些方法通常依赖于大规模预训练(例如ImageNet),这可能无法与医学图像数据的分布相匹配,并引入显著的计算开销,限制了其在临床环境中的实际部署。
2.2 基于频率的编码器
将频域信息融入已成为提升分割模型特征提取性能的潜在方向。基于小波的技术被广泛应用于降采样、感受野扩展和特征压缩。例如,两级小波变换被用于压缩高分辨率特征并扩大感受野[10, 11],而Haar小波变换则应用于语义分割降采样[29],逆小波变换用于上采样[17]。此外,研究者提出了小波池化来替代传统空间池化[8,16]。
尽管这些方法具有优势,但大多数将小波和频域分量视为辅助模块,并未将其整合到核心网络设计中。近期图像生成领域的研究表明,频域条件化架构能够增强细粒度结构控制[25]。受此启发,作者旨在将小波和频域感知机制直接统一到编码器路径中,从而在医学高分辨率图像中实现频谱压缩和判别性表征学习。
2.3 空间可学习解码器和损失函数
近期研究探索了轻量级且内容感知的上采样模块,以减轻棋盘状伪影并保持物体边界。动态上采样算子如FADE [19]和CARAFE [27]为解码器-编码器集成引入了可学习的融合策略。此外,自适应采样 [18]和频率感知滤波 [4]被用于增强重建图中结构保真度。这些方法在精细细节恢复方面表现出改进,尤其是在复杂的医学场景中。损失函数在指导分割性能方面也起着关键作用。
广义Dice损失 [26]通过加权少数区域贡献来解决类别不平衡问题,而Top-K交叉熵损失 [9]则鼓励从困难像素中学习。在近期工作中,可控生成框架采用专用解码器来增强高分辨率生成任务中的空间表达能力 [21],而姿态条件生成模型如IMAGPose [22]和渐进式扩散方法 [24]进一步突显了结构感知重建的重要性。此外,运动感知时序扩散模型 [23]表明,将先验知识注入解码器阶段能显著提升时序和空间一致性。这些见解促使作者设计了结合频率引导监督的空间可学习解码器,以在复杂成像条件下提高分割精度。
unsetunset3 提出方法unsetunset
受现有医学分割模型中空间频率混叠和类别不平衡分割性能挑战的启发,作者提出了一种基于频率域的FreqU-FNet创新性地将频率域抗混叠、分层自适应上采样和精细化特征融合方法集成到一个统一的基于CNN的分割架构中。图1提供了作者架构的说明性概述。
3.1 概述
给定输入的医学图像,作者的分割网络通过一个结合频率域处理和复杂多尺度特征整合的编码器-解码器架构提取特征。该架构由三个主要组件构成:一个具备抗混叠功能的基于频率域的编码器、一个具有自适应分层多分支上采样的空间可学习解码器(SLD),以及一个针对频率域学习进行优化的损失函数的空间辅助学习模块。
3.2 频域编码器
传统卷积神经网络池化操作引入了空间频率混叠,导致医学图像分割所必需的高分辨率细节丢失。作者的编码器通过结合频域低通滤波卷积(FLC)和Daubechies小波下采样来解决这一问题。
给定输入特征图
,作者首先应用Daubechies(db)小波变换进行多尺度分解。
这里,
表示输入特征图。
是Daubechies小波变换算子。
表示低频近似系数,而
、
和
分别表示水平、垂直和对角线高频细节系数。
重
构
其中
是通过逆小波变换重建的特征图,
表示逆Daubechies小波变换算子。
为了在频域中更精确地消除频率混叠,作者首先对特定子带进行小波逆变换,然后进行傅里叶变换:
表示二维傅里叶变换,
是特征图在频域中的表示。在频域中,作者设计并应用一个低通滤波器
来选择性地去除高频噪声和混叠伪影:然后作者使用 Mask
在频域中应用一个低通滤波器,
τ
τ
表示低通滤波器 Mask 在频率坐标
处的值。
代表频率图的中心坐标。
和
分别是频率图的高度和宽度,
是一个比例参数(
),用于控制保留的低频区域的大小。滤波后的特征通过以下方式转换回空间域:
这里
是二维傅里叶逆变换。
是频域特征图,
是低通滤波器 Mask ,
表示逐元素乘法,
是经过滤波后转换回空间域的特征图。
最后,作者重新应用Daubechies小波变换进行下采样,在频域处理后保留关键信息:
{ { X \_ { L L } ^ { d o w n } } , { X \_ { L H } ^ { d o w n } } , { X \_ { H L } ^ { d o w n } } , { X \_ { H H } ^ { d o w n } } \} = { \bf W } { \bf T } \_ { d b } ( X \_ { l o w } ) .
此处
是通过对空间域特征图
再次应用Daubechies小波变换
得到的近似子带和细节子带,实现有效下采样同时保留关键频率信息。总体而言,这种混合方法可以形式化为映射函数
在这个复合映射中,
表示结合小波分解
、小波逆重建
、傅里叶变换
、由
进行的低通滤波、傅里叶逆变换
以及最终的小波变换的整个频域编码器函数。通过这个映射,作者将小波变换的多尺度分析能力与傅里叶变换的全局频率滤波优势相结合,有效减少频率混叠伪影,同时保留特定频段中的关键解剖细节,尤其对于主要存在于特定频段中的少数类。实验表明,该方法在处理医学图像分割中的不平衡类别问题方面表现优异,比传统的空间域卷积神经网络更能捕捉少数类的信号特征。
3.3 空间可学习解码器 (SLD)
传统的基于CNN的解码器架构采用简单的双线性插值或反卷积进行上采样,这会导致关键细节的丢失或棋盘状伪影[1]。作者的SLD通过引入专门的自适应分层多分支上采样技术来解决这些问题,该技术通过动态组合的上采样路径实现了多尺度上下文聚合和细节保留。
SLD内部的自适应上采样组件采用两个互补的上采样路径,根据学习到的重要性权重进行自适应融合。给定输入特征图
,其中
为批次大小,
为通道数,
为空间维度,作者的模块生成上采样输出
,其中
为缩放因子,
为期望的输出通道维度。
原空间动态采样路径。原空间动态采样路径旨在直接从原始分辨率特征中学习细粒度的局部变形。首先,输入
沿通道维度被分割成
组,每组计算一个基础坐标网格
以初始化采样位置。接下来,
被送入两个并行的线性层,其中一层路径用于调整通道至
,其中
是采样点数量。另一层则用于调制偏移量。这两个路径随后通过像素重排乘积并 Reshape 为
。然后,将偏移量加到原始采样网格上,形成采样集。该过程可以简要表示为以下公式:
这里
是用于网格采样的学习坐标偏移量;
是基础采样网格;
和
是应用于解码器输入特征图
的两个平行全连接层;sigmoid
将偏移量归一化到
范围内;而元素逐个乘法
调制偏移量。随后,坐标
用于从输入特征中进行网格采样,并重新排列以生成上采样输出
空间-通道交换采样路径。空间-通道交换采样路径学习采用通道重排进行高效上采样。作者首先将特征分为
组。与
不同的是,这里作者先进行像素重排,将输入 Reshape 为
,通道被重排以降低维度并空间上采样。然后输入被上采样到
,在相同公式中,作者调制偏移量并生成
。之后,作者执行由
引导的可变形采样,将所有组连接在一起。最终输出是通过动态加权并组合两个路径的输出来生成的。
最后,一个
卷积层调整通道维度以匹配期望输出。双互补路径捕获特征的不同方面,自适应融合优化每个空间位置的信息流。
对于Spatial Learnable Decoder的每个阶段,解码器首先通过所提出的自适应分层多分支上采样扩展特征,然后将扩展的特征图与来自编码器在同一分辨率下的对应特征图进行拼接。这为后续的下采样提供了高分辨率细节,以进一步防止细节损失。拼接后,应用了两个
卷积。每个卷积后都跟随着实例归一化和LeakyReLU激活函数。实例归一化对每个样本进行归一化,有助于在批量大小变化时保持稳定性,而LeakyReLU为负输入保持一个小的梯度,从而稳定训练。
3.4 损失函数
为了更好地捕捉精细的解剖边界并解决医学图像分割中的类别不平衡问题,作者提出了一种结合频率感知损失(FAL)、多类别Dice损失和平均Top-K交叉熵损失的复合损失函数。
频率感知损失。为了强调高频率结构,如病变边缘,作者引入一种基于小波域的损失,该损失通过使用Daubechies基的离散小波变换(DWT)计算得到。预测概率图
和真实 Mask
都被分解为低频
和高频
分量:
其中
表示离散小波变换。频率损失定义为高频子带上的L1范数:
其中
表示子带数量(例如,对于2D情况为3:LH、HL、HH),范数在所有空间维度和通道上进行计算。作者省略LL(低-低)分量,因为它主要编码了常规损失已经捕获的粗略结构信息。
Dice Loss。作者采用多类Dice损失[7],定义为:
其中
和
分别是像素
和类别
的预测和真实类别概率Top-K交叉熵损失。为了强调困难样本,作者引入了平均Top-K交叉熵损失[9]。首先,计算每个像素的交叉熵:
其中
表示类别
的logit,
表示真实标签。Top-K损失定义为最困难的
样本的均值:
其中
表示前
个损失的索引集合。最终损失。总损失是三个组件的加权组合:
其中
是超参数。这种组合使模型能够同时关注类别平衡、边界精度和困难区域,最终提升分割的鲁棒性和准确性。
unsetunset4 实验与分析unsetunset
大量实验表明,FreqU-FNet在三个大规模数据集--MSD-Prostate、MSD-Pancreas和MSDLung上始终优于现有方法,突显了其卓越的泛化能力和分割精度。
4.1 数据集
MSD前列腺数据集 前列腺是男性生殖系统的一部分,位于膀胱下方,被初始尿道包围。其主要功能是产生前列腺液。多模态磁共振成像(MRI)有助于评估前列腺的解剖结构,包括中央腺体和外周区。这两个区域在前列腺中具有不同的解剖和生理特征。中央腺体主要包含前列腺导管,而外周区是前列腺癌最常见的部位。通过分割这两个区域,医生可以更精确地检测和评估前列腺疾病,如前列腺癌,以及其他可能影响前列腺健康的问题,从而实现早期诊断和治疗。该数据集的目标是从多模态MRI(T2、ADC)图像中分割中央腺体和外周区。作者选择这个数据集是因为该数据集需要分割两个相邻区域,这些区域在不同个体之间存在很大的变异性。
MSD胰腺数据集 胰腺癌是一种致命性恶性肿瘤。其早期症状通常不明显,导致在诊断时往往已进入晚期。胰腺癌的生存率极低,五年生存率通常低于10%。早期发现和诊断对于提高胰腺癌患者的生存率至关重要。CT和MRI等影像学检查在胰腺癌的早期诊断和分期中发挥着核心作用。通过影像分割,医生可以更好地了解肿瘤的位置、大小和转移情况,从而制定合适的治疗方案。该数据集包含三种类型的胰腺肿瘤。作者选择该数据集是因为其不平衡标签,包括大面积背景、中等大小胰腺和小肿瘤结构。
MSD肺部数据集 肺癌是导致癌症死亡的主要原因之一,而增强CT成像能够提供详细的肺部解剖结构和肿瘤块的3D视图。MSD肺部数据集包含多种扫描模型和成像协议下采集的胸部CT扫描,以及非小细胞肺癌的 Voxel 级标注。作者选择该数据集是因为肺肿瘤通常表现为在大量健康组织中存在的小型、不规则病变,这造成了极端的类别不平衡,严格考验了模型对细微病理变化的敏感性以及在复杂边界处的精确度。
4.2 评估指标
为了定量评估分割质量,作者采用两种互补指标:Dice相似系数(DSC)和类别间Dice差异(或称为"Gap")。这些指标在医学图像分割中广泛应用,共同提供了一种绝对重叠度测量方法,并表明对类别不平衡的鲁棒性。DICE指标用于衡量预测 Mask
与真实 Mask
之间的重叠程度。对于单个类别
,其定义为:
其中
表示类别
的DICE分数,
表示基数(即像素或 Voxel 的数量)。DICE分数为1表示完全一致,而0表示没有重叠。作者选择DICE是因为它直接反映了临床应用中至关重要的空间重叠性,对大背景区域中的真负例丰度不敏感,并且是近期医学分割挑战中的标准,便于进行公平比较。
为了评估一种方法在多数类和少数类上的性能均衡性,作者将Dice差异定义为最高类别Dice系数与最低类别Dice系数之间的范围。较小的差异表明性能更加均衡,体现了模型处理代表性不足(通常为小型或低对比度)结构而不至于过度拟合大区域的能力。由于作者的核心贡献之一是减少频率混叠并提升少数类的准确性,直接报告Dice差异能够展示FreqUFNet如何缩小标准空间域网络所表现出的性能差异。综合来看,Dice系数和差异值通过衡量整体准确性和类别 Level 分割的一致性,全面支持作者的研究工作。
4.3 实现细节
作者首先将所有数据裁剪到非零值区域,因为这样做不会影响这些数据集,同时还能减少数据的大小。然后,将患者的数据进行重采样,使其与各自数据集的中值 Voxel 间距一致,其中图像数据使用三次样条插值,相应的分割 Mask 使用最近邻插值。所有数据根据对应数据集的均值和标准差进行归一化。在数据增强方面,训练过程中应用了随机旋转、随机缩放、随机弹性变形、伽马校正增强和镜像技术。模型使用五折交叉验证在训练集上进行训练和评估。作者使用Adam优化器,初始学习率为
。作者保持验证和训练损失的指数移动平均值。学习率线性减少2倍,最小学习率设置为
。
4.4 与最先进方法比较
MSD前列腺数据集比较表1显示FreqU-FNet在两个腺体类别上实现了平衡提升。具体而言,yinqing-FreqU-FNet_2505在边缘区达到了90.08%的Dice系数,比TransUNet的87.93%[3]高出2.15个百分点,比Swin-UNet的86.53%[2]高出3.55个百分点,同时保持了中央腺体准确率在73.21%,与最佳的混合CNN-Transformer方法相当。这一结果表明,频率域编码器的组合小波-傅里叶滤波有效抑制了混叠现象并锐化了低对比度边界,使网络能够比纯空间或自注意力模型更准确地勾勒出边缘区。
MSD胰腺数据集比较表2表明FreqU-FNet有效缓解了MSD胰腺数据集上的类别不平衡问题。它实现了63.38%的肿瘤Dice系数,比Swin-UNet(54.51%)[2]和TransUNet(54.11%)[3]分别高出8.8个百分点,同时保持了79.02%的有竞争力的健康胰腺Dice系数。Dice差距缩小至15.64%,几乎将nnU-Net变体[14]中观察到的27%-39%的范围减半。这一改进源于作者的空间可学习解码器(SLD),它结合了用于亚像素变形建模的本征空间路径和用于全局结构保留的空间-通道路径,并由学习到的融合权重引导。此外,频率组合损失强调了高频小波差异,鼓励在标准的Dice或交叉熵项之外进行更精细的肿瘤边界细化。
MSD肺数据集比较表3(MSD肺数据集)表明FreqU-FNet实现了最高的整体肺Dice系数80.77%,超过Swin-UNet的80.26%[2]和TransUNet的77.00%[3]。除了粗略的 Mask 精度外,yinqing-FreqU-FNet_2505在追踪薄气道分支和病灶边缘方面表现出色,而传统上采样或自注意力机制往往容易模糊这些细节。频域编码器滤除了CT斑点噪声,同时增强了血管和结节信号,解码器的可变形采样避免了棋盘伪影——共同作用,即使在具有挑战性的扫描条件下也能产生清晰、连续的边界划分。
4.5 消融实验与分析
为了量化FreqU-FNet框架中每个组件的贡献,作者在MSD Pancreas数据集上进行了消融研究,在相同的训练设置下(表4),使用两个DICE分数(DICE 1,DICE 2)及其差异(Gap)评估分割性能。
首先,移除频率级校准(FLC)模块导致DICE 1下降最大(-2.14%),DICE 2下降(-3.24%),同时DICE差距增加1.10%,表明FLC对于协调多尺度频率信息至关重要。其次,省略DB下采样模块导致DICE 1适度下降(-2.97%),DICE 2仅下降-0.81%,并实际缩小差距至13.48%,表明下采样主要有利于粗结构捕获,同时略微改善类别平衡。第三,移除空间局部细节(SLD)模块导致DICE 2大幅下降(-5.62%),差距增加5.10%,证实SLD对于精细边界界定至关重要,但代价是加剧了类间差异。最后,排除频率注意力层(FAL)同时损害DICE 1(-4.09%)和DICE 2(-3.27%),并适度缩小差距,显示FAL在平衡全局与局部特征中的作用。总体而言,完整的FreqU-FNet(整合FLC、DB下采样、SLD和FAL)实现了最佳权衡,其DICE 1为79.02%,DICE 2为63.38%,差距为15.64%,优于所有移除变体,证实每个组件均对分割精度和稳定性有显著贡献。
unsetunset5 结论unsetunset
本文介绍了FreqU-FNet,一种基于频率域的新型分割架构,有效应对了医学图像分割的挑战。yinqing-FreqU-FNet_2505结合了频率低通卷积与Daubechies小波下采样,以减少频率混叠伪影,同时增强对少数类的特征提取。空间可学习解码器结合频率域信息,通过自适应加权不同的上采样路径高效恢复空间信息。
作者的频率增强损失函数指导模型在频率域中有效学习,同时解决类别不平衡问题。实验结果表明,FreqU-FNet在分割精度上始终优于最先进的CNN和基于Transformer的模型,特别是在减少多数类与少数类之间的性能差距方面。
点击上方卡片,关注「AI视界引擎」公众号