哈工大提出 FAN-UNet 模型，通过 Vision-FAN 块、UNet 架构和位置编码三种方式结合，解决分割难题 !

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

医学图像分割是现代医学研究和临床实践中的关键方面。尽管卷积神经网络（CNNs）在此领域表现出色，但它们固有地难以捕捉图像中的长范围依赖关系。

相比之下，Transformer 自然擅长建模全局上下文，但在有效捕捉局部特征方面经常面临挑战。

因此，作者提出了 FAN-UNet 这种新颖的架构，它结合了基于傅里叶分析网络（FAN）的视觉 Backbone 网和 UNet 架构的优势，有效地解决了生物医学图像分割任务中长范围依赖关系和周期性建模的挑战。

所提出的 Vision-FAN 层将 FAN 层与自注意力机制相结合，利用傅里叶分析使模型能够有效捕捉长范围依赖关系和周期性关系。

在各种医学影像数据集上的广泛实验表明，FAN-UNet 在模型复杂性和性能之间实现了有利的平衡，验证了其在医学图像分割任务中的有效性和实用性。

1 Introduction

现代医疗研究高度依赖各种医学成像技术的支持[1]。医学成像旨在提供人体组织和器官结构与功能的准确可视化表示，为医护行人和研究行人提供深入了解正常和异常状况的必要视角。无论是前沿的实验室研究还是临床疾病诊断，医学图像分析所提供的丰富信息对于科学研究和诊断至关重要[2]。此外，自动医学图像分割技术可帮助医生更快地进行病理诊断，从而提高患者的护理效率。

由于其强大的特征表示能力，卷积神经网络（CNNs）在医疗图像分割领域得到了广泛应用，并取得了令人瞩目的成果[3]。全卷积网络（FCNs）[4]作为CNNs的一种高级变体，能够对任意大小的图像进行像素 Level 的分割。在此基础上，U-Net作为一种创新的方法基于FCNs[5]，利用对称的编码器-解码器结构以及 Shortcut 来有效增强上下文信息的整合。Raj等人[6]强调了基于U-Net的方法在MRI数据分割中的有效性，而Safi等人[7]则证明了CNNs能够处理不同大小、位置和模糊边界的脑肿瘤。这些研究结果共同突显了CNNs在诸如脑肿瘤分割等医疗图像分割任务中的稳健性能。

尽管基于CNN的模型在特征表示方面表现出色，但由于卷积核的局限性，它们在捕捉图像中的长程依赖关系时存在固有的限制。相比之下，Transformer模型天生擅长捕捉全局上下文，这激发了研究行人对基于Transformer架构的医学图像分割方法的兴趣。TransUnet[8]是一个开创性的Transformer基模型，在编码阶段首次使用Vision Transformer (ViT) 进行特征提取，然后利用CNN进行解码，显示出强大的全局信息捕捉能力。TransFuse[9]则将ViT和CNN结合在一个并行架构中，同时捕获局部和全局特征。此外，Swin-UNet[10]将Swin Transformer整合进一个U型架构中，引入了首个完全基于Transformer的U-Net模型。这些进展突显了基于Transformer的方法在解决CNN限制并提升分割性能方面的潜力。

当前神经网络表面上的成功背后存在一个关键问题：它们难以从数据中建模周期性。现有的神经网络架构，包括MLP[11]、KAN[12]和Transformer[13]，在拟合周期函数方面遇到困难，即使是像正弦波这样的简单情况下也是如此。尽管这些模型在训练数据范围内表现出强大的内插能力，但在面对外推挑战时，尤其是在分布外（OOD）场景下，往往表现不佳。因此，它们的泛化性能主要取决于训练数据的规模和多样性，而不是由对周期性原理的内在理解驱动。在医学影像数据的背景下，病理特征通常表现出一致的周期模式[15]。因此，学习和建模周期性原则的能力至关重要，这不仅提升了这些模型的稳健性，还提高了它们在识别和解释医学影像中常见的重复模式方面的有效性。

近年来，傅里叶分析网络（FAN）[14] 作为一种革命性的神经网络框架崭露头角，展现了在周期建模方面的出色能力。基于傅里叶分析，FAN 利用傅里叶级数明确地在神经网络中编码周期性模式，提供了从数据直接建模周期性的原则性方法。与传统的MLP以及新提出的KAN相比，FAN不仅保持了高效性，还在处理周期特征方面表现出色，在该领域展示了更优越的性能。

在医疗图像分割任务中，尽管目标特征通常表现出高度相似性，但它们的形状和大小往往会显著不同。有效捕捉这些变化对于模型性能至关重要。基于U-Net的架构提供了 robust 的特征提取框架，使FAN层能够更有效地进行周期性建模。此外，将FAN层与自注意力机制集成，使得模型能够在周期性建模和长距离依赖性建模方面同时表现出色，从而增强其整体处理复杂医疗成像场景的能力。

在本文中，作者提出了FAN UNet，这是一种新颖的架构，结合了视觉FAN以克服生物医学图像分割任务模型中存在的长期依赖性和周期性固有挑战。Vision-FAN层结合了FAN层和自我注意机制的优势，利用傅里叶分析使模型能够有效地捕捉长距离依赖关系和周期性关系。在多种医学影像数据集上的广泛实验表明，FAN-UNet在模型复杂性和性能之间取得了有利的平衡，验证了其在医学图像分割任务中的有效性和实用性。

总结来说，作者的贡献如下：

作者提出Vision-FAN，这是一种集成了FAN层和自注意力机制的视觉 Backbone 网络。
通过结合傅里叶分析，该模型能够有效捕捉长距离依赖关系和周期性关系。
这种混合设计解决了长距离依赖和周期性建模的挑战，同时显著增强了模型在多样化的数据分布下的泛化能力。·
作者提出了FAN-UNet，这是首次将基于FAN的模型应用于医学图像分割潜在应用的研究。·
作者对所提出的模型进行了广泛的应用性能评估。结果显示，该模型实现了高精度（96.07%）、mIoU（78.83%）和DsC（88.16%），验证了其有效性。

2 Preliminaries

傅里叶分析通过将函数分解为其组成频率，揭示了复杂函数中的潜在周期结构。这一分析的核心在于傅里叶级数，它将周期函数表示为无限多个正弦和余弦项之和。从数学上讲，函数的傅里叶级数展开可以表达为：

其中，表示函数的周期，系数和通过在其中一个周期内对函数进行积分来确定：

Fourier级数的力量在于其能够表示各种类型的函数，包括通过周期延拓表示非周期函数，从而有效地提取频率成分。在此数学基础上，Fourier分析层旨在直接将周期特征嵌入网络架构中，增强在各种任务中的泛化能力和性能，特别是在需要识别模式和规律的情景中表现尤为突出。

3 Method

FAN-Unet的结构如图1(a)所示。FAN-Unet旨在通过将U-Net架构的特征提取能力与基于FAN的Vision-FAN Block相结合，实现更精确的医学图像分割。

picture.image

3.1 Vision-FAN Block

Vision-FAN块是FAN-UNet的核心模块，由Vision-FAN层和注意力机制组成，能够有效地建模周期特征和长程依赖关系，如图1(b)所示。具体来说，Vision-FAN块被集成到U-Net结构中以处理2D特征，捕获图像中的全局长程依赖关系和周期性关系。该设计结合了位置编码、窗体自注意以及FANLayer2D，利用这些组件的优势极大地增强了模型的表示能力。

首先，Vision-FAN 块对下采样的特征图应用位置编码，使模型能够理解输入特征图中每个位置之间的相对关系。随后，采用基于窗口的自注意力机制来捕获全局的空间依赖关系。自注意力机制计算不同位置间的长距离交互作用，从而使模型能够全面理解输入图像的全局特征。在医学影像领域中，这一点尤为重要，因为病灶区域经常跨越不同的空间位置。因此，引入位置编码和基于窗口的自注意力机制可以在高效计算的同时捕获全局依赖关系。

接下来，自注意力机制的输出传递给FANLayer2D，后者作为前向网络进一步增强对周期性和非线性特征的建模能力。FANLayer2D基于傅里叶分析，显式地编码输入特征的周期模式，使模型能够直接捕捉医学图像中常见的重复结构和纹理。这种周期性建模特别适合医学图像分析，因为医学图像中的组织和病理特征通常表现出规律性和一致性。通过使用傅里叶激活函数（包括正弦和余弦函数）以及非线性激活函数，FANLayer2D有效地捕捉了输入数据的复杂模式和周期特征。

为了确保训练过程的稳定性，Vision-FAN 块集成了残差连接和 LayerNorm 。残差连接允许模型在学习过程中保留输入特征，减少对更深层错误依赖性的依赖。 LayerNorm 保证了特征分布的一致性，缓解了梯度消失或爆炸的问题，加速了收敛，并提升了模型的稳定性。

通过将Vision-FAN块整合到FAN-UNet中，该模型能够同时捕捉全局长程依赖关系，并明确学习输入数据的周期性成分。这种结合有效地增强了模型在识别医学影像中的复杂结构和纹理模式的能力。例如，在皮肤病变分割任务中，病变边界和区域的形状和尺寸常常表现出强烈的空间一致性和规律性。Vision-FAN块利用这些特性显著提高了分割精度。

3.2 FANLayer2D

Vision-FAN中的FANLayer2D是核心模块，专门设计用于处理2D图像数据以捕捉输入特征内的周期性模式。为了理解FANLayer2D的结构，可以考虑一个网络层，它代表了傅里叶级数展开。根据傅里叶级数展开，它可以表示为：

这可以进一步简化为：

最终以矩阵形式表示为：

其中，均为可学习参数。基于这一Fourier级数展开，FAN层明确地融合了Fourier变换的原则，使网络能够捕获输入特征中的周期性成分。

因此，FAN层的设计遵循两个关键原则：1) 傅里叶系数的表达能力应随深度增加而增强：网络中的每一层都必须具有足够的容量来表达傅里叶系数，确保深层拥有更强的周期性建模能力；2) 任何隐藏层的输出都能够通过后续层进行周期性建模：这确保了周期性特征在每一层级都能得到有效捕捉和传播，从而增强模型的整体表达能力。

基于这些原则，FAN 层可以定义为：

其中，、和是可学习的参数。

picture.image

接下来，应用傅里叶激活函数到以获得周期特征：

最后，沿通道维度将周期特征和激活的非线性特征进行Concat操作，形成输出特征。

在此结构基础上，FANLayer2D 有效地捕捉了输入数据在二维空间中的周期性和非线性特征。其设计使网络能够直接学习和表示图像中存在的重复模式和复杂的纹理，显著增强了其在医学影像中准确分割病灶区域的能力。

FANLayer2D 的一个关键优势在于其能够明确编码周期性信息，这是许多医学影像任务中的一个重要方面。例如，在医学图像中，组织和病灶的特征通常表现出高度的规律性和一致性。通过利用傅里叶激活函数，FANLayer2D 能够有效地捕捉这些周期性模式，从而使模型更有效地识别和分割这些区域，并提高精度。

3.3 Loss function

FAN-Unet被提出作为一种在医学图像分割任务中获得更稳定结果和更高精度的方法。因此，作者采用了最基础的Dice损失和交叉熵损失函数，这二者在医学图像分析中最常用。作者将这两个元素结合起来。通过在批次 Level 计算损失，作者设计了一个损失函数，可以缓解单个样本观测到的损失波动问题，这种波动可能是由于随机噪声或微小结构的误分类引起的。这使得模型能够在更为稳定的情况下收敛，并且能够提高整体的分割性能，特别是在数据分布不均匀的情况下，还有助于不同样本的更准确加权。具体的损失函数见式(10)。表示损失函数的权重，默认设置为0.5。

4 Experiment

4.1 Datasets

作者在医学图像分割任务中对FAN-Unet进行了全面实验。具体来说，作者在ISIC17[16]和ISIC18[17, 18]数据集上评估了FAN-Unet的性能。

ISIC2017：ISIC2017数据集包含三种疾病的类别——黑色素瘤、脂溢性角化病和良性痣，共计2,750张图像、标注信息及类标签。训练集中有2,000张图像，验证集有150张图像，测试集有600张图像；皮肤疾病图像的颜色深度为24位，图像大小范围从767×576到6,621×4,441。验证集和测试集中还包括未标注的超像素图像。类标签存储在表中，需要预处理才能用于训练模型。

ISIC2018：ISIC2018数据集包含不同数量的疾病图像用于分类和分割任务。对于分割任务，总共使用了2,594张图像作为训练集，100张和1,000张图像分别作为验证集和测试集。对于分类任务，总共有12,500张图像，其中训练集包含7种疾病的10,015张图像，具体分为：角化过度丘疹（327张）、基底细胞癌（514张）、良性丘疹（1,099张）、真皮纤维瘤（115张）、黑色素瘤（1,113张）、黑色素细胞痣（6,705张）和血管性皮肤病变（142张）。分类任务数据集中的七类图像混在一起存储在一个文件夹中，标签存储在需要预处理的表中。

4.2 Comparison with SOTA models

与一些最新的前沿模型以及基于Mamba的一些最近模型进行对比，展示了表1。

picture.image

对于ISIC2017和ISIC2018数据集，FAN-Unet在mIoU和Dice方面表现优于其他模型。具体而言，与HC-Mamba相比，FAN-Unet在mIoU上高出1.11%，在Dice上高出0.87%，而与Unet相比，则在mIoU上高出2.01%，在Dice上高出2.26%。

4.3 Ablation experiments

在本节中，作者通过消融实验展示了位置嵌入、自我注意机制以及Vision-FAN模块的有效性。为了这个目的，作者构建了四种网络配置，如下所示：(1) 不包含Vision-FAN模块的提出方法：用普通的卷积替换Vision-FAN模块。(2) 不包含位置嵌入的提出方法：包含Vision-FAN模块但不含位置嵌入。(3) 不包含自我注意机制的提出方法：包含Vision-FAN模块但不含自我注意机制。(4) 提出的方法：完整的提出架构。

表2总结了消融实验的结果，进一步强调了所提网络在多个指标上的优越性，包括mIoU、Dice、准确率(Acc)和敏感性(Sen)，同时在特异性(Spe)指标上排名第二。相比之下，“不含位置嵌入的所提配置”实现了中等性能，而“不含Vision-FAN块的所提配置”在定量实验中的表现较差。这些客观评估表明Vision-FAN块和位置嵌入的有效性。

picture.image

5 Conclusion

作者提出了一种新型医学图像分割模型FAN-UNet，该模型结合了Vision-FAN块、UNet架构和位置编码以解决现有基于CNN和Transformer模型的局限性。

Vision-FAN块直接从数据中建模周期性特征，有效地捕捉到长距离依赖关系和周期性关系。此外，位置编码与UNet结构的结合能够高效地从医学图像中提取特征，同时准确捕捉相对位置关系，从而增强对周期性特征的建模。

参考

[0]. FAN-UNET: ENHANCING UNET WITH VISION FOURIERANALYSIS BLOCK FOR BIOMEDICAL IMAGE SEGMENTATION .

点击上方卡片，关注「AI视界引擎」公众号

哈工大提出 FAN-UNet 模型 ，通过 Vision-FAN 块、UNet 架构和位置编码三种方式结合，解决分割难题 !

1 Introduction

2 Preliminaries

3 Method

4 Experiment

5 Conclusion

参考