点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
本文提出了一种新颖的架构,将KAN网络与U-Net相结合,利用KAN网络的强大非线性表示能力和U-Net的固有优势进行医学图像分割。
作者引入了KAN-卷积双通道结构,使模型能更有效地捕捉局部和全局特征。
作者探索了将KAN提取的特征与卷积层获取的特征进行融合的有效方法,并利用辅助网络促进这种融合过程。
在多个数据集上的实验表明,作者的模型在准确性方面表现良好,表明KAN-卷积双通道方法在医学图像分割任务中具有巨大的潜力。
1 Introduction
图像分割在医学影像学中有着广泛的应用。在手术前定位各种病理学(如肿瘤和黑色素瘤)或特定器官是必要的[1]。对于人类来说,在识别图像时作者往往会 unconsciously 忽略一些细节,但神经网络可以通过提取特征来学习这些细节。卷积神经网络在医学图像分割任务中越来越受欢迎,U-Net架构在这方面做出了重要贡献[2]。许多后续结构都基于U-Net架构并有所改进[3]。
这篇论文提出了一种双通道U-Net模型,该模型将KAN网络和卷积层相结合。在每个编码器和解码器阶段,都使用KAN网络和卷积通道来提取特征,并将组合的特征用于进一步处理。KAN网络使得数据以像素为单位进行处理,从而能够提取每个像素对应的所有通道的信息。这种方法允许在全局 Level 进行特征的提取和聚合,从而增强了模型对特征空间的理解,提高了在处理复杂场景时的鲁棒性。
KAN网络实现的像素级特征提取能生成更丰富的特征表示。与标准卷积网络相比,KAN网络能提供更为细腻的特征表达,捕捉医学影像等领域的细微变化,这对分割任务至关重要[23]。卷积层能提供精确的空间信息,而KAN网络能增强上下文理解,两者结合有助于在不同尺度上实现有效的特征提取。
整体架构遵循U-Net框架,并结合了上采样、下采样和 Shortcut 。
本文的主要贡献如下:
- 设计一个利用KAN和卷积特征的双通道U-Net模型,提高医学图像分割的准确性。
- 引入基于像素级处理的KAN网络,与卷积层相结合,实现对图像数据的更好处理。
- 提出一种辅助网络,该网络能够自动学习结合特征,为将KAN和卷积操作相结合提供一种有效的方法。
2 Method
图1 说明了模型的整体结构,该结构遵循U-Net架构,同时在每个块中引入了双通道。一个通道是一个卷积通道,通过一系列卷积操作提取特征。另一个通道是一个KAN通道,逐像素处理数据。对于每个像素,其通道信息被提取并形成一个一维表示。然后,使用KanLayer对一维数据进行处理。当所有像素的处理完成后,输入数据的通道维度从C1转换为C2。通过辅助网络模块,提取的特征被自动学习融合这两种类型特征的方法进行组合。
### Dual-Channel Structure
双通道结构通常指在卷积神经网络中同时处理两种不同类型的数据输入,如颜色通道和深度通道[24][25]。这种结构能够捕获更广泛范围的特征信息,从而提高模型性能。在分割任务中,双通道结构将多个输入特征相结合,生成更精确的分割结果。许多研究行人将双通道概念应用于各种模型,从而提高了现有模型的性能。
例如,陶晓宇在2021年提出了ADNets[26],Ange Lou等人推出了DC-UNet[27],这两种算法都提高了现有模型的能力。然而,这些双通道实现主要利用了不同的卷积核在不同的粒度上提取特征。由于卷积操作的固有限制,这些模型可能仍然会忽略一些细微之处[28]。在本文中,提出的KAN-卷积双通道结构使模型能够从完全不同的角度提取独特的特征,从而能够更加关注细微之处,最终提高整体准确性。
Dual-Channel Structure
利用KAN网络的强大非线性表示能力,本文采用KanLayer进行像素级处理以提取特征。在此通道中,输入数据(C, H, W)首先转换为以下格式:
Feature Fusion
有效地将提取的特征进行融合是一项重大的挑战,许多研究已经对此进行了探讨。U-Net模型本身采用跳接连接进行特征融合,同时还采用了其他方法,如特征金字塔、注意力机制和门控机制。本文探讨了从KAN网络和卷积层提取的特征的融合方法。经过一系列的比较实验后,使用辅助网络自动学习特征融合策略。辅助网络的处理过程如下:对于输入特征X1和X2,首先将它们拼接以获得X。
接下来,X 使用一个3x3卷积核进行处理。之后,批量归一化被应用。
X 进一步通过一个 1x1 卷积核进行处理,然后进行另一个归一化步骤。最后,使用 ReLU 函数激活输出。
输出:
实验
Datasets
MoNuSeg. 该数据集是通过从TCGA档案中下载40倍放大倍数的H&E染色组织图像创建的。H&E染色是一种常用的技术,用于增强组织切片的对比度,通常用于肿瘤评估(分级、分期等)。鉴于多个器官和患者核外观的多样性,以及不同医院采用的各种染色协议,这个训练数据集旨在促进可以迅速应用于实践的核分割的强健和泛化技术的发展[29]。
GLAS数据集。这是一个用于结肠腺体组织分割任务的图像集合。它最初作为MICCAI 2015年腺体分割挑战的一部分发布。目标是开发用于在组织学图像中自动分割腺体结构的算法,也可用于评估医学图像分割模型的性能[30]。
商业价值。 该数据集是一个公开的乳腺癌超声图像分析数据集,主要关注肿瘤检测和分类。它的目的是帮助研究行人开发和验证计算机视觉和深度学习模型。该数据集通常用于训练模型以提高早期乳腺癌诊断的准确性。每个图像包含各种大小和形状的肿瘤,使其适合各种图像处理和机器学习任务[31]。
Experiments Setting
实验在RTX 4090环境中进行,所有数据在训练前都统一缩放到256×256。对数据集应用了基本的预处理技术,包括旋转、分割和翻转。在模型配置方面,采用了分层训练,辅助网络具有单独的学习率和损失函数。主要网络使用二进制交叉熵(BCE)作为损失,而辅助网络使用 dice 损失,总损失是两种损失的加权组合。实现了一个学习率衰减策略,初始时学习率设置为一个较高的值以加速收敛。参数汇总在表1中。
### Results
进行了与U-Net、U-Net++、Att-Unet[32]、SelfReg-Unet[33]、MRUnet[34]、UCTransUnet[35]等模型[36][37]的比较。在MoNuSeg上,测试集上的平均IOU为88.82,DSC为94.12。详细结果见表2。在GLAS上,使用IOU和F1,平均IOU为88.79,平均F1为93.57,优于最新的模型如U-KAN和U-Mamba。实验结果见表3。三个数据集上的准确率显著超过卷积U-Net模型的准确率,与2024年最新的模型相比,有显著提高。表4显示了在BUSI数据集上的结果,与传统的卷积U-Net模型和2024年提出的最新模型相比,平均IOU为64.21,平均F1为76.07。
4 总结
本文提出了一种基于KAN和U-Net结合的新型架构,引入了将这两个网络融合的新方法。
同时,文章还探索了有效的方式,将KAN提取的特征与通过卷积获得的特征相结合,提出了使用辅助网络进行特征融合的设想。
实验表明,所提出的模型在医学图像分割任务中展现了潜力。
未来,作者计划将KAN-卷积双通道方法进一步应用到其他模型上,并继续从这个角度探索新的解决方案。
点击上方卡片,关注 「AI视界引擎」 公众号