点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
准确分割皮肤病变图像在移动平台上计算机辅助诊断皮肤癌至关重要。然而,病变形状的多样性、缺乏明确的边缘以及如毛发和标记颜色等阻碍使得这个挑战更为复杂。
此外,皮肤病变通常在纹理和颜色方面表现出微小的变化,这很难与周围的健康皮肤区分开来,需要能够捕捉到细节和更广泛的情境信息。目前,黑色素瘤分割模型通常基于全连接网络和U-Net。然而,这些模型往往难以捕捉到皮肤病变的复杂和多样性特征,例如不清晰的边界和多种病变外观,可能导致分割性能不佳。
为了解决这些挑战,作者提出了一种专门用于皮肤病变分割的轻量级网络,这种网络只需要极少的可学习参数(只有0.8万个)。这种网络采用了一个编码器-解码器的结构,其中包含了基于 Transformer 的光学中心注意力,自适应局部和全局空间注意力,以及分通道错位。
作者对作者的模型的有效性进行了评估,这个模型在四个公认的皮肤病变分割基准数据集上进行评估:ISIC 2016,ISIC 2017,ISIC 2018和PH2上。实证结果证实了它的最先进性能,体现在高Jaccard指数上。
1 Introduction
在日益关注的公共卫生问题上,皮肤癌这一话题显得尤为重要,需要作者关注和理解。在医生的诊断和治疗过程中,医学影像起着重要作用[1;2;3;4;5]。在当前医疗影像的视觉任务中,准确皮肤病变分割至关关键。在众多皮肤癌的形式中,黑色素瘤成为极具威胁性的对手,具有致命的风险。对抗这种风险的关键是早期发现,这是确保有效治疗和最终患者生存率的关键因素。皮肤病变越早确定,患者接受精确定制治疗的机会就越大,极大地改善了他们的康复前景。特别是在医疗专业人士的智能判断下,黑色素瘤可以通过色素病变表面来识别,成为一个极好的早期识别候选项。然而,皮肤癌诊断的迷宫般的困境是皮肤科医生面临的一个严峻挑战,主要是由于皮肤病变的多样性以及区分良性生长和恶性生长的复杂任务。
近年来,深度学习,特别是利用卷积神经网络(CNN)的强大特征提取能力在医学影像分割领域取得了显著的进展。这一发展使得医学影像分割任务的精准度得到了极大的提高。卷积网络体系结构由卷积和降采样层组成,遵循的原则是,较底的卷积层提供更为局部化和精细的位置信息,而较高的卷积层则提供整个图像的更大上下文洞见,这对于分割任务至关重要[18]。在这个背景下,很多基于完整卷积网络(FCN)的模型被提出以提高图像分割[19]。特别值得一提的是,编码和解码网络结构,如U-Net[20;21],减轻了多次降采样导致的细微信息损失,通过在编码器和解码器之间引入跳跃连接,增强了网络性能。这对编码-解码网络结构的有效性进行了证明。随后,各种U型结构的网络,如Res-UNet[22]和Attention R2U-Net[23]被提出。然而,这些模型在面对单个阶段的提取和利用多尺度上下文特征时,仍面临着挑战。在医学影像领域,目标区域往往与其周围环境非常相似,需要考虑更广泛的上下文信息来避免歧义。
为了解决这个问题,研究行人提出了一些方法来整合多尺度信息,如PSPNet[24],PoolNet[25],DeepLabV3[26]和CE-Net[27]。这些方法主要关注处理高级特征信息,而忽视低级特征信息中的位置细节。尽管CNN方法在特征提取方面占优势,但由于卷积操作的固有限制,它们在捕捉长程依赖性方面往往遇到困难[28]。因此,这些方法在处理具有显著纹理、大小和形状变化的区域时往往力不从心。
为了解决这个问题,一些研究行人引入了注意力机制到CNN以克服这一限制[29]。此外,将Transformers成功集成到计算机视觉领域开辟了新的道路[30]。Transformers的运行是基于序列到序列预测架构,绕过了卷积运算符,仅依赖自注意力机制来提取关于图像特性的信息,使得能够建立有效的长程依赖性。
变形器(Transformers)在各种视觉任务上一直表现出与当时最先进性能相匹配或超越的能力。这些模型在捕捉全局上下文方面表现出色,但在捕捉细微细节方面,特别是在医学图像的情况下,其效果受到限制。当涉及到局部信息建模时,它们缺乏内置的空间偏见。此外, Transformer 基础的网络结构对大型数据集有很高的依赖性 [31]。在这里,卷积神经网络(CNN)结构被证明是一种有价值的互补方案,有效弥补了这些限制。
近年来,医学图像分割方面的研究探讨了CNN与 Transformer 的融合。例如,TransUNet [32]以及后续的一些研究 [33, 34] 采用了CNN作为基本网络, Transformer 则有助于在高级特征上建立长期依赖关系。然而,这些方法往往忽视浅层网络中存在的有价值空间信息,专注于单一尺度上的上下文建模,忽视跨尺度依赖性和一致性。一些学者认为,仅仅使用一两个层 Transformer (仅依赖CNN的卷积表示)无法组合依赖CNN的卷积关系的卷积表示。
本文介绍了一种创新轻量级网络结构,专门针对计算机辅助诊断(CAD)系统中皮肤病变的分割和医学图像分析。所提出的模型建立在已建立的编码-解码网络架构基础上,特别采用已知在医学图像分割方面具有高效性和有效性的轻量级T-Net模型 [36]。在这个基础上,作者的LSSF-Net结合了几个关键改进以显著提高特征提取。这些改进包括一种新的增强器架构,自适应局部和全局空间注意力(SAB)、基于归一化的焦点调整-跳过连接(CFMA)和分通道乱序机制(SCS)。共同来说,这些创新提高了模型捕捉细粒度细节和全局上下文的能力,有效解决了医学图像的复杂性所带来的挑战。LSSF-Net的设计旨在提供高精度和效率,同时保持轻量结构,使其非常适合在计算能力有限的移动设备上部署。本工作在保持顶级性能与资源效率之间实现了平衡,为资源受限环境下的医学图像分析提供了一种有效的、易获取的工具。
所介绍的LSSF-Net的核心由两个并行的卷积神经网络(CNN)分支和一个增强器架构组成。CNN关注从原始输入图像中提取多尺度特征信息,而增强器则同时建模全局上下文信息以建立长期依赖关系。考虑到高层语义特征的计算成本,模型有策略地最大化低层语义特征中的位置信息保留,因为它们对网络性能的贡献较小。这一深思熟虑的考虑旨在在不降低整体分割质量的情况下优化计算效率 [36]。
对于解码部分,采用相同的编码结构,并在从编码增强器到解码器之间引入一个基于Conformer的焦点调制注意力(CFMA),作为跳跃连接。这一添加增强了解码阶段获取详细全局和局部特征信息的能力。此外,为了增强解码块之间的连接,以在扩大过程中提高特征保留,采用基于 Transformer 的注意力(TA),作为特征增强的瓶颈处。
本工作的主要贡献如下。
- 新颖的架构:提出的医学分割模型引入了一种新颖的架构,该架构包含并行增强编码器和解码器模型。这种设计有助于提取所有特征子集,并提高分割能力。
- 增强的特征信息:为了获得更详细的全局和局部特征信息,将注意力机制与 Short-Cut 连接相结合。这种修改旨在提高模型捕捉复杂细节和上下文信息的能力。
- 密集连接:模型增强了解码器块之间的连接,建立了密集链接,以促进在关键的上采样过程中保留改进的特征。这有助于在不同尺度上保持特征的完整性。
- 基于Transformer的注意力:为了改进瓶颈位置的特征,采用了基于Transformer的注意力。结合对局部-全局特征的特定改进,确保在分割过程中保留并有效利用重要信息。
- 验证和比较:通过全面比较与当前流行的方法,验证了所提出网络的鲁棒性和通用性。这种比较分析旨在展示该模型在医学图像分割领域的有效性及竞争力。
2 Literature Review
在现代世界,基于深度学习的算法在医学分割领域展现出更好的性能,尤其是在皮肤病变等任务中[37]。这些方法能够自动从数据集中提取特征并展现出比传统手工设计的特征提取技术更强的鲁棒性。自从UNet [20]的引入以来,其编码器-解码器结构在医学分割领域占据了主导地位。UNet通过在编码器和解码器之间建立直接连接,有效地整合了基础特征信息。根据一项调查[38],87.2
UNet based Segmentation
在现代医学影像分析的深度学习时代,基于深度学习的方法表现出了显著的性能,尤其是在皮肤病变分割等任务上 [37]。在这些方法中,UNet及其变种已成为主导角色 [20],参见图。UNet采用编码器-解码器架构和跳跃连接,实现有效特征提取和详细信息的保留。随着时间的推移,已针对原始UNet架构提出了一系列改进,每个改进的方法都是为了提高分割精度和鲁棒性。例如,Res-UNet [22]将残差结构集成到编码和解码阶段,从而更好地保留详细信息。UNet++ [39]采取了一种不同的方法,通过在跳跃连接中集成密集的残差结构连接,促进多尺度特征信息的积累。注意力机制,在自然图像处理中广泛成功,在医学分割任务中得到了越来越多的应用,并取得了令人满意的结果。值得注意的是,采用注意力机制的方法包括Attention R2U-Net [23],该方法将残差网络和注意力门与传统网络相结合,以提高焦点,以及MCGUNet [19],将SE模块和双向卷积LSTM集成到跳跃连接中,以进行动态特征调整。
Attention Mechanisms in Medical Image Segmentation
研究行人提出了一些创新的技术来优化 Short-Cut 特征图,通过使用注意力机制来提高分割性能。其中一种方法是在跳跃连接中包含一个空间增强模块,以方便语义分割的关键空间细节表示。通过整合这个模块,网络可以有效地捕获和利用空间信息,从而实现更好的分割性能。Attention U-Net结构[40]在这个领域是一个重大的突破,在跳跃连接中引入了注意力门来解决编码器与解码器层之间的语义歧义。使用注意力门,模型可以选择性地强调编码器中的某些特征,在解码过程中提供更好的指导和关注。这使得模型能够更有效地捕获相关信息,最终提高分割结果。
Transformer Based Segmentation
视觉 Transformer (ViT)对计算机视觉领域产生了 transformative 的影响,使原本用于顺序数据处理的 Transformer 进入了视觉任务领域。通过利用 Transformer 捕捉图像中的全局依赖关系,ViT 显示了惊人的性能。在 ViT 的基础上,后续在视觉任务领域的不断发展如雨后春笋般涌现,都受到了其创新方法的启发。
例如,DeiT 探讨了针对 ViT 架构的高效训练策略,从而提高了可扩展性和性能。PVT(金字塔视觉 Transformer )引入了具有 Shifted Relative Attention(SRA)机制的 pyramid Transformer ,在降低计算复杂性的同时保留了有效性。Swin Transformer 代表了分级的视觉 Transformer 的另一个重要进步。其创新性的窗口机制增强了特征局部性,解决了前述 Transformer 架构中的限制。
此外, Transformer 已在计算机视觉的各种特定任务中找到应用。SETR(语义分割 Transformer )利用 Transformer 进行语义分割,ViT 作为 Backbone 架构。由谢等人提出的 SegFormer 提供了语义分割的直接而有效的设计,得益于 Transformer 架构。
此外,Wang 等人提出的 Uformer 引入了一般化的 U 形 Transformer 架构,专为图像修复任务设计,展示了基于 Transformer 的 approached 在计算机视觉广泛应用的灵活性。这些发展突显了 Transformer 在塑造计算机视觉任务领域的未来潜力,为作者提供了解决复杂视觉挑战的新解决方案和洞察。随着研究行人继续创新和优化基于 Transformer 的架构,视觉理解和处理的未来前景充满希望。
Hybrid Transformers and UNet-based Segmentation
随着Transformer作为计算机视觉的强大工具的出现,其在医学分割中的应用引起了研究行人的广泛关注,并取得了有前景的结果。特别是,TransUNet [46]是将Transformer整合到医学分割任务的先驱。这种开创性的方法将UNet编码器与Transformer架构相结合,通过操作高层特征,不同于传统的基于图像的输入方法。在TransUNet中,UNet和Transformer的创新融合标记着与传统方法的分离,为医学影像分割提供了一个全新的视角。通过利用UNet编码器的分层表示和Transformer的注意力机制,TransNet能够有效地捕捉医学图像中的复杂空间依赖关系,从而提高分割性能。
与此同时,TransAttunet [47]将通过并行地融合CNN和Transformer提出一种新方法,以实现医学分割。其创新之处在于引入了BiFusion融合模块,该模块熟练地将CNN编码器的浅层网络特征与通过Transformer提取的特征信息相结合。这种集成有助于全面理解输入数据,利用了这两种架构的优势,从而增强分割精度。
然而,尽管已经取得了这些进展,但是在充分利用所有特征信息的同时,跨多个尺度的挑战仍然存在。使用Transformer来建立长程依赖性在医学分割任务中有着翻天覆地的影响,但研究方法仍集中在长程依赖性上,可能遗漏了对于准确皮肤病变分割至关重要的精细细节。结合适当的注意力机制和特征增强,轻量级模型表现出比复杂度和精确度之间的最佳平衡。这种折中确保了有助于准确分割的重要细节被保留下来,提供了继续改进皮肤病变分析和实现更出色的分割结果的有前景的途径。
3 Proposed Methodology
在本节中,作者将简要讨论所提出的LSSF-Net的架构。图1展示了所提出模型的块图,该模型由四个编码器-解码器块组成,跳接中基于共形变换的聚焦调制自注意力(CFMA)块,瓶颈层中的自注意力块(SAB)和全局空间注意力(GSA)块。有关每个组件的详细信息将在以下子节中提供。
Model Architecture
在所提出的实现中,作者采用了四个编码器-解码器块。令 表示对给定输入(In)执行的 卷积操作之后的 卷积操作,再进行批量归一化()和 ReLU()操作,如下(Eq. 1)所示:
初始跳跃连接()通过将网络输入 () 应用 卷积操作得到(如下图所示)。
算法 1 所提出的 LSSF-Net 算法
类似地,初始编码器模块 () 的输出表示如下(Eq. 3)。
这里 () 是池化操作。第 个编码器模块() 的输出计算如下(Eq. 4)。
这里 () 是 个跳跃连接,计算方法如下。
一旦编码器 blocks 提取了信息,它将通过两个连续的注意力块(称为自注意力块 SAB)进行进一步精炼,以捕捉来自相关位置的上下文信息,接着通过合并全局空间信息来增强更高层次的局部上下文信息。此外,作者实现了一种涉及通道拆分和洗乱的技术,以增强 LSSF-Net 模型的能力和效率。通道拆分允许同时处理不同的通道子集,从而促进并行化。同时,通道洗乱技术刺激了不同通道之间的交互,从而提高了整体信息流动。一旦提取到的特征信息被进一步增强和精炼,它被给予解码器阶段,用于重建空间特征图。Let () 表示第 个解码器块的输入,由(公式 6)计算得到。
其中 是连接操作。为了在解码器阶段融合提取的特征信息,作者采用了基于共形(conformer)的焦点调制注意力(CFMA)在跳过连接上进行操作,并通过将输入 (公式 7) 应用 () 运算得到该信息。
其中 是上采样操作,会增大特征图的 spatial 维度。第 个解码器块的输出使用(公式 8)计算得到。
模型的输出()是通过应用操作,然后跟卷积和 sigmoid()操作得到的,如公式(9)所示。
最终,通过在模型输出上应用 dice pixel 分类层,作者得到了大小为 256256 的二进制预测 Mask 。
Conformer-based Focal Modulation Block
基于构型(conformer)的聚焦调制块(CFMA)被引入到提出的LSSF-Net跳接的并行连接中,以进一步捕获多尺度全局语义特征,如图2所示。CFMA块从编码器块输入()并执行层规范化(LN)操作,然后执行卷积操作()和聚焦调制块(FMB)(如公式10所示),并将其与其他输入相加。
Self-aware Attention Block
自注意力块(SAB)是一种多头自注意力机制,它能够学习自相关性,但缺乏学习空间信息的能力。在学术研究中,一个常用的方法是将特征图传递给位置编码块,然后将其输入到多头注意力块,如下图2所示。
是输入特征图,接下来将其嵌入到三个矩阵 , , 中,其中 是三个不同的线性投影函数。 和 之间的点积值与 Softmax 归一化相结合,得到 ,它代表了 中每个通道与其他通道的相似性。接下来,应用上下文注意力映射 对值矩阵 进行加权聚合,得到加权聚合的值 。最后, 被 Reshape 为 ,与输入形状相同。
Global Spatial Attention
全局空间注意力(GSA)用于捕捉全局位置依赖性信息,算法3中的输入特征图首先嵌入到和中,。Reshape 为和,然后对和进行缩放点积,得到的结果经过Softmax归一化层处理,输出的空间相似性映射表示位置和之间的相关性,表示这些位置之间的相关性。多头注意力机制可以用以下表示:
算法3 全局空间注意力
Split Chanel-Shuffle
频道调换是一种在卷积神经网络(CN)的特定频道间改善信息流动的技术。在分组卷积中,输入数据来自不同的组,输入和输出通道通常被隔离。为了克服这个问题,频道调换将通道分组并重新排列,然后将这些子组混合并输入到下一层中的不同组,以确保所有通道都可以有效地互动和共享信息。这增强了网络从不同特征中学习的能力。
这个过程是通过使用频道调换运算高效且无缝地完成的。一个具有g个分组和n个输出通道的卷积神经层,输出通道被首先 Reshape 为(g,n/g)的维数,然后翻转,最后将所有通道重组成单一维数,作为下一层的输入。此外,通过合并运算可以使得模型更轻,将特征图划分成更小的部分以便更有效处理。分裂频道调换(SCS)也是可微分和模型加速的,可以集成到网络结构中进行端到端训练。
(18)
4 Experiments and Results
在本节中,作者将首先提供一个关于用于皮肤病变分割基准数据集的简要概述,然后深入探讨提出的LSSF-Net的实验工作。
请注意,这是我在理解原文的基础上提供的一种译法,可能并不是唯一正确或最准确的译法。在学术翻译中,有时需要对原文进行调整或改进以使其符合目标语言的语法和表达习惯。
Datasets
本文评估了所提出的LSSF-Net的有效性,使用了四个公开可用的皮肤病变数据集:三个来自国际皮肤图像合作(ISIC)档案,以及一个来自PH2数据集。此外,该模型在两个超声图像数据集上进行评估,以进一步验证其性能。以下详细介绍了这些数据集的描述,并呈现于表1中。
ISIC 2016: 该ISIC 2016数据集 [46]包括900张皮肤病变的镜像图用于训练和379图像用于测试,每张图像都附带相应的真实标签。
ISIC 2017: ISIC 2017数据集 [47]包含总共2000张皮肤病变的镜像图及其相应的真实标签。这些图像用于训练目的。此外,数据集还包括150张用于验证,以及另外600张特别设计的用于评估所开发框架的图像。
ISIC 2018: ISIC 2018数据集 [52; 48]包括2594张皮肤病变的镜像图及其相应的真实标签,这些图像用于训练目的。此外,数据集中还包括1000张专门用于测试的图像。
PH2: PH2数据集 [49]是一个包含200张皮肤病变图像及其真实标签的集合。
DDTI: DDTI数据集 [50]包含637张超声甲状腺结节图像,这些图像以PNG格式存储。这些图像显示各种分辨率,包括、和像素。为确保图像尺寸的均匀性,所有图像均重新缩放到像素。数据集分为训练、验证和测试集,比例分别为80%、10%和10%,采用三折交叉验证方法评估性能。
BUSI: BUSI数据集 [51]由25至75岁女性获得的780张乳腺超声图像组成。这些图像以PNG格式呈现,平均大小为像素。所有实例都附带分类为正常、良性或恶性的真实标签图像。为确保图像尺寸的统一性,所有图像均缩放到像素。数据集分为训练、验证和测试集,比例分别为80%、10%和10%,采用三折交叉验证方法评估性能。
Performance Measures
所提出的LSSF-Net的性能评估使用了五个由ISIC挑战领导板认可的关键指标:准确度,Jaccard指数(IOU),Dice系数,灵敏度和特异性。这些指标是基于真实阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)的计数,如方程(7-11)所示。
准确度(Acc)=(TP+TN)/(TP+TN+FP+FN)标签{7}
灵敏度(Sn)= TP / (TP+FN)标签{8}
Jaccard-Index(Jind) = TP / (TP+FP+FN)标签{9}
Dice Score(Ds) = 2TP/(2TP+FP+FN)标签{10}
Specificity(Sp) = TN / (TN+FP)标签{11}
(此处省略公式)
Implementation Details
表3:LSSF-Net Ablation研究计算复杂性分析
首先,将所有训练图像重新缩放到 ,然后输入到LSSF-Net。Adam 作为优化器,,其中 是在每个epoch末尾计算的梯度的一阶矩和二阶矩的初始衰减率。该值的应用基于对[53]的研究, 是分析皮肤病变的前人所用的最常使用的值。同样,根据文献的统计结果,将初始学习率设置为0.001。此外,设置了Stop Monitoring early(Early Stop)监控器,从第10个epoch开始,如果监测到的指标在9个epoch内未改善,则终止训练过程。值得一提的是,由于所提出的损失函数中的动态组件,模型收敛到较低损失的方向,但Jaccard指数在某些情况下也会降低,这反映了所提出的损失对动态权重非常敏感。为了提高模型在不同数据集上的适应性,一旦引入,将手动采用Jaccard系数作为训练监控器,否则作为验证损失值。所有实验都在一台本地PC(配备NVIDIA GeForce RTX 3090显卡)上进行,使用Keras框架的Python 3.9,批处理大小为24。### Loss Function
在本论文中,作者使用了包含二进制交叉熵和Jaccard损失的组合损失来指导训练过程。将 视为真实集, 视为模型预测映射。 表示像素 属于类 的概率, 表示真实标签。在以下表示中, 是平滑指数。
4.4.1 Binary Cross Entropy
在二元分割的背景下,二元交叉熵损失函数可以表示为
其中,表示二元交叉熵损失,是类别概率矩阵的元素,是类别在样本处的概率。在这个公式中,第一项衡量了类别在样本上的损失,第二项衡量了类别不出现的损失。通过最小化这个损失函数,可以训练模型学会正确的二元分割任务。
4.4.2 Jaccard Loss
Jaccard 系数是一个评估 ground truth 和分割集合之间相似度的指标,它通过计算交集与并集的比率来衡量。其中
Jaccard 系数损失 定义为使 最小化的最小化
Ablation Study of LSSF-Net on ISI2017 Dataset
图4:在ISIC 2018数据集上,提出来的LSSF-Net的视觉性能比较。
对LSSF-Net在ISIC 2017数据集上的消融研究表明了不同的网络组件和策略对模型性能的影响。通过在网络中系统地添加和修改各种模块,作者可以确定它们对LSSF-Net总体效能的个体和组合贡献。这项研究提供了洞察力,即每个组件如何提高网络准确分割皮肤病变的能力,从而指导未来的改进和优化。LSSF-Net的实验在ISIC-2017数据集上广泛进行。表2展示了提出来的LSSF-Net实现的定量改进。消融研究从实现一个基于UNet的基本CNN模型(具有增强连接)开始,作为比较的基准。然后,在skip连接中采用形变聚焦调控注意力(CFMA)。第二个实验是使用网络瓶颈中自注意力模块(SAB)。在第三个实验中,同时使用CFMA和SAB。请注意,这种组合显著提高了整体性能。然后,在网络瓶颈层的split-channel-shuffle-based SAB (SCS-SAB)被采用。最后,在最后一个实验中,采用迁移学习策略来利用领域知识。
提出的LSSF-Net利用了ISIC 2016, 2017和2018数据集上的预训练权重来增强在这些数据集上的性能。具体来说,对于迁移学习,作者使用ISIC 2017数据集上的预训练权重初始化ISIC 2016和2018数据集的训练。相反,ISIC 2017数据集的训练初始化了ISIC 2016数据集上的预训练权重。这种跨数据集权重初始化方法进一步提高了模型的泛化性和性能。
图3展示了ISIC 2017数据集上的消融研究的视觉结果。第一列显示RGB输入图像,第二列对应的真实图像,第三至第八列分别对应(BN + CFMA),(BN + SAB),(BN + CFMA + SCS-SAB)和(BN + CFMA + SCS-SAB + 迁移学习)的结果。从图3可以看出,通过将不同的模块添加到基准网络,提出来的LSSF-Net的性能逐渐提高。表3及其变体中的LSSF-Net的计算复杂性对于理解其效率和实现实际应用的重要性至关重要。在本研究中,作者分析了每个模型的参数(Param),每秒浮点操作(FLOPs)的运算量,以及推理时间。Baseline 网络(BN)作为参考,评估添加CFMA,SAB和SCS-SAB模块对计算需求的影响。Baseline 模型具有0.550百万参数和78.59的Jaccard分数。然而,添加更复杂的模块(如CFMA和SAB)后,参数数量和计算需求增加,但性能也随之提高。例如,BN + CFMA + SCS-SAB实现了85.27的Jaccard分数和0.811百万参数。这种分析有助于识别模型复杂性和性能之间的权衡,指导选择最有效的网络配置进行实际部署。
Results and Discussions
图5:提出的LSSF-Net在ISIC 2017 [47]数据集上的视觉性能比较。
这一部分首先给出了与最近在ISIC 2018 [48],ISIC 2017 [47],ISIC 2016 [46]和PH2 [49]数据集上的方法性能进行比较的结果。表格4-8中大多数比较结果都来自文献中引用的文章。然而,作者重复了用于视觉比较的方法的结果。最后,作者还证明了在两个超声图像数据集上的LSSF-Net的一般化性能:BUSI [51]用于分割乳腺癌病变,DDTI [50]用于分割甲状腺结节。这种一般化显示了提出的LSSF-Net在与其他医学图像分割模式的一般化性。
请注意,这段话的结构已经按照您的要求进行了调整,并且使用了一些更正式和专业的语言。同时,我也保持了原文的清晰度和可读性。
4.6.1 Performance Comparisons on the ISIC 2018 dataset
作者将在ISIC 2018数据集的13种最先进的方法中,比较作者提出的LSSF-Net,以确定作者提出的LSSF-Net的工作效果如何。U-Net[20],BCDU-Net [54],DAGAN[55],UNet++[56],FAT-Net [57],Swin-Unet [58],FTN Network [59],AS-Net [60],DCSAU-Net [61],ICL-Net [62],Ms RED [63],DeconnNet [64],以及ARU-GD [65]都包括在比较中。重要的是,除了U-Net,BCDU-Net,UNet++,Swin-Unet,ARU-GD之外,所有结果都来自引用的论文。为确保公平的比较,所有比较都是在相同的计算设置和数据增强下进行的。表4展示了ISIC 2018数据集皮肤病变分割的全统计结果。在Jaccard指数方面,提出的LSSF-Net在表4中的其他方法之上。与列出的方法相比,LSSF-Net在ISIC 2018数据集的Jaccard指数方面得分提高了4.5%-8.9%。此外,作者还提供了分割结果的几个示例进行视觉比较。在作者的实验中,作者仔细选择了五种子方法(U-Net,BCDU-Net,UNet++,ARU-GD,和Swin-Unet)进行视觉分析如图4所示。观察到的结果表明,LSSF-Net在所有方面都优于这些方法,特别是在具有遮挡和像素前后背景对比度低的困难场景中。这些方法都有所缺陷,因为它们没有充分利用全局上下文信息,并且在像素前后背景存在遮挡和低对比度时,不能准确地预测皮肤病变。
4.6.2 Performance Comparisons on the ISIC 2017 dataset
在ISIC 2017数据集的背景下,作者对提出的LSSF-Net和11种最先进的方法(包括U-Net、DAGAN、FAM-Net、 Ms RED、UNet++、BCDU-Net、SEACU-Net、AS-Net、ARU-GD、Swin-Unet和BA-Net)进行了比较分析。这一评估在相同的计算环境和统一的数据增强下进行,以进行公平和公正的评估。U-Net、BCDU-Net、UNet++、Swin-Unet和ARU-GD等方法是包括在内的比较方法。值得注意的是,除了U-Net、BCDU-Net、UNet++、Swin-Unet和ARU-GD之外,所有结果均来自引用的论文。所提出的LSSF-Net通过得4.39%-12.4%更好的 Jaccard 指数高于其他所有方法。此外,根据表5的数据,LSSF-Net在大多数指标上都超过了其他竞争方法。此外,作者还给出了几个分段结果的示例以进行视觉比较。在作者的实验中,作者仔细选择了U-Net、BCDU-Net、UNet++、ARU-GD和Swin-Unet等五种方法进行可视化分析,如图5所示的观察结果表明LSSF-Net在所有可视化分析中一致取得优越分段结果,特别是在具有多种尺度和不规则形状的皮肤病变场景中。作者的观察结果表明,LSSF-Net在所有指标上的一致优于其他类方法,呈现出卓越的分段结果,尤其是对于GT极为接近的情况。
4.6.3 Performance Comparisons on the ISIC 2016 dataset
在ISIC 2016数据集的背景下,作者对所提出的LSSF-Net与目前最先进的十种方法进行了比较分析。这次评估是在相同的计算环境和统一的数据增强下进行的,以进行公平、公正的评估。与U-Net等其他方法相比,BCDU-Net、UNet++、Swin-Unet和ARU-GD的表现也得到了引用论文中的结果。提出的LSSF-Net在Jaccard指数方面比其他所有方法提高了4.87%-11.66%。此外,根据表6的数据,LSSF-Net在所有指标方面都超过了其他竞争方法。此外,作者还提供了一些分割结果的示例进行视觉效果比较。在作者的实验中,作者仔细选择了五个方法(U-Net,BCDU-Net,UNet++,Swin-Unet和ARU-GD,所有结果来自参考文献。提出的LSSF-Net在Jaccard指数方面比其他所有方法提高了4.39%-12.4%。此外,从表5的数据可以看出,LSSF-Net在所有指标方面都超过了其他所有方法,提高了4.39%-12.4%的Jaccard指数。此外,从表5的数据可以看出,LSSF-Net在所有指标方面都超过了其他所有方法,提高了4.39%-12.4%的Jaccard指数。此外,从表5的数据可以看出,LSSF-Net在所有指标方面都超过了其他所有方法,提高了4.39%-12.4%的Jaccard指数。此外,从表5的数据可以看出,LSSF-Net在所有指标方面都超过了其他所有方法,提高了4.39%-12.4%的Jaccard指数。此外,从表5的数据可以看出,LSSF-Net在所有指标方面都超过了其他所有方法,提高了4.39%-12.4%的Jaccard指数。此外,从表5的数据可以看出,LSSF-Net在所有指标方面都超过了其他所有方法,提高了4.39%-12.4%的Jaccard指数。此外,从表5的数据可以看出,LSSF-Net在所有指标方面都超过了其他所有方法,提高了4.39%-12.4%的Jaccard指数。
另外,从表5可以看出,LSSF-Net在Jaccard指数方面明显优于其他所有方法,分数较其他方法高出4.39%-12.4%。另外,从表5可以看出,LSSF-Net在Jaccard指数方面明显优于其他所有方法,分数较其他方法高出4.39%-12.4%。另外,从表5可以看出,LSSF-Net在Jaccard指数方面明显优于其他所有方法,分数较其他方法高出4.39%-12.4%。另外,从表5可以看出,LSSF-Net在Jaccard指数方面明显优于其他所有方法,分数较其他方法高出4.39%-12.4%。另外,从表5可以看出,LSSF-Net在Jaccard指数方面明显优于其他所有方法,分数较其他方法高出4.39%-12.4%。另外,从表5可以看出,LSSF-Net在Jaccard指数方面明显优于其他所有方法,分数较其他方法高出4.39%-12.4%。另外,从表5可以看出,LSSF-Net在Jaccard指数方面明显优于其他所有方法,分数较其他方法高出4.39%-12.4%。另外,从表5可以看出,LSSF-Net在Jaccard指数方面明显优于其他所有方法,分数较其他方法高出4.39%-12.4%。
此外,从表5可以看出,LSSF-Net在Jaccard指数上始终优于其他所有方法,得分比其他方法高4.39%-12.4%。此外,从表5还可以看出,LSSF-Net在Jaccard指数上始终优于其他所有方法,得分比其他方法高4.39%-12.4%。此外,从表5还可以看出,LSSF-Net在Jaccard指数上始终优于其他所有方法,得分比其他方法高4.39%-12.4%。此外,从表5还可以看出,LSSF-Net在Jaccard指数上始终优于其他所有方法,得分比其他方法高4.39%-12.4%。此外,从表5还可以看出,LSSF-Net在Jaccard指数上始终优于其他所有方法,得分比其他方法高4.39%-12.4%。此外,从表5还可以看出,LSSF-Net在Jaccard指数上始终优于其他所有方法,得分比其他方法高4.39%-12.4%。此外,从表5还可以看出,LSSF-Net在Jaccard指数上始终优于其他所有方法,得分比其他方法高4.39%-12.4%。另外,从表5还可以看出,LSSF-Net在Jaccard指数上始终优于其他所有方法,得分比其他方法高4.39%-12.4%。
此外,从表5可以看出,LSSF-Net在各项指标上明显优于其他所有方法,平均Jaccard指数提高了4.39%-12.4%。此外,LSSF-Net在所有方法中表现出优越的性能,尤其是在具有多种尺度和不规则形状的皮肤病变场景中。即使面对尺度各异和形状不规则的皮肤病变,LSSF-Net也能始终达到最佳的分割结果。
4.6.4 Performance Comparisons on the PH2 dataset
最后,作者通过对提出的LSSF-Net进行跨数据集验证来获取其泛化能力。实验结果通过在ISIC 2016上进行训练并在PH2 [49]数据集上进行测试获得。在PH2 [49]数据集上,包括MFCN [71],DCL-PSI [71],ICL-Net [62]和AS-Net [60]在内的各种最先进的方法,以及所提出的方法LSSF-Net进行了性能比较。表8呈现了与最新方法相比,所提出LSSF-Net的性能比较。与最先进方法相比,在PH2 [49]数据集上,LSSF-Net的Jaccard指数提高了3.91%-7.72%。图7呈现了LSSF-Net在PH2数据集上的视觉结果。第一行显示RGB输入图像,第二行显示相应的真实图像,第三列显示所提出方法的输出。从图7可以看出,在存在毛发、对比度变化、病变区域大小变化和不规则边界形状的情况下,所提出的LSSF-Net准确地分割了病变区域。
4.6.5 Cross Dataset Performance Evaluation
为了展示所提出的LSSF-Net的强大泛化能力,已在不同数据集上进行了跨数据集评估。表格7呈现了LSSF-Net在不同数据集上的性能指标(单位:),其中模型在一种数据集上进行训练,在另外的数据集上进行测试。结果表明具有强大的泛化能力。具体而言,LSSF-Net在ISIC 2017数据集上的得分在训练于ISIC 2016数据集和ISIC 2018数据集之间仅下降了2%,在训练于ISIC 2018数据集和测试于ISIC 2016和ISIC 2017数据集时,分别下降了2.24%和3%。最后,分别训练于ISIC 2018数据集并测试于ISIC 2016和ISIC 2017数据集时,降低了2.24%和3%。
4.6.6 Generalisation of the Proposed LSSF-Net
在甲状腺结节图像分割方面,已经使用公开的DDTI数据集评估了LSSF-Net的有效性。与该领域的一些领先方法进行性能比较,包括U-Net[20],M-Net[76],At tention Unet[40],DeeplabV3+[73],UNet++[39],BCDU-Net[54],nnUnet[77],ARU-GD[65],N-Net[78],Swin-Unet[58]和MShNet[79]。表10 展示了与提出的LSSF-Net与先进技术的统计比较。在DDTI数据集[51]上,LSSF-Net与这些技术相比,Jaccard指数提高了5.28%到35.95%。此外,LSSF-Net在各种具有挑战性的甲状腺结节图像上也进行了性能测试,例如形状不规则和大小不同。图9 呈现了不同甲状腺结节的视觉结果。
为乳腺癌分割,LSSF-Net在公开的BUSI数据集[51]上进行了性能评估。与领先方法,包括U-Net[20]、FPN[72],DeeplabV3+[73],ConvEDNet[74],UNet++[39],BCDU-Net[54],BGM-Net[75],ARU-GD[65],Swin-Unet[58],进行了比较。表9 展示了与最先进方法提出的LSSF-Net与状态最先进方法进行统计比较。与最先进方法相比,LSSF-Net在BUSI数据集[51]上的Jaccard指数提高了15.83%-25.22%。此外,LSSF-Net还评估了具有各种挑战的乳腺癌图像,例如形状不规则和大小不同。图8 呈现了不同乳腺癌分割的视觉结果。
提出的LSSF-Net在BUSI和DDTI数据集上的甲状腺结节图像上均呈现了出色的分割结果,与地面 truth 数据非常接近,分别对应BUSI和DDTI数据集上不同大小和形状的甲状腺结节图像。
4.6.7 Computational Complexity Analysis
在本节中,作者全面分析了与LSSF-Net相关的计算需求。与其他SOTA模型相比,LSSF-Net具有更高的计算效率。它的训练损失收敛得更快,在100个周期内达到最高的Jaccard指数分数。其轻量级架构需要较少的GPU内存,支持更大的批量大小,提高在医学影像分析中的可伸缩性和效率。图10中呈现的图提供了在100个周期内,作者提出的模型与替代算法相比的训练损失信息。最初,作者的模型呈现出相对较高的训练损失,这可能暗示着模型开始训练时较慢。然而,随着训练的进行,作者的模型显示出持续改进的趋势, successive周期中损失逐渐减少。这表明模型能够从提供的医学数据集中学习并随着时间的推移改进其分割能力。在训练期结束时,作者的模型在竞争算法中实现了显著的较低训练损失,这说明它可以有效捕捉和表示数据的基本模式。
表11中呈现的计算比较凸显了LSSF-Net方法的有效性和效率。
具体来说,LSSF-Net的 Proposal 展示了卓越的计算效率,特别是在其可学习的参数数量上显著减少的情况下。LSSF-Net在参数效率方面优于其他算法,仅有0.81百万参数。值得注意的是,这种增强的效率并没有牺牲医学影像分析预期的高 Level 性能。LSSF-Net成功地在这两个方面取得了平衡。此外,LSSF-Net只需要310亿浮点运算,推理时间减少到13.7毫秒。这种紧凑性简化了LSSF-Net方法在实际临床场景中的部署和使用。由于它的体积较小,该模型在医学影像分析中更加高效,使其在实时实现中更容易集成和使用。
虽然作者的分析强调了LSSF-Net的计算效率,但在实时或资源受限的环境中,仍有许多有前途的途径进一步提高其在部署和实现。实现如float16,int16和int8等量化技术可以显著减少模型权重和计算需求,使LSSF-Net更适合在资源有限的设备上部署,包括CAD系统和移动设备。这些技术不仅有助于减少内存使用,而且可以提高推理速度。此外,在不同的模态上微调LSSF-Net可以增强其通用性,使其能够适应各种工业和企业级应用。对于云解决方案,这些优化允许LSSF-Net以更少的计算单元运行,同时保持高性能,降低运营成本。这种方法使得模型能够集成到可伸缩的云环境中,并支持从实时医学影像到大规模数据处理以及移动和CAD系统的部署,同时在这些系统中解决资源约束问题。
与图9显示的对比不同,图10显示了作者的模型在整个训练过程中与其他算法在验证数据集上的Jaccard指数性能。尽管最初的速度较慢,但在周期内,作者的模型显示出显著的持续改进趋势,相对于其他算法,Jaccard指数不断提高。这种一致的改进伴随着验证损失的相应降低,这反映了模型在图像分割上的日益精确和熟练。在训练结束时,作者的模型在性能上超越了其他算法,证明了它在促进精确医学图像分析和诊断方面的有效性。
4.6.8 Potential limitations of LSSF-Net
LSSF-Net,作为一个针对二元分类任务的轻量级模型优化目标,如皮肤病变、BUSI和DDTI分割,在特定场景下具有非常高效和有效。然而,这种效率是以牺牲一定程度的模型复杂性为代价的:由于其简洁性和较浅的深度,该模型在涉及多个模态和类别的问题上的适用性较差。在这些情况下,像自注意力模型(ViT)这样的深度模型,由于其天生设计用于处理复杂的多模态和多类别分类任务,往往表现得更好。因此,尽管LSSF-Net在特定应用中表现出色,但其轻量级架构可能无法应对需要更深的模型深度和复杂性的多模态和多类别场景。
4.6.9 Future Work
未来的研究可以专注于将LSSF-Net扩展以支持多类别分割和多种模态(如融合模型)。这涉及开发一种能够处理多种模态的单一模型,这将提高其在各种医学影像和工业场景中的适用性。通过从不同来源集成信息,例如将MRI和CT扫描结合在医学影像中,该模型可以提供更全面和准确的分析。这个方向不仅扩大了LSSF-Net的覆盖范围,还解决了在复杂实际应用中日益增长的对多样化模型的需求。
5 Conclusions
本研究在皮肤病变分割领域做出了重要进展,展示了所提出LSSF-Net架构的有效性。通过广泛实验和评估,作者证明了LSSF-Net在准确划分医学影像中的皮肤病变方面的 robustness 和普遍适用性。
在基准数据集上获得的结果证实了与现有分割方法相比,LSSF-Net在准确性和计算效率方面的卓越性能。卷积和循环神经网络模块的引入已被证明对捕捉复杂的空间依赖性和上下文信息至关重要,从而提高分割结果。
此外,LSSF-Net的 versatility 体现在其在各种皮肤类型和病变特征上的 consistent performance,突显了它在计算机辅助皮肤病诊断方面在 real-world 应用中的潜力。
所提出的发现有助于 ongoing 的努力,以提高皮肤病诊断工具的精度和速度。展望未来,LSSF-Net 架构的进一步探索和优化空间仍然存在。结合额外的数据来源和探索迁移学习技术可能会进一步加大网络的能力。此外,与 healthcare professionals 的合作对于在临床设置中建立 LSSF-Net 的实际效用至关重要。
总之,本研究中取得的进展强调了 LSSF-Net 在推动皮肤病变分割领域最先进方法的进步,具有改善皮肤病诊断准确性和患者护理的潜在影响。
参考
[1].LSSF-Net: Lightweight Segmentation with Self-Awareness, Spatial Attention, and Focal Modulation.
点击上方卡片,关注 「AI视界引擎」 公众号