WiT-UNet | 嵌套Short-Cut和 Window Transformer 一起扛起性能大旗 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

低剂量计算机断层扫描（LDCT）已成为诊断医学成像的首选技术，这是由于与X射线辐射和传统计算机断层扫描（CT）技术相关的潜在健康风险。尽管LDCT与标准CT相比使用较低的辐射剂量，但它导致了图像噪声的增加，这可能会影响诊断的准确性。

为了解决这一问题，已经开发了基于高级深度学习的LDCT去噪算法。这些算法主要利用卷积神经网络（CNNs）或Transformer网络，并且通常采用Unet架构，通过 Short-Cut （skip connections）整合编码器和解码器的特征图来增强图像细节。然而，现有方法过分关注编码器和解码器结构的优化，而忽视了Unet架构本身潜在的增强。

由于编码器和解码器在特征图特性上有显著差异，这种疏忽可能会成为问题，简单的融合策略可能会阻碍有效的图像重建。在本文中，作者介绍了WiTUnet，这是一种新颖的LDCT图像去噪方法，它使用嵌套的密集 Short-Cut 路径代替传统的 Short-Cut ，以改善特征融合。

此外，为了应对传统Transformer在大图像上的高计算需求，WiTUnet融入了一种窗口化Transformer结构，该结构以较小的、不重叠的片段处理图像，显著降低了计算负载。

此外，作者的方法在编码器和解码器中均包含一个局部图像感知增强（LiPe）模块，以替代Transformer中的标准多层感知机（MLP），从而提高局部图像特征的捕捉和表示。通过大量的实验比较，WiTUnet在峰值信噪比（PSNR）、结构相似性（SSIM）和均方根误差（RMSE）等关键指标上已经显示出优于现有方法的表现，显著提高了去噪和图像质量。

关注公众号，私信「获取代码」获取链接地址。

1 Introduction

近年来，低剂量计算机断层扫描（LDCT）作为降低X射线辐射暴露的有前景的方法，受到了医学界和公众的广泛关注[11]。尽管LDCT技术在一定程度上减轻了与全剂量计算机断层扫描（FDCT）相关联的辐射风险，但同时它也导致了图像质量的显著下降。这种质量下降主要是由LDCT图像中存在的严重噪声和伪影[18]引起的，这给准确疾病诊断带来了挑战。因此，在确保辐射安全[16]的同时提高图像质量的双重目标，已经成为医学成像领域的关键研究课题。

为了提高低剂量计算机断层扫描（LDCT）图像的质量，降噪是一项主要且直接的战略。然而，由于LDCT图像降噪问题的不适定性，这依然是一个艰巨的挑战[7]。为了解决这个问题，研究行人采取了两种主要方法：传统方法和深度学习方法（例如，卷积神经网络（CNN）[2][6]和Transformer[21][22]）。传统方法采用迭代技术和配备特定先验信息的物理模型有效抑制噪声和伪影。然而，由于硬件限制和计算需求，这些方法对于商用CT扫描仪来说通常是不可行的[25]。相反，随着深度学习技术的发展，基于CNN的方法已经取得了最先进的表现[28]。特别是，Chen等[2]引入了一种残差编码器-解码器CNN结构，即RedCNN，它通过利用残差学习和与Unet[14]类似的结构实现了有效的降噪。此外，像DnCNN[28]、CBDnet[5]和NBNet[3]这样的架构在图像处理中表现出了鲁棒性，并且适合处理实际噪声。DnCNN通过使用残差学习和批量归一化有效地去除了高斯噪声。相比之下，CBDnet通过五个卷积层增强噪声水平估计，显著提高了网络在噪声滤波中的泛化性能。NBNet通过在编码器和解码器之间的不同下采样层集成卷积网络来优化特征图的融合，显著提高了去噪性能。这些深度学习方法已被证明是LDCT图像降噪的有效解决方案，在实际应用中取得了令人满意的结果。它们为提高医学图像质量和临床诊断的精确性提供了关键的技术支持。

尽管基于卷积神经网络（CNN）的方法在图像去噪方面最近取得了显著的进展，但这些方法主要还是依赖于使用卷积层来提取特征。然而，卷积层在捕捉局部信息方面存在限制，导致基于CNN的方法严重依赖于多层相互连接的卷积层来获取非局部信息。此外，对编码器-解码器结构的研究仍然相当匮乏。

近年来， Transformer 模型[20]因其强大的全局感知能力，显著推进了自然语言处理（NLP）领域的发展。这些模型在计算机视觉（CV）领域也取得了实质性进展。在这种整合中的一个显著努力是Dosovitskiy等人开发的视觉 Transformer （ViT）[4]，通过将图像转换为作为 Transformer Token 的块，建立了CV与 Transformer 之间的联系。继此之后，Liu等人引入了Swin Transformer [9]，通过块融合和循环移位机制增强每个 Token 的上下文敏感性。

然而，LDCT图像（通常是512 x 512）的大尺寸由于全局注意力的计算需求而带来挑战。对此，Wang等人[21]提出了CTformer，采用编码器-解码器架构中的重叠窗口 Transformer 和Token2Token扩张策略进行LDCT图像去噪，取得了令人印象深刻的结果。 Transformer 的全局感知能力，结合注意机制的引入，使这些模型能够克服仅限于局部特征感知的卷积层的局限性。这使得基于 Transformer 的方法能够增强全局特征提取，促进远程特征交互，从而为LDCT图像去噪利用更全面的信息。

当前的方法，无论是基于卷积神经网络（CNNs）还是 Transformer （Transformers），都表现出一定的局限性。基于CNN的模型受到其感受野的限制，这限制了它们在特征图内提取远距离上下文信息的能力。另一方面，基于Transformer的方法虽然在全局信息提取方面很强大，但往往忽视局部细节，并且由于其全局注意力机制，计算复杂度较高。此外，利用CNN或Transformer的方法通常在编码器和解码器之间直接通过跳跃连接连接特征图，这可能导致这些组件间上下文信息的最优对齐不佳。这种错位可能会对重建结果产生不利影响，从而影响临床诊断的准确性。

本文介绍了一种新颖的编码器-解码器架构，该架构融合了卷积神经网络（CNNs）和Transformer，以利用它们的互补优势。在这种架构中，使用嵌套的密集跳跃路径确保了编码器与解码器之间的语义一致性，从而增强了特征图的整合。通过结合CNNs和Transformers，该网络在关注全局信息的同时，保持了对于局部细节的敏感性，有效地提取了局部和非局部特征。与现有网络的广泛实验研究及对比表明，此方法显著降低了低剂量计算机断层扫描（LDCT）图像中的噪声，并提升了图像质量。

本文的主要贡献如下：

为了解决低剂量计算机断层扫描（LDCT）的去噪挑战，作者引入了一种新颖的编码器-解码器架构。该架构具有一系列嵌套的密集跳跃通路，这些通路被特别设计用来有效地将编码器中的高分辨率特征图与解码器中语义丰富的特征图整合在一起，从而增强信息对齐。
认识到非局部信息对全局感知的重要性，同时考虑到传统全局注意力机制的计算需求较高，作者提出了一种非重叠窗口自注意力模块。这个模块被整合到作者新的编码器-解码器架构中，显著提高了对非局部信息全局感知的能力。
为了提高 Transformer 模块内对局部信息的敏感度，作者开发了一个新的基于CNN的块，名为局部图像视角增强（LiPe）。这个块替换了 Transformer 中的传统MLP，从而增强了局部细节的捕捉。

2 Related work

Cnn

图像重建（去噪）旨在从图像的损坏版本中恢复清晰度。在图像去噪领域，一个受欢迎的解决方案是使用带有跳跃连接的U形结构逐步捕捉多尺度信息以构建高效模型[3][27][7]。张等人[29]提出了一种基于卷积神经网络（CNN）的图像去噪方法，通过引入残差学习技术，使网络能够更好地学习图像中的噪声模式。通过引入残差学习技术，网络可以更好地学习图像中的噪声模式，从而提高去噪效果。这种方法已经在实验中被证明在去噪性能上有明显优势，对各种类型和强度的噪声表现出良好的鲁棒性，为残差学习图像去噪方法的发展带来了新的突破。陈等人[2]，在低剂量计算机断层扫描（LDCT）图像去噪领域的先驱，提出了RED-CNN，将卷积、反卷积和跳跃连接融入到具有U形结构的编码器-解码器卷积神经网络中，展示了深度学习方法。杨等人[24]使用带有Wasserstein距离的生成对抗网络（WGAN）来借助感知损失提高去噪后图像的质量。

由于WGAN在生成丰富的真实世界CT图像中的作用，以及感知损失在提高去噪图像质量中的作用，该模型避免了去噪图像中的过渡平滑现象，并保留了图像中的重要信息。通过关注如何使用损失函数，网络可以更好地训练以产生尽可能接近FDCT的图像。田等[7]提出了一种关注引导的去噪卷积神经网络（ADNet）。该网络通过使用稀疏的膨胀卷积块和普通卷积去除噪声，平衡了性能和效率。特征增强块整合全局和局部特征信息，解决复杂背景中隐藏噪声的问题。作者提出了三个相互补充的有效块来解决去噪问题：稀疏块提高了效率，但可能导致信息丢失；特征增强块弥补了这一缺陷；关注块有助于从复杂背景中提取噪声。

陈等[3]提出了一种利用U形结构的深度卷积神经网络NBNet。该网络能够学习图像的噪声基础，并通过子空间投影将噪声从图像中分离。其U形结构使得网络能够在编码器和解码器之间交换信息，更好地捕捉图像中的细微特征并进行准确去噪。该研究的实验结果表明，NBNet在各种类型和强度的噪声下都取得了优秀的去噪效果，为图像去噪领域带来了新的高效方法。

黄等[7]提出了用于LDCT图像去噪的DU-GAN方法，该方法利用基于U-Net的判别器在图像和梯度域中学习去噪图像与FDCT图像之间的差异。他们还应用了另一个基于U-Net的判别器来减少去噪CT图像的伪影并增强边缘。尽管在GAN中使用U-Net作为判别器以及双域训练策略增加了一些计算成本，但性能的提升是可以接受的。

尽管前面的讨论突出了基于卷积神经网络架构的各种图像去噪方法，但这些方法经常遇到特定的限制。首先，卷积神经网络模型受到局部感受野的限制，这阻碍了它们捕获大距离范围内的全局信息，特别是在大图像中。这个限制可能会对它们的表现产生不利影响。其次，尽管卷积神经网络中的U型结构和跳跃连接有助于低层次和高层次特征的有效传输，但编码器和解码器之间进行高效信息交换的机制尚未完全优化，可能导致信息丢失或冗余。相比之下，Transformer模型在全球感知方面表现出色，可以在不受局部感受野限制的情况下捕获长距离依赖关系，与CNN不同。此外，Transformer内的注意力机制能有效关联不同图像位置的信息，从而促进更一体化的全局和局部特征结合方法。

Transformer

杨等人[23]深入研究了CT成像机制和正弦图统计特性，设计了一种内部结构损失，该损失包含了全局和局部内部结构，以增强CT图像质量。此外，他们引入了一个正弦图变换模块，以更有效地捕捉正弦图特征。通过关注常常被忽视的正弦图的内部结构，他们显著减少了图像伪影。王等人[22]提出了一种新颖的局部增强窗口（LeWin）转换块，使用非重叠的基于窗口的注意力机制，以降低在捕捉局部信息时对高分辨率特征图的计算需求。将此模块应用于U-net架构中，他们的方法在图像重建中取得了优异的结果。在另一项贡献中，王等人[21]在U型编码器-解码器架构中使用了重叠窗口 Transformer 和Token2Token膨胀策略开发了一种CT前馈网络，用于LDCT图像去噪，取得了卓越的性能。 Transformer 的全局感知能力和注意力机制的整合不仅克服了卷积层局部特征感知的限制，而且增强了全局特征提取并促进远距离特征交互，从而丰富了用于LDCT图像去噪的信息。

虽然Transformers擅长处理全局信息，但与CNN相比，在局部感知方面相对较弱。这种局限性在处理详细图像信息时可能导致次优性能。此外，现有研究大量集中在提高Transformers在图像处理任务上的能力，却常常忽略了与Unet架构的整合。这种疏忽可能会限制它们在同时捕捉局部和全局特征方面的有效性。因此，将CNN与Transformers结合起来，利用两种架构的优势，并彻底研究在这一背景下Unet结构的兼容性和有效性是至关重要的。

3 Method

在本节中，作者首先描述了网络的总体架构。随后，作者介绍了窗口 Transformer （WT）模块，它包括窗口化多 Head 注意力（W-MSA）和局部信息感知增强（LiPe）。这些元素构成了编码器和解码器中的基础组件。最后，作者讨论了嵌套密集块，其特点在于嵌套密集的跳跃路径，这些路径促进了编码器特征图与解码器特征图之间的跳跃连接。

Overall architecture

WiTUnet被提出为一种U形的网络架构，如图1（a）所示。该网络由编码器、瓶颈、解码器和中间嵌套的密集块组成。特别是，在处理损坏的图像时，即表示为的低剂量计算机断层扫描（LDCT）图像，WiTUnet首先使用一个输入嵌入层，一个步长和填充设置为1的卷积层，将原始数据转换为特征图。遵循U形架构[14]，这些特征图通过个编码器块进行处理，每个编码器块包含几个窗口 Transformer （WT）块，其中包含一个窗口化多 Head 自注意力（W-MSA）块。W-MSA块通过其自注意力机制捕捉非局部信息，并通过非重叠窗口减少计算复杂性，结合局部信息感知增强（LiPe）以精确捕捉特征图中的局部细节和全局信息。编码器每一级的输出都通过一个步长为2的卷积层进行下采样，作为下一编码器层的输入，其中特征图的通道数翻倍，其尺寸减半。经过层编码后，特征映射表示为，其中。

picture.image

在最后一个编码器层和解码器之间，引入了一个由WT块组成的瓶颈层，输出特征图为。这个瓶颈层被设计为更有效地捕捉全局信息。例如，当编码器深度足够时，最深特征图的尺寸与窗口大小相匹配，使得W-MSA能够高效地捕捉全局信息，而LiPe模块则保持对局部细节的敏感性。因此，网络可以在不需要循环移位[9]的情况下感知全局信息。

在解码器部分，特征图经历个 Level 的解码处理。解码器的结构与编码器相似，采用堆叠的WT块。特征图通过使用转置卷积核进行上采样，该卷积核的步长为2，这会使得通道数减半，尺寸加倍。与传统的U形网络设计[14][22]一致，解码器接收来自相应编码器 Level 的跳跃路径连接，并将它们与来自前一个解码层的上采样输入相结合。在引入嵌套密集块之后，输入特征图的通道数增加，因此，在与编码器输出结合后，解码器的第级输入为[30]。为了与传统的U形网络解码器输出保持一致，解码器中的WT块调整输出特征图的通道数，得到，其中且。这种命名约定旨在简化在后续讨论中引入嵌套密集块。经过级解码处理后，最终的输出是，然后使用一个填充且步长设置为1的卷积输出投影层将其投影到，并将其加到原始LDCT图像y上以产生最终的重建图像，其中。

WiTUnet架构专门为满足LDCT去噪的独特要求而设计。最初，嵌套的密集块的使用加强了不同网络层之间的信息流动，这有助于在保留关键图像细节的同时减少噪声。此外，W-MSA模块与LiPe模块的结合使得通过窗口多头自注意力机制有效地捕获全局信息，并通过局部信息增强组件细化局部细节。这种整合优化了全局与局部信息之间的协同作用，使WiTUnet在LDCT图像处理中能够有效地平衡计算效率与重建质量。总的来说，WiTUnet以其创新的U形网络结构，优化了信息流和特征整合，为LDCT去噪提供了一个有效的解决方案。它显著提高了图像质量，而不会牺牲细节丰富性，从而为临床诊断提供了更清晰、更可靠的图像。

Window Transformer block

将Transformer应用于低剂量计算机断层扫描（LDCT）图像去噪领域面临着多重挑战。首先，标准的Transformer需要对所有标记进行全局自注意力计算，这导致了高计算复杂性[4][20]，特别是考虑到LDCT图像的高分辨率特性，这会增加特征图的维度并复杂化全局注意力计算。其次，尽管Transformer通过自注意力机制擅长捕捉长距离信息，但在图像去噪任务中保留局部信息至关重要，尤其是在对后续临床诊断至关重要的LDCT去噪中。考虑到Transformer可能不如卷积神经网络（CNN）那样有效地捕捉局部细节，融合CNN以获得更多局部细节变得尤为重要。

为了应对这些挑战，本研究采用了窗口 Transformer （WT）块，如图1(c)所示。WT块利用W-MSA有效捕获长距离信息，并通过窗口化方法显著降低计算成本。此外，LiPe替换了传统的MLP层，以增强WT块捕获局部信息的能力。图1(b)展示了多个WT块的堆叠效果。在解码器中，由于WT块后通道数的变化，在WT块后进行通道投影，而在编码器和瓶颈层中不这样做。值得注意的是，来自第()块的输入，表示为，通过W-MSA和LiPe进行处理。WT块内的计算可以用以下数学表达式表示：

在公式中，和分别代表W-MSA和LiPe的输出，而LN表示层归一化[1]。

基于非重叠窗口的多头自注意力（W-MSA）。在本文中，作者采用了非重叠的W-MSA机制，与视觉Transformer中使用的全局自注意力机制相比，大大降低了计算复杂性。考虑一个二维特征图，其中、和分别表示通道数、高度和宽度。作者将划分为个大小为的非重叠窗口，每个窗口被展平并转换为。然后，每个窗口都通过W-MSA进行处理，如果它有d个头，那么每个头分配一个维度。每个窗口内的自注意力计算如下：

在这里，, , 分别属于第 k 个 Head 的 Query 、键和值的投影矩阵，且 , , 。表示第 k 个 Head 从所有窗口获得的输出。通过连接所有 Head 的输出并应用线性投影，可以得到最终的输出。与之前的工作 [9][17] 一致，作者将相对位置编码纳入到作者的注意力机制中。因此，注意力的计算在数学上定义为：

在公式中，代表相对位置编码偏差，这是从可学习的参数获得的。W-MSA 将全局自注意力计算复杂度从降低到了。

局部图像视角增强（LiPe）。标准Transformer中的前馈网络（FFN），通常采用多层感知机（MLP），在捕捉局部信息方面能力有限[8]。对于低剂量CT图像去噪，精确恢复图像细节至关重要，因为这些细节对准确疾病诊断至关重要。由于卷积神经网络（CNN）卷积核的性质，CNN对局部信息表现出更高的敏感性。为了弥补MLP的不足，作者采用了先前研究[8][15][26]中的策略，用卷积块替换传统的FFN。如图2所示，作者首先使用线性投影来增加每个窗口特征图的通道数。随后，作者将窗口 Reshape 回原始特征图形式，并应用一个的卷积核来捕捉局部细节。之后，特征图被窗口化和展平，然后通过另一个线性投影将通道数恢复到原来的维度。在每一层之间，作者使用高斯误差线性单元（GELU）作为激活函数。

Nested dense block

图3(a)展示了WiTUnet结构的另一种视角，特别突出了嵌套密集块中的复杂嵌套密集跳跃路径连接。在图3中，代表编码器的阶段，其中，而表示解码器的阶段，其中且；表示瓶 Neck 分。剩余的图解重点介绍了本文中提到的嵌套密集块，与传统的U-Net架构的主要区别在于重新设计的跳跃路径（由绿色和蓝色箭头指示）。这些重新设计的关系改变了编码器与解码器之间的交互方式。不同于传统U-Net中，编码器的特征图直接传递给解码器，在这里，它们首先通过一系列密集卷积块传输。这些块中的层数与从跳跃连接收到的特征图的总通道数相关。本质上，密集卷积块将编码器特征图的语义层次与解码器中将要处理的特征图拉近。作者假设，当接收到的编码器特征图在语义上与对应的解码器特征图相似时，优化器在解决优化问题时面临更简单的任务。正式地，跳跃路径可以表示如下。设为节点的输出。表示下采样的深度，表示在嵌套块中的横向位置。

picture.image

需要指出的是，。其中符号表示上采样层，上采样操作如第3.1节所述。通常，的节点接收来自两个源的输入，的节点接收来自三个源的输入，以此类推，v=i的节点接收个输入。为了更清晰地理解所涉及的计算，图3(b)直观地描述了每个节点的计算过程。

4 Experiments and results

Experiments Detail

4.1.1 Datasets

该数据集作为2016年NIH-AAPM-梅奥诊所低剂量CT大挑战（LDCT Grand Challenge）[12]的一部分已公开发布，用于模型的训练和测试。该数据集包含全剂量（在120 和 200质量参考，或下获取）和四分之一剂量的图像对（模拟数据在120 和50 下获取）。它包括了来自十个匿名患者的腹部CT扫描。为了评估目的，使用了患者的数据，而其余九个患者的数据集用于模型训练。

CT扫描最初是以DICOM（医学数字成像和通信）格式存储的，像素尺寸为。为了加快处理速度，作者使用了Python库pydicom将原始数据转换为NumPy数组，并进行预处理和归一化。还应用了数据增强技术。作者通过随机旋转（90度、180度或270度）和翻转（垂直和水平）原始图像来生成额外的训练图像，从而进一步提升网络的性能。图4展示了数据集中样本对的一个子集。

picture.image

4.1.2 Train details

实验设置在Ubuntu 18.04.5 LTS操作系统上进行，使用了双AMD EPYC 9654 CPU。作者采用PyTorch [13] 深度学习框架实现了WiTUnet模型，该框架因其多功能性和用户友好的界面而被广泛认可。为了优化训练过程，作者采用了AdamW [10] 优化器，它以在大规模深度学习模型上的卓越性能而闻名。学习率设置为，betas参数的范围为(0.9, 0.99)。这些参数经过精心调整，以确保网络训练过程的优化效果。在训练期间，网络经历了200个周期，以彻底学习数据集的特征。此外，作者将批量大小设置为1，这是平衡内存使用和训练效率的常见做法。值得注意的是，为了加快训练阶段，计算在Nvidia RTX 4090 24G GPU 4上进行。GPU的并行处理能力可以显著提高深度学习模型的训练速度，使研究行人能够更快地进行实验和修改模型。### 结果

4.2.1 Evaluation measures

为了比较不同去噪方法的性能，作者采用了三种指标来确定去噪效果以及低剂量CT图像重建的质量。评估使用了以下指标：峰值信噪比（PSNR），结构相似性指数（SSIM），以及均方根误差（RMSE）。

峰值信噪比（PSNR）。PSNR是一个测量指标，它定义了信号可能的最大功率与影响其表示的噪声功率之间的比率。它经常被用来评估去噪后图像的质量。较高的PSNR表示处理后的图像质量更好。对于一个原始图像x和一个受噪声影响的图像y，PSNR定义如下：

在这里，MAX代表图像中的最大像素值。注意，对于CT图像，其中像素的Hounsfield单位（HU）值可能是负数，实际的MAX应该是最大和最小像素值之间的范围。

结构相似性指数（SSIM）。SSIM评估图像的相似性。它使用均值来评估亮度，使用标准差来评估对比度，以及使用协方差来评估结构相似性。对于图像x和y，SSIM在数学上表达为：

其中和，和分别代表和的均值和方差。是和的协方差。"C_{1}" 和 "C_{2}" 是用于稳定除法的常数。SSIM值范围从0到1，值越高表示和之间的相似性越大。

均方根误差（RMSE）。RMSE对两张图像中对应像素之间的误差很敏感。较低的RMSE值表示图像之间具有更高的相似性。

4.2.2 Comparing method

为了作者的比较分析，作者选择了几种备受推崇且最先进的方法，以便与本文提出的方法进行基准测试。本次比较所选的方法包括DnCNN [28]，REDCNN [2]，ADNet [19]，NBNet [3]，以及CTformer [21]。在后续章节中，将进行全面的比较，本研究提出的WiTUnet将针对这些方法进行严格的评估。

4.2.3 Quantitative results

为了展示本研究提出方法在去噪性能上的表现，以及其在抑制LDCT图像噪声的同时保留丰富细节的能力，图5展示了来自梅奥诊所2016年数据集的两个切片的去噪结果。感兴趣区域（ROIs）由红色虚线矩形框出。

picture.image

第一行，标记为（a）至（h）的图片展示了同一患者腹部CT扫描的相同解剖横截面，每一列代表一种不同的技术或条件。列（a）展示了原始的低剂量CT（LDCT）图像，该图像噪声较大，细节清晰度较低。列（b）显示了全剂量CT（FDCT）图像，作为参考标准，其清晰度明显更高，噪声更少。列（c）至（h）分别展示了经过不同去噪算法处理后的图像：DnCNN、REDCNN、ADNet、NBNet、CTformer和WiTUnet。这些图像与LDCT图像相比，显示出逐渐降低的噪声和提升的清晰度。在第一行下方，为每种技术提供了特定感兴趣区域（ROI）的放大视图，以便更仔细地观察去噪对图像中精细结构的影响。这种放大视图便于更详细地比较去噪效果，因为细微的纹理和对比度更为明显。第二行展示了差分图像，通过将FDCT图像从相应技术的去噪结果中减去获得。这些图像突出了处理图像与FDCT标准之间的差异，强调在去噪过程中噪声减少或某些细节可能改变的区域。这些差分图像中灰度强度的变化对应于每种去噪方法的有效性和特点。所有图像的显示窗口设置为范围[-160, 240] HU，以最佳地可视化软组织内的对比度和细节以及任何存在的伪影。此外，所有图像的亮度已进行调整，以保持统一的视觉标准，确保比较差异不是由于图像亮度的变化，而是由去噪算法本身造成的。

从视觉上看，所有比较的方法都表现出了值得称赞的降噪能力。然而，通过对处理过的图像进行详细检查以及放大感兴趣区域（ROIs），它们之间出现了明显的差异。例如，早期的去噪网络DnCNN，由于其简单的架构缺乏残差学习，没有达到与较新模型相当的去噪性能。REDCNN通过结合编码器-解码器结构和残差学习，显著提高了去噪效果。此外，ADNet在其跳跃连接中引入了卷积块，以改善编码器和解码器之间特征图的对齐，而NBNet则通过其注意力引导的CNN加强了局部细节的捕获，进一步提升了性能。尽管基于CNN的模型在捕捉局部信息方面表现出色，但它们在感知全局信息方面存在一定的局限性。CTformer通过采用Transformer网络及其注意力机制，提高了全局信息建模能力，相对于其他模型展示了更优越的去噪性能。然而，CTformer可能由于缺乏CNN架构的优势，在捕捉细微的局部细节方面可能略显不足。WiTnet结合了窗口Transformer的全局信息建模和LiPe的局部信息捕捉能力，并利用嵌套密集块进行有效的特征图对齐，在去噪方面已经显示出特别显著的结果。

表1展示了每种去噪方法的SSIM、PSNR和RMSE得分。SSIM和PSNR的较高值表示图像质量更优越，而较低的RMSE值则意味着与图像原始状态相比误差有所减小。作为一个早期的去噪模型，DnCNN的性能反映了传统CNN架构在图像去噪任务中的局限性。由于其结构相对简单，没有高级特性如残差学习或注意力机制，导致在所有三个关键指标上得分最低。REDCNN在DnCNN的框架基础上，通过融入编码器-解码器结构和残差学习，取得了更好的性能，尤其是在图像细节保留（SSIM）和整体图像质量（PSNR）方面。这表明编码器-解码器架构对于增强特征提取和图像重建是有益的。ADNet通过在其跳跃连接中引入卷积块进一步提升了性能。这种结构优化有助于对齐编码器和解码器的特征图，从而在SSIM和PSNR上取得更好的结果，并在最小化误差（RMSE）方面显著改善。NBNet凭借其注意力引导的CNN，增强了网络捕捉局部特征的能力。尽管SSIM略有下降，但它保持了相对较低的RMSE，显示出在细节捕捉方面的潜力。CTformer采用了基于Transformer的网络架构，擅长捕捉全局依赖性，提高了SSIM和PSNR指标，但在RMSE上的表现不如WiTnet，这可能是因为与基于CNN的结构相比，它在捕捉细节方面的能力较弱。WiTnet融合了窗口Transformer的全局建模能力与CNN捕捉局部特征的优点，并通过嵌套密集块进一步增强，在所有指标上表现出最佳性能。其先进的网络结构显著改善了去噪结果，特别是在保持图像结构和减少重建误差方面。

图6便于比较六种去噪方法的结果：DnCNN、REDCNN、ADNet、NBNet、CTformer和WiTnet，展示了它们在三个关键指标上的统计性能：SSIM、PSNR和RMSE。DnCNN作为一个早期的去噪网络，其结构简单且缺乏残差学习，在所有指标上表现出最弱性能，反映出其在保持图像质量方面的局限性。相比之下，REDCNN通过结合编码器-解码器结构和残差学习，显著提高了其去噪能力，特别是在提高SSIM和PSNR分数方面尤为明显。在此基础上，ADNet通过优化跳跃连接与卷积块进行更好的特征图对齐，进一步提高了去噪效果，特别是在PSNR的提升上尤为显著。NBNet利用其注意力引导的卷积神经网络强化了局部信息捕获，在SSIM上略有提升，尽管它在RMSE上的改进不如ADNet那么显著。CTformer引入了Transformer网络，利用其非局部信息建模能力在所有指标上展示出更好的去噪效果，但在RMSE上略逊于WiTUnet，表明在局部细节恢复方面还有改进空间。WiTUnet结合了窗口Transformer的全局建模能力与局部信息捕获，并通过嵌套密集块对齐进行增强，在所有评估指标上表现出最佳性能，特别是在结构保留和误差最小化方面。这些结果不仅展示了先进去噪网络架构的强大能力，也反映了架构设计在影响去噪质量方面的重要性。

picture.image

4.2.4 Ablation study

消融研究旨在验证所提出的LiPe模块和嵌套密集块在提高网络去噪性能方面的有效性。通过使用结构相似性指数（SSIM）、峰值信噪比（PSNR）和均方根误差（RMSE）作为性能指标来评估每个模块对去噪的影响。在这里，符号代表50iPe模块，而表示嵌套密集块。缺少意味着使用多层感知机（MLP）作为前馈网络（FFN），缺少则表示使用传统跳跃连接，如常规Unet架构中所见。从作者的观察来看，当既不使用也不使用时，网络在所有指标上的性能都是最低的。引入后，所有评估指标都有了显著的改善，这表明网络对局部信息处理有了增强的关注。同样，加入导致了编码器和解码器之间特征图的对齐程度更高，从而使网络能更有效地从低剂量CT（LDCT）数据中重建FDCT图像。同时使用和在SSIM、PSNR和RMSE上均取得了最高结果，表明这两个模块的整合不仅提高了网络的局部特征提取能力，还促进了编码器和解码器特征图之间信息的更好对齐。

5 Discussions

表2：WiTUnet的消融研究结果。该表展示了LiPe模块（）和嵌套密集块（）对WiTUnet去噪效果的影响。报告的指标包括SSIM、PSNR和RMSE。结果表明，不使用任何模块的性能最低。仅实施LiPe模块可以提供轻微的增强，而仅采用嵌套密集块则能提供进一步的改进。结合两个模块的使用在所有三个指标上实现了最高性能，突显了组合模块的有效性。

picture.image

WiTUnet网络在处理LDCT图像去噪这一具有挑战性的任务上表现出色，其结构创新证明了这一点。嵌套密集块架构巧妙地改进了编码器和解码器之间的信息交换，这一特性在促进优化过程中至关重要。这些进步强调了架构设计在医学图像处理中的关键作用，并为去噪性能设立了新的基准。

参考

[1].WiTUnet: A U-Shaped Architecture Integrating CNN and Transformer for Improved Feature Alignment and Local Information Fusion.

点击上方卡片，关注「AI视界引擎」公众号

​WiT-UNet | 嵌套Short-Cut和 Window Transformer 一起扛起性能大旗

1 Introduction

2 Related work

3 Method

4 Experiments and results

5 Discussions

参考

WiT-UNet | 嵌套Short-Cut和 Window Transformer 一起扛起性能大旗