SAM 与 YOLOv8 协同 | U-Net 框架下的 Mamba 集成，提升 3D 图像分割性能！ - 文章 - 开发者社区

点击下方卡片，关注

「AI视界引擎」

公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

本文提出了一种新颖的多核估计方法，通过增强KernelGAN算法[1]，该算法传统上对整个图像估计一个核。

作者引入了Multi-KernelGAN，通过基于目标分割 Mask 估计两个不同的核来扩展KernelGAN的能力。

作者的方法通过三种不同的方法进行了验证：

基于纹理的贴片FFT计算，基于细节的分割，以及使用YOLOv8[2]和Segment Anything Model (SAM)[3]的深度学习目标分割。

在这些方法中，YOLO与SAM的结合在核估计方面取得了最佳结果。

实验结果表明，作者的多核估计技术在超分辨率任务中超过了传统的单核方法。

1 Introduction

Super-Resolution Problem Overview

超级分辨率（SR）是图像处理领域的一个重要挑战，在研究和实际应用中引起了广泛关注，包括图像增强。

SR过程的目标是通过从低分辨率（LR）图像

重建出类似于原始形式的详细高分辨率模式，从而提高图像的质量，生成高分辨率（HR）图像

。通常，在图像SR研究的背景下，

会受到模糊核

和加性噪声的影响而产生降质。这种关系可以数学地表示为方程式1所示。

picture.image

Blind and Non-Blind SR Methods

超级分辨率（SR）方法可以广泛地分为非盲方法和盲方法，各自具有独特的算法。

非盲态超分辨率方法假设退化模型，如模糊核或噪声，已知或固定。这些方法依赖于大量的训练数据，通常直接从高分辨率和低分辨率图像对学习超分辨率过程。通常基于深度学习，非盲SR模型将低分辨率图像映射到其高分辨率对应物。尽管这些方法可以产生令人印象深刻的成果，但当实际退化与训练过程中观察到的退化不同，其性能往往下降。

对比而言，盲式SR方法更关注于更具有挑战性的场景，即降维模型未知。这些方法并非依赖预训练模型或固定的降维假设，而是直接从测试图像中估计降维过程。这些方法通常利用图像内部本身的统计模式。

Irani，Shocher和Cohen的工作表明，几乎每张图像都包含在不同尺度或区域内的重复模式（例如，5x5或7x7的 Patch ）。这些模式使得可以从单个图像中进行超分辨率，无需依赖外部数据集，依靠内部图像统计，这个过程被称为单图像超分辨率（SISR）[4]。

ZSSR and KernelGAN

"零样本超分辨率"（Zero-Shot Super-Resolution，简称ZSSR） [5] 采用这种方法，利用内部卷积神经网络（CNN）学习将低分辨率（LR）图像映射到其高分辨率（HR）对应物。该方法通过双立方插值降低LR图像，然后训练CNN以重构LR图像。接下来，将训练好的网络应用于生成HR图像。值得注意的是，与数据驱动的非盲方法（如VDSR和EDSR+）相比，ZSSR的性能已经得到提高。然而，ZSSR的一个局限性是，它使用双立方插值作为默认降采样核，这可能无法匹配实际的退化过程。

KernelGAN [1] 通过学习测试图像内部分布的退化核，利用生成对抗网络（GANs）[6] 的架构，解决这个问题。然后，这个估计的核被输入到ZSSR中，取代双立方核，从而提高了超分辨率（SR）过程并改善了最终输出分辨率。

尽管盲SR方法更具适应性，但大多数方法仍依赖于估计整个图像的单个核。这对具有复杂纹理和目标的图像可能是不够的，因为在不同区域可能表现出不同的退化模式。

为解决这一限制，需要更先进的技术，超越单核方法，可能使多核模型能够适应图像内的不同特性，从而实现更强大和准确的超分辨率结果。

Motivation

作者的工作介绍了Multi-KernelGAN，这是 KernelGAN 的一个扩展，它利用目标分割 Mask 来估计多个核。通过将图像分割成不同的区域并应用单独的核，作者提高了核估计的准确性和鲁棒性。

尽管KernelGAN假定不同图像需要不同的下采样核，但作者的方法认为同一图像中的不同区域需要不同的下采样核。这使作者能够捕捉到不同区域的不同特性，从而实现更精确的超分辨率结果。

然而，为每个像素分配单独的核函数并不是一个有效的方法，因为它会使过程过于敏感于噪声和图像的快速变化。这种方法缺乏鲁棒性，可能导致核估计的不一致性。相反，通过使用分割 Mask ，作者在灵活性和稳定性之间取得了平衡，确保每个区域都得到一个适当的核函数，而不会过度拟合局部变化。

2 Methodology

Overview of Multi-KernelGAN

多核GAN 扩展了原始的KernelGAN，通过引入二进制 Mask 将图像分割成两个区域。每个区域都被分配了自己的核，使得模型能够处理具有不同纹理或结构的区域。

如图1所示，模型流水线包括以下阶段：

picture.image

图像分割

：通过一个 Mask 将输入图像分割成多个区域。

Kernel 估计：

每个区域都与自身关联一个 Kernel ，通过GAN框架进行估计。

超级分辨率

：利用估计的核，ZSSR分别应用于每个区域以实现超分辨率。

Region-Based Mask Generation

区域性 Mask 生成在多核GAN中至关重要，因为它可以将输入图像划分为需要不同处理的纹理和结构区域。通过为每个区域分配自己的核，模型可以更好地捕捉图像细节的变化，这对于实现高质量的超分辨率至关重要。

该过程始于目标检测，作者使用预训练的YOLOv8模型[2]来识别图像中的关键物体或区域。这种目标检测有助于区分可能具有不同纹理或细节水平的各种区域，如前景和背景等。

一旦检测到物体，使用SAM [3]预测器为每个检测到的区域生成分割 Mask 。这些 Mask 突出了图像内的物体边界，而落在这些 Mask 之外的区域则被视为背景。为确保精确分割，SAM提供像素级精度，从周围区域分割物体。这个过程在图2中得到说明，YOLO的边界框通过SAM生成了精确的分割。

picture.image

在生成 Mask 之后，整个图像将构建一个二进制 Mask 。这个二进制 Mask 作为一个层，将图像分割为前景（具有物体的区域）和背景。通过分离这些区域，模型可以采用各自独特的处理策略处理每个区域，这对于处理像锐利的边缘和光滑的背景等多样纹理至关重要。

接下来，对二进制 Mask 进行降采样过程。这涉及使用最近邻插值将 Mask 重新缩放到较低的分辨率，从而引入一个“斑驳”的效果。这种降采样 Mask 通过减少区域的复杂性来简化超分辨率任务，同时保留整体结构。然后，将降采样后的 Mask 恢复到原始分辨率，保留其斑驳的性质，以便后续阶段使用。

最后，生成的

前景（物体区域）

和

背景

的 Mask 分别被保存。这些 Mask 指导 Kernel 估计阶段，每个区域都获得自己的 Kernel ，允许根据区域特征进行定制超分辨率。

Multi-KernelGAN

Learning the Ideal Kernel for Each Region

一旦区域被分割，

KernelGAN

将在每个区域上应用。KernelGAN负责学习每个区域的最佳

下采样核

，该核最能描述该区域的退化。这个核对于确定如何最好地提高该特定区域分辨率至关重要。

KernelGAN

在自监督方式下工作，可以直接从低分辨率区域 Patch 中学习核，无需外部训练数据。每个区域都被视为一个独立的问题，使网络学习到一个最优地重构区域的个性化核。

ZSSR for Region-Based Super-Resolution

在KernelGAN学习每个区域的理想核之后，使用

ZSSR

进行超分辨率处理。ZSSR通过利用内部图像信息和应用学习到的核函数，对每个分割进行上采样以进一步优化区域。

超级分辨率过程针对每个区域分别执行，保留图像每个部分的特性。ZSSR对来自相同区域的块进行操作，利用内部自相似性重建更精细的细节。

Reconstructing the Whole Image

在将KernelGAN + ZSSR应用于每个区域后，超分辨率区域被组合成最终的

超分辨率（SR）图像

。重建过程涉及将SR区域合并在一起，以确保扩展区域的无缝集成。这一步对于产生保持每个区域学习到的细节和特征的高质量超分辨率图像至关重要。

Advantages of Multi-KernelGAN

多核GAN方法通过为不同区域使用独特的 Kernel 和上采样策略，实现了对图像上采样过程的更精细控制。这使得生成的超分辨率图像更为准确和详细，因为它避免了在整个图像上应用统一的 Kernel ，这在异质区域可能会导致次优结果。

3 Previous Attempts

Global Frequency-Domain Texture Segmentation Using FFT

基于 Patch 的快速傅里叶变换（FFT）方法计算图像 Patch 的频率表示，以根据其纹理特性将目标从背景中分割出来。通过利用FFT，作者旨在区分高频率纹理（通常与目标相关联）和低频率区域（通常与更光滑的背景相关联），如图3所示。这种方法利用了纹理和目标-背景分割之间的关系，其中目标通常表现出比其周围环境更复杂的纹理。

picture.image

关键步骤：

频率表示

：对于每个图像块，计算FFT以将空间域转换到频率域，为每个块中的纹理模式提供洞察。 2. 幅度谱平均

：计算每个转换块的平均幅度谱，有助于识别主导频率分量。 3. 二进制 Mask 创建

：根据每个块的平均频率，构建一个二进制 Mask 。频率高于整体平均值的块 Token 为白色（255），表示通常对应于物体纹理的高频区域。低频块保持黑色（0），表示平滑的背景区域。

尽管这种方法在具有均匀纹理的简单图像上表现良好，但在更复杂的场景下引入了噪声。在这些情况下， Mask 中会出现孤立的噪声岛屿或人工制品，这可以通过后处理技术如应用模糊滤波器或根据邻域连通性移除小而孤立的区域来缓解。

尽管进行了这些校正，但得到的分割结果对于更复杂的物体结构来说仍不够精确，限制了其总体准确性。

Local Frequency-Based Texture Segmentation

这段分割方法利用两种不同的方法分析纹理细节并识别出图像中高信息含量的区域：

3.2.1

Edge and Contour Detection:

该方法突显了图像中发生显著纹理转变的区域。通过应用边缘检测技术和优化得到的轮廓，作者创建了一个强调图像中物体详细边界面的 Mask 。该 Mask 有效地根据边缘强度和纹理边界将图像分割为区域，扩大显著区域，同时平滑较小、无关的特征。

3.2.2

Anchor Pixel Identification:

该方法通过在图像中查找包含高浓度数据丰富信息的数据块，来识别 Anchor 点像素。通过计算小图像块的梯度幅度，选择出强度变化显著的 Anchor 点。这些具有强烈局部梯度的区域对于表示图像的细微细节至关重要。这种方法产生的 Mask 强调了图像中详细信息集中的关键区域。

尽管这些方法具有诸多优势，但在实际应用中仍存在显著局限。从边缘检测和轮廓检测生成的 Mask 以及 Anchor 点像素识别，往往过于小巧且噪声较大。这导致了分割结果不佳，许多被遮盖的区域在边缘处出现了奇怪的颜色。这些伪影的出现是由于检测到的特征较小，导致 Mask 缺乏清晰度和定义。

试图通过扩大 Mask 来缓解这些问题，反而使问题更加严重，因为这样做导致大部分 Mask 覆盖了富含或不丰富、不详细信息的区域。因此，在追求更清晰的分割时，扩大的 Mask 往往包含了无关区域，从而降低了分割过程的整体有效性。这突显了需要更强大的技术，能够准确捕捉详细纹理，同时避免引入不必要的噪声或伪影。

Deep Learning-Based Object Segmentation

深度学习模型在物体分割领域取得了显著的进步，作者测试了多种最新的方法以实现精确的分割。

最初，作者应用了基于区域的CNN（R-CNN和Faster R-CNN）[7, 8]，然后转向更先进的模型，如Detectron2和SAM（分割任何物体模型）[9, 3]。然而，每种方法都存在显著的局限性，这使作者最终采用了上一节讨论的最终策略。

3.3.1

R-CNN and Faster R-CNN

R-CNN [7] 和 Faster R-CNN [8] 通过提出感兴趣区域（ROIs）实现了目标检测和分割，但它们存在一些问题：

速度：两种模型，尤其是R-CNN，在计算上非常昂贵，且过于缓慢，无法用于实时或大规模应用。

精度：这些模型生成的边界框往往过于粗糙，无法捕捉到更精细的物体细节和复杂边界。

由于需要进行精确的像素级分割，这些模型对于作者来说是不够的。

3.3.2

Detectron2

Detectron2 [9] 在速度和精度方面相较于Faster R-CNN有了显著的提升，提供了更为详细的分割 Mask 。

然而，作者在以下方面遇到了挑战：

检测精度边界：Detectron2在精确物体边界检测上仍存在困难，特别是在多个物体重叠或物体大小相似的情况下。

在复杂或混乱的环境中， Mask 通常不完整或不准确。尽管Detectron2比早期模型提供了更好的结果，但它在处理细微边界和复杂场景方面的局限性促使作者探索其他选项。

3.3.3

SAM (Segment Anything Model)

SAM（Segment Anything Model）[3] 在像素级生成精确 Mask 的能力进行了测试。尽管SAM在无需显式目标检测的情况下分割复杂物体方面表现出色，但这也带来了新的挑战。SAM会生成多个潜在的分割，这使得在没有先验场景知识的情况下确定需要分割的物体数量变得困难。

如图5所示，SAM倾向于优先考虑最大的部分，这在某些情况下会导致不完整的分割（例如，只捕捉到一个物体）。这种歧义使得SAM在存在多个大小相似的物体的场景下效率较低。

picture.image

鉴于SAM在连续捕捉所有目标时存在明显的边界或目标计数不清的问题，很明显SAM单独使用对于作者分割任务是不够的。

为了克服这些方法的局限性，作者采用了前述部分中提到的

YOLO + SAM

方法。这种组合通过使用 YOLO [2] 进行目标检测和 SAM 进行详细分割，有效地解决了目标数目的歧义和边界精度问题。

4 Experiments and Results

Dataset

作者使用包含复杂纹理和目标的图像的DIV2K数据集[10]进行了实验。这些图像通过不同的模糊核进行了下采样，以模拟真实世界场景。

Evaluation Metrics

在本次实验中使用的评估指标包括峰值信噪比（PSNR）、结构相似性指数测量（SSIM）和均方误差（MSE），以及视觉质量指标。此外，还进行了定性比较，以评估该方法在捕捉不同纹理和结构方面的性能。

Results

在本研究中，作者评估了两种超分辨率技术：_Multi-KernelGAN+ZSSR_和_KernelGAN+ZSSR_的性能。作者的数据集包含50张图像，符合作者的方法，每张图像都包含一个突出的中央物体，可以从背景中分离出来。这种结构使作者能够有效地应用分割技术，从而促进在目标和背景成分上的超分辨率性能。

表格1总结了结果，列出了所有样本图像中每个指标的平均值。

Performance Comparison

表1中的结果表明，Multi-KernelGAN+ZSSR 在所有指标上均优于 KernelGAN+ZSSR 。

具体来说， Multi-KernelGAN+ZSSR 的平均峰值信噪比（PSNR）为26.4559 dB，而 KernelGAN+ZSSR 的平均PSNR为26.1906 dB。

同样， Multi-KernelGAN+ZSSR 的平均结构相似性指数（SSIM）为0.8214，超过了 KernelGAN+ZSSR 观察到的0.8013。

此外，Multi-KernelGAN+ZSSR 表现出更低的平均均方误差（MSE），这意味着重建质量更好。

picture.image

5 Conclusion

本文旨在评估Mamba状态空间模型在3D医学图像分割中的有效性，并将其与先进的卷积和基于Transformer的架构进行比较。

此外，我们提出了Mamba架构的替代设计方案，以解决其关键限制。

具体来说，我们将在标准U-Net框架内的不同阶段集成Mamba，无论是在跳跃连接中还是在池化操作之前，同时使用单向、双向和多向实现。

整体框架融合了卷积和状态空间模型，利用前者编码精确的空间信息，同时通过后者来模拟长距离的体素级交互。

Mamba提供了双重优势，即在提供全局上下文的同时，也实现了体素级的精确度，前者在传统卷积层中由于有限的感受野而缺失，而后者在Transformer中由于计算复杂性而缺失。

参考文献

[0]. Multi Kernel Estimation based Object Segmentation.

点击上方卡片，关注

「AI视界引擎」

公众号

SAM 与 YOLOv8 协同 | U-Net 框架下的 Mamba 集成，提升 3D 图像分割性能 ！

1 Introduction

2 Methodology

3 Previous Attempts

4 Experiments and Results

5 Conclusion

SAM 与 YOLOv8 协同 | U-Net 框架下的 Mamba 集成，提升 3D 图像分割性能！