FE-UNet模型融合CNN与Transformer优势,在多生物分割任务中展现先进性能 !

大模型向量数据库机器学习

点击下方卡片,关注

「AI视界引擎」

公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

图像分割是视觉理解中的一个关键任务。卷积神经网络(CNNs)倾向于捕捉图像中的高频特征,而 Transformer (Transformers)则侧重于低频特征。在本文中,作者通过实验量化了CNNs的对比度敏感度函数,并将其与人类视觉系统进行了比较,借鉴了Mannos和Sakrison的开创性实验。

利用这些见解,作者提出了小波引导频谱池化模块(WSPM),以增强和平衡频域内的图像特征。

为了进一步模拟人类视觉系统,作者引入了频域增强感受野块(FE-RFB),该模块整合了WSPM,从频域提取丰富特征。

基于这些创新,作者开发了FE-UNet模型,该模型以SAM2作为其主干,并集成了预训练的Hiera-Large块,旨在增强泛化能力的同时确保高分割精度。

实验结果表明,FE-UNet在包括海洋动物和多细胞生物分割在内的多种任务中实现了最先进的性能,凸显了其通用性和有效性。

  1. 引言

在人工智能(AI)研究领域,随着计算机技术和大数据的发展,AI技术已经取得了显著的进步。本文旨在探讨当前AI技术的发展趋势、面临的挑战及其潜在应用领域,为我国AI产业的发展提供参考。

图像分割是计算机视觉领域的一项基础任务,它是高级图像分析和理解的基础。通过从图像中隔离关键特征和结构细节,分割技术促进了众多跨领域应用的发展,包括海洋动物分割和水螅体分割等自然和医学领域。尽管已经开发出各种专业架构实现了卓越的性能,但由于自然图像在频域中的复杂特性,重大挑战依然存在。增强频域中的图像特征以提高分割性能仍然是一个关键的难题。

深度卷积神经网络(CNN)在分割精度方面取得了显著进步。然而,CNN本质上是偏向于学习高频特征,这在处理以低频信息为主体的图像时,往往导致次优的结果。例如,在海洋动物分割中,水下环境引入的非均匀光照和散射效应会导致模糊不清的图像,从而扭曲频域信息。同样,在珊瑚分割任务中,内窥镜设备的不均匀光照和成像噪声突出了低频成分,同时减弱了高频细节,给精确分割带来了挑战。

为应对这些挑战,作者提出了一种名为FE-UNet的新型特征学习框架,该框架专为自然图像分割设计。该框架集成了深度小波卷积(DWTConv)机制,以增强图像特征中的低频信息。

随后,应用频谱池化滤波器以平衡高频和低频成分,模拟人类视觉系统对中频信息的增强敏感度。为进一步提升多尺度图像特征的捕捉能力,作者引入了频率域增强感受野块(FE-RFB),该块集成了小波引导频谱池化模块(WSPM)。这种集成使得频域信息的增强与模拟人类视觉系统中感受野大小和偏心率的关联得以同时实现。通过利用卷积神经网络和人类视觉系统对比敏感度的互补优势,作者的方法有效地提高了分割性能。

总之,作者的贡献如下:

(1)作者提出了FE-UNet,这是一个频率域增强的分割框架,旨在通过利用自然图像中高频和低频成分的平衡特征提取来提升分割性能。

(2)作者引入了FE-RFB,它聚合了多尺度感受野和基于偏离度的特征,灵感来源于人眼视觉系统的机制,以提升特征提取和分割效率。(3)作者开发了WSPM,该模型增强了低频信息,并与高频特征平衡,为频率域感知特征学习提供了稳健的基础。

(4)在四个海洋动物分割数据集和两个珊瑚分割数据集上的大量实验表明,FE-UNet表现出了最先进的性能,展示了其在解决不同分割挑战中的多面性和有效性。

相关研究工作

2.1 海洋动物分割

从海洋动物周围环境中分割出这些动物面临重大挑战,这是因为水下场景固有的复杂性,包括光照变化、水下模糊以及海洋动物外观和物种的多样性。近年来,卷积神经网络(CNNs)被广泛用于解决这些挑战。例如,[Li等人,2022] 提出了一种增强级联解码网络(ECDNet),而 [Li等人,2021] 则引入了一种具有级联解码器的特征交互编码器,以提取更全面的特征,从而在复杂水下环境中实现准确的分割。

同样,[Fu等人,2024] 设计了一种融合网络,用于学习伪装海洋动物的语义特征。最近,Segment Anything Model(SAM)展示了强大的分割能力。在此基础上,[张等人,2024] 开发了一种双SAM架构,该架构集成了自动 Prompt ,以便为水下分割任务整合大量先验信息。此外,[严等人,2024] 利用SAM编码器生成多尺度特征,并提出了一种渐进预测框架,以增强SAM捕捉全局水下信息的能力。尽管取得了这些进展,但这些模型在捕捉和处理海洋图像中的频域信息方面仍存在局限性。这种频域信息对于减轻由光散射和吸收等现象引起的水下视觉畸变至关重要。

2.2 多边形分割

计算机视觉中的息肉分割主要关注在医学图像中识别和隔离息肉区域。主要挑战源于息肉形状的多样性、边界的不明确性以及息肉与周围组织之间的高相似性。参考文献[Zhou等,2023b]提出了一种跨层次特征聚合网络,该网络融合了不同层次的多尺度语义信息以实现精确分割。然而,这种方法完全依赖于卷积神经网络(CNNs),限制了其捕捉图像内部长距离依赖关系的能力。

为了解决这一限制,[He等,2023]引入了一种CNNs和Transformers的高效集成方法,用于医学图像分割,从而实现了局部和全局信息的融合。在此基础上,本研究结合了UNet架构,并增强以SAM2中的Hiera-Large模块,以实现高效的多尺度特征提取并捕捉长距离依赖关系。

2.3 频域分析

频域分析在计算机视觉领域得到了广泛的研究和应用。先前的研究成果[Cooley等,1969;Deng和Cahill,1993]表明,自然图像中的低频特征对应于全局结构和色彩信息,而高频特征则与局部边缘、纹理和细节相关。例如[Tonkes和Sabatelli,2022;Bai等,2022]的研究揭示了卷积神经网络(CNN)在视觉数据中倾向于学习高频特征,但在捕捉低频表示方面效果较差。相反,多头自注意力机制表现出相反的趋势,更偏好低频特征。WTConv[Finder等,2024]提出了一种利用小波变换增强自然图像中低频特征的方法,从而提高了在大感受野中对特征信息的捕捉。

为进一步利用多头自注意力的频域特性,LITv2[Pan等,2022]提出了HiLo注意力混合器,该混合器利用自注意力同时捕捉高频和低频信息。同时,SPAM[Yun等,2023]开发了一种混合器,该混合器使用卷积操作来平衡高频和低频信号。

据作者所知,之前的研究没有特别关注在有效平衡高低频信息的同时增强低频信号。受此启发,作者提出了一种新颖的混频器,称为小波引导频谱池化模块(WSPM),该模块利用深度小波卷积(DWTConv)来增强低频信号。

随后,对增强后的频域特征应用频谱池化滤波器以执行频率混频,从而有效地捕捉和利用图像表示中的高频、中频和低频信息。此外,作者还是第一个基于频谱信息模拟人眼视觉系统的方法的提出者。

三、提出的方法

3.1 卷积神经网络(CNN)的带通特性和视觉敏感性

图1:人眼视觉系统对比度敏感度函数(HVS-CSF)和卷积神经网络对比度敏感度函数(CNN-CSF)模型,横坐标表示归一化空间频率,纵坐标表示灵敏度。

picture.image

人类视觉系统分辨细节的能力与观察区域的相对对比度密切相关,这通常由对比度敏感度函数(CSF)[Matkovic等人,2005年]来表示。CSF是空间频率的函数,并表现出带通特性。基于大量实验,Mannos和Sakrison提出了对比度敏感度函数的经典模型:

空间频率为:

在此,

分别代表水平和垂直方向的空间频率,基于此,作者绘制了人眼视觉系统(见图1)的对比敏感度函数(HVS-CSF)曲线。为了比较卷积神经网络与人类视觉系统的频率特性,作者使用 CIFAR-10 数据集 [Krizhevsky, 2012] 设计了一个简单的分类实验。作者采用在 ImageNet 上预训练的 ResNet18 模型进行特征提取和推理。x

对图像进行不同截止频率的滤波处理,然后应用傅里叶逆变换。

将频域特征转换回空间域,然后在不同的截止频率下测量模型的分类准确度。绘制图1中卷积神经网络的对比敏感度函数(CNN-CSF)曲线。可以得出以下结论:(一)人眼视觉系统对中频信号最为敏感,对低频和高频信号的敏感度较低。(二)类似地,卷积神经网络对低频信号的敏感度较低。它们对中高频信号更为敏感,与高频信号相比,对中频信号的敏感度略有增加。

基于此,作者提出了频率域增强感受野块(FE-RFB),它通过DWTConv增强低频信号。随后,采用频谱池化滤波器进行混合操作,将高频和低频信号融合到中频范围内,充分利用卷积模块对中频信号的高敏感性。

此外,为了模拟人眼视觉系统中感受野与偏心度的关系,作者整合了多尺度频域增强与感知域和偏心度方法。这种方法旨在充分利用卷积操作的频域特性,以更好地模拟人眼视觉系统。在FE-RFB、Hiera-L块和U形架构的基础上,作者创新性地开发了FE-UNet架构。

FE-UNet是一种基于深度学习的图像分割方法,其核心思想是融合特征和上下文信息,以提升分割的准确性和鲁棒性。该方法结合了卷积神经网络(CNN)和图卷积网络(GCN)的优势,通过共享特征提取和上下文编码模块,实现了多尺度特征的有效融合。在FE-UNet中,特征提取网络负责提取图像的多尺度特征,而上下文编码网络则负责捕捉图像的空间上下文关系。两者通过编码器-解码器结构相互协作,共同完成图像的高质量分割任务。

原始的SAM2模型生成的分割结果是类无关的。在没有针对特定类别的手动 Prompt 的情况下,SAM2无法为指定的类别生成分割结果。为了提高SAM2的特定性,使其更好地适应特定的下游任务,同时在有效利用预训练参数的同时减少内存使用,作者提出了FE-UNet架构(如图2(a)所示)。该架构旨在提升模型性能的同时降低内存占用。

picture.image

编码器。FE-UNet利用了SAM2中预训练的Hiera-L主干网络。Hiera主干网络内的注意力机制解决了传统卷积神经网络在捕捉长距离上下文特征方面的局限性。此外,Hiera模块的层次结构有利于多尺度特征的提取,使其非常适合设计U型网络。

为了实现参数高效的微调,作者在Hiera块之前引入了一个可训练的 Adapter 模块,同时保持Hiera块的参数冻结。这种方法消除了对Hiera块进行微调的需求,显著减少了内存使用。给定一个输入图像

,其中

分别代表图像的高度和宽度,Hiera输出四个层级的层次特征

。每个层级的通道数是

。作者受到了[Houlsby等人,2019;Qiu等人,2023]的启发,设计了 Adapter 模块,该模块包含一个序列结构:一个用于下采样的线性层,一个GeLU激活函数,一个用于上采样的线性层,以及另一个GeLU激活函数。这种设计使得对Hiera块进行微调既高效又最小化内存使用。

FE-RFB。在编码阶段特征提取后,特征通过深度卷积进行多通道融合,这降低了U型网络层次特征通道数至64。这种减少最小化了FE-RFB的内存消耗。降低通道数的特征随后通过FERFB,该模块旨在增强频域信息并模拟人眼视觉系统的某些方面。解码器。作者对传统UNet架构的解码器部分进行了调整,利用了相同的上采样操作。然而,作者实现了一个定制的DoubleConv模块,该模块由两个相同的卷积-批归一化-ReLU激活函数组合构成。卷积操作使用

的核大小。每个解码器输出特征通过一个

的卷积分割头进行处理,以生成分割结果

。这些分割结果随后进行上采样,并与 GT 分割 Mask 进行监督。

损失函数。在FE-UNet中,每个层次结构的损失函数由加权交并比(Intersection over Union,IoU)和二元交叉熵(Binary Cross-Entropy,BCE)损失组成。具体的单层损失函数定义如下:

图2:(a)展示了作者提出的FE-UNet模型的架构,(b)说明了所提出的频域增强感受野块(FE-RFB)的架构,(c)描述了作者所提出的基于小波引导的频谱池化模块(WSPM)的架构。

由于作者采用了深度监督,FE-UNet的最终损失函数被表示为各个层级损失的总和:

3.3 面向特征融合的旋转框检测(Feature Extraction-based Rotation Fused Box Detection)

人类的眼睛感知空间变化或空间频率对比度的敏感性,在不同频率范围内有所不同。通常,眼睛对中频信号最为敏感,对低频信号的敏感性高于高频信号。相比之下,卷积操作对中频信号的敏感性通常大于对低频信号的敏感性。

为了充分利用卷积运算的特点以及人眼对中频信号的敏感性,作者采用了小波引导的频谱池化模块(WSPM)来增强低频信号,并与高频信号进行混合操作。这一过程将图像的频率推向中频范围,从而增强了原始RFB模块与人类视觉场和偏心率的模拟效果。

为了实现多尺度感受野捕获,作者采用了具有不同深度和卷积核大小的小波引导频谱池化模块(WSPM)。在WSPM中,n代表以原点为中心的低频区域

的半径大小,即

。WSPM的深度卷积部分配置了

的核大小。随后,将不同分支扩展卷积的填充数和扩张率设置为

。这种配置有利于感受野的扩展,并对齐特征尺寸,便于后续的拼接操作。因此,作者提出了FE-RFB,其结构图如图2(b)所示。

3.4 WSPM(加权同步位置匹配)

在计算机视觉领域,常用的两种图像滤波方法包括:一种是在空间域中进行核卷积,另一种则是利用傅里叶变换在频域进行滤波。本文提出的方法同样在频域中操作,但为了在不同感受野下实现简单高效的深度谱信息聚合,作者采用了小波滤波。通过应用多分支谱池化滤波器,并在深度小波卷积(DWTConv)后进行混合操作,作者引入了小波引导的谱池化调制(WSPM)。模块架构如图2(c)所示。

DWTConv。为了充分利用低频特征,作者采用了特定的级联深度小波卷积操作。为了简便和高效,作者使用了Haar小波变换,并利用四组滤波器对不同的频带进行滤波。

在它们之中,

是低通滤波器,而其余的都是高通滤波器。随后,使用大小为1的核进行卷积,以进行深度聚合操作。对于不同的输入通道,输出为:

为了使输出与输入维度对齐,作者采用逆小波变换对小波分解后的特征进行聚合,从而构建输出。

上述公式仅代表单层小波分解与聚合操作。

在WSPM中,作者采用级联小波分解方法对低频信号

进行顺序分解,提取

个频率特征,同时在一定程度上降低空间分辨率。级联小波分解与聚合的过程如下:

请注意,上述逆小波变换公式可以通过应用一个定理来简化,该定理指出逆小波变换是一种线性运算。

在DWTConv模块中,作者采用具有

感受野大小的深度卷积操作来模拟人眼捕捉到的不同感受野特征。为了在不影响模型性能的前提下减少模型参数数量,作者使用了

SPF大小的深度卷积操作。根据逆幂律,自然图像中最重要的视觉信息集中在中频区域。在应用DWTConv后,作者采用频谱池化滤波器对频谱中的低频和高频成分进行混合操作,从而增加低频成分的权重。首先,作者使用二维快速傅里叶变换(DFT)将深度卷积后从空间域到频域映射得到的特征:

在上面的公式中,

代表二维离散傅里叶变换(DFT)操作。接下来,作者执行一个移位操作,将低频分量移动到频谱的中心。然后,作者使用一个傅里叶变换中心化函数来移除低频子集之外的剩余部分。

在上述公式中,

是傅里叶变换中心函数,

是频域中的一对位置,而

表示以原点为中心的低频区域。

高通滤波器是低通滤波器的相反,因此可以通过从输入特征图中去除低频成分直接获得高频成分。

最后,通过依次对高频和低频分量应用逆变换和逆离散傅里叶变换操作,作者可以获得光谱池化特征图。

作者通过组合滤波器混合从分解中获得的各个频段视觉特征,该滤波器可以用以下公式表示:

由于

及其逆运算都是线性操作,它们满足叠加原理。上述公式等价于:

在[0,1]区间内的λ是一个平衡参数。通过调整λ,作者可以操控视觉特征的频谱,以控制高频和低频成分之间的平衡。

第4章 实验研究

数据集和评估指标。遵循惯例[杨等,2022;云等,2023],作者通过实验验证了FE-UNet在两项任务上的有效性:海洋动物分割和珊瑚分割。两项任务的实验数据集详情见附录。

在与现有技术的比较中,本节将作者的方法与其他方法在四个公开的海洋动物分割数据集和四个公开的海葵分割数据集上进行比较。定量和定性的结果明显展示了作者提出的方法的显著优势。

表1:海洋动物在MAS3K和RMAS数据集上的分割性能。

picture.image

表2:海洋动物分割在UFO120和RUWI数据集上的性能表现。

picture.image

表3:在Kvasir-SEG、CVC-ColonDB、CVC-300和ETIS数据集上的息肉分割性能。

picture.image

图3:在海洋动物分割任务中,使用了不同的模型进行预测,并对比了可视化的预测 Mask 。最佳查看效果为放大显示。

picture.image

作者遵循了[周等,2023a]的方法,包括相同的比较方法和工具。表3展示了作者的模型在四个息肉分割测试数据集上的性能。在Kvasir和CVC-300数据集上,作者的模型实现了最先进的性能,相较于第二好的方法提升了1-2%。此外,在CVC-ColonDB和ETIS数据集上,作者的模型展现了第二好的分割性能。

图3和图4分别展示了海洋动物分割和珊瑚分割任务的一些视觉示例,以进一步验证作者方法的有效性。与之前的方法相比,作者的方法在简单任务中产生的分割结果与真实标签高度相似。此外,在背景杂乱且细节丰富的挑战性图像上,作者的方法始终能生成更准确和精细的分割 Mask 。更多展示作者模型优越性能的视觉结果见附录。

picture.image

图4:在珊瑚分割任务中,使用了不同的模型生成预测,并对比了可视化的预测 Mask 。最佳查看方式为放大。

五、结论

在本研究中,作者提出了一种名为FE-UNet的新型特征学习框架,用于自然图像分割。具体来说,作者引入了频率域增强感受野块(FE-RFB),它通过整合多尺度感受野和偏心度感知机制,利用多尺度WSPM模块增强频率域信息。

这种设计模拟了人类视觉系统对中频特征的增强敏感性。作者的方法提取了更丰富的频率域信息,这对细粒度图像分割非常有益。

因此,它在四个海洋动物分割任务和珊瑚分割任务上实现了最先进的(SOTA)性能。作者的框架设计不仅适用于海洋动物分割和珊瑚分割场景,还为其他复杂场景中的图像分割研究奠定了坚实基础,提供了更广阔的探索空间。

参考

[1]. FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation .

点击上方卡片,关注

「AI视界引擎」

公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论