Diff-UMamba:融合 Mamba与UNet的噪声免疫医学图像分割模型 !

大模型机器学习算法

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

在数据稀缺场景下,深度学习模型常因过拟合噪声和无关模式而限制其泛化到未见样本的能力。为解决医学图像分割中的这些挑战,作者提出了Diff-UMamba,一种结合UNet框架与Mamba机制的新型架构,用于建模长距离依赖关系。

Diff-UMamba的核心是一个噪声降低模块,该模块采用信号差分策略抑制编码器内的噪声或无关激活。这促使模型过滤虚假特征并增强任务相关表示,从而提高其对临床重要区域的关注。

因此,该架构在分割精度和鲁棒性方面得到提升,尤其在低数据设置中表现更优。Diff-UMamba在多个公开数据集上进行了评估,包括医学分割十项赛数据集(肺部和胰腺)及AIIB23,在各类分割任务中均展现出比 Baseline 方法高1-3%的持续性能提升。为进一步评估有限数据条件下的性能,作者在BraTS-21数据集上通过改变可用训练样本比例进行了额外实验。

该方法还在一个小型的内部非小细胞肺癌数据集上得到验证,用于锥束CT中肿瘤总体积的分割,相较于 Baseline 方法实现了4-5%的改进。

unsetunset1. 引言unsetunset

深度学习已经彻底改变了医学图像分割领域,卷积神经网络(CNN)在广泛的临床应用中提供了最先进的性能[1]。大多数三维医学图像分割架构都基于基础UNet设计。然而,由于感受野有限,CNN在建模长距离依赖关系方面存在固有的困难,导致它们在分割复杂解剖结构时效果不佳,这些结构可能是弥散的、不规则的,或分布在体积扫描的多个切片上[2, 3]。

为解决这一问题,基于序列的模型,如transformers[4]和mamba[5],因其通过注意力机制和状态空间表示[6]捕捉全局上下文的能力而受到关注。序列模型特别设计用于学习局部和全局依赖关系,使其能够构建具有上下文感知能力的表示。这种能力对于分割任务尤为有利,因为在分割任务中,准确的边界界定不仅依赖于孤立特征,还依赖于序列中嵌入的连续性和结构。

1.1. 序列模型背景

Transformer [4] 相较于传统的循环神经网络(RNN [7])和长短期记忆网络(LSTM [8])具有显著改进,它通过将固有的顺序处理方式替换为全并行多头注意力机制来实现。该操作在公式1中正式定义:

其中

分别表示 Query 、 Key和Value ,

是 Query 的维度。另一种变体称为差分Transformer [9],通过信号差分去除共模信号来减少上下文噪声。这种差分注意力机制由公式2表示:

其中

表示用于捕获相关信号成分的初级注意力机制中的 Query 矩阵和键矩阵,而

则对应用于估计和减去共模噪声模式的 Query 矩阵和键矩阵。参数

控制噪声抑制的程度。基于Transformer的架构在3D分割任务中展现出良好的潜力。UNETR [10] 在非重叠的3D块上使用视觉Transformer(ViT)编码器。将Transformer的多层特征融合到卷积解码器中。然而,UNETR存在计算成本高、缺乏层次化表示以及缺乏局部归纳偏置的问题。SwinUNETR [11] 采用层次化Swin Transformer [12] 解决这些问题。它将自注意力机制限制在局部窗口内,并引入移位窗口以实现跨窗口交互。

Mamba [5] 是另一种序列模型,它引入了一类选择性状态空间模型(SSMs),这些模型在保持 Transformer (transformers)的长程上下文建模能力的同时,实现了

的时间和内存复杂度。它通过隐藏状态

将一维输入序列

处理成输出

,并通过线性常微分方程(ODEs)捕捉长期依赖关系:

其中

是状态转移矩阵,

是投影矩阵。使用时间尺度

,连续值通过零阶保持器(ZOH)进行离散化:

在训练过程中,Mamba利用全局卷积高效且并行地处理整个序列。卷积核定义为

其中

表示输入长度。这种结构化核

可以通过线性变换高效地建模长距离依赖关系。UMamba [13] 将状态空间Mamba模块集成到UNet中,用于高效的3D医学分割。他们提出了两种变体,UMamba-Bot( Baseline )在 Bottleneck 处使用Mamba,以及UMamba-Enc在每个编码器层中使用一个Mamba模块。与基于Transformer的模型相比,UMamba降低了计算成本,同时保持或提升了性能,使其适用于资源受限的环境。

1.2. 序列模型在医学影像中的局限性

然而,序列模型的成功依赖于对大规模标注数据集(>800卷)的访问,而在医学领域,由于生成像素级标签涉及高昂的成本和巨大的工作量,这些数据集十分稀缺[14, 15]。这种数据稀缺性构成了一个主要挑战:当在小型数据集上训练时,基于序列的模型倾向于过拟合,学习虚假的噪声模式而非临床相关特征[16, 17, 18, 19]。为解决这些局限性,近期研究探索了多种策略来使序列模型适应数据受限的环境。Swin-UMamba[20]引入了一种混合架构,该架构利用在ImageNet等大规模数据集上的预训练来将通用视觉先验知识迁移到较小的目标2D领域,从而有效减少过拟合。然而,专门为解决小数据集挑战而设计的3D网络相对较少。

1.3. 作者的贡献

作者提出了一种架构,该架构包含一个专门设计的模块,该模块以无引导的方式学习和抑制潜在空间中的噪声模式。该模块与主要的UNet Backbone 网络联合训练,通过减少虚假激活来帮助模型专注于与任务相关的特征。本文的贡献如下。

作者提出了一种差分UMamba架构用于肿瘤分割

一种集成新型降噪模块(NRM)以减轻小规模数据集上过拟合的模型。据作者所知,这是首个用于医学图像分割的差分网络,该网络包含额外参数,旨在抑制

噪声

作者分析了在不同数据集大小下训练的模型的潜在空间,并表明过拟合会形成与注入噪声所导致模式相似的图案。

该方法在多个小规模数据集上进行了广泛评估,始终展现出相较于现有最先进方法性能的提升。

基于深度学习的肿瘤轮廓传播流程被实现,使模型能够利用先验轮廓信息并提升分割性能。该方法借鉴了先前用于分割风险器官(OAR)的方法[21]。本文结构如下。在第二节中,作者描述了数据集、所yinqing-Differential-UMamba_2507以及潜在空间的研究。第三节呈现了实现细节以及定量和定性结果。最后,在第四节中,作者讨论了局限性以及未来工作的潜在方向。

unsetunset2. 材料与方法unsetunset

2.1. 数据集

作者在三个以肿瘤为中心的数据集上进行了实验:MSD [22](肺部和胰腺)、BraTS-21 [23, 24, 25] 以及一个内部数据集,以及一个用于气道分割的数据集(AIlB23 [26])。本节提供了每个数据集的详细信息,总结如表1所示。

picture.image

2.1.1. 医学分割Decathlon数据集

医学分割十项全能挑战[22](MSD)提供了一个包含多种解剖部位的3D医学影像数据集的综合集合,旨在促进通用分割算法的发展。

肺分割:该任务涉及从胸部CT扫描中分割非小细胞肺癌(NSCLC)病变。数据集包含63个标注的3D CT体积,作为医学分割十项全能数据集[22](任务06-肺)的一部分发布。使用单个前景标签来识别肿瘤区域。由于肿瘤形态和密度的广泛异质性,以及胸腔内存在混杂的解剖结构,该任务具有重大挑战性。作者将数据集分为50个体积用于训练和13个体积用于测试。

胰腺分割:该任务(任务07-胰腺)专注于从增强腹部CT体积中分割胰腺和胰腺肿瘤。数据集包括标注的3D扫描,每个扫描包含两个目标结构:胰腺和任何存在的肿瘤病变。该任务的复杂性源于胰腺体积小、形状不规则及其与周围腹部器官对比度低。此外,肿瘤通常Sparse和微弱的外观带来了进一步挑战,特别是在训练过程中处理严重的类别不平衡时。数据集包含281次增强腹部CT扫描,对胰腺和胰腺肿瘤进行手动标注。数据集分为250个体积用于训练和31个体积用于测试。

2.1.2. BRaTS-21数据集

该数据集[23, 24, 25]主要关注胶质瘤分割,胶质瘤是最常见且最具侵袭性的脑肿瘤之一。它包含1251个三维脑部磁共振成像(MRI)扫描,每个扫描包含四种不同的成像模式:T1加权(T1)、钆增强T1加权(T1CE)、T2加权(T2)和T2液体衰减反转恢复(T2-FLAIR)。这些图像提供 Voxel Level 的标注真值标签。图像具有固定的空间分辨率240×240×155 Voxel ,并来自多个机构使用多种MRI扫描仪,确保采集设置多样性。该数据集包括三个关键肿瘤亚区的分割标签:

(a) 非增强肿瘤核心 (NCR/NET) (b) 增强肿瘤 (ET) (c) 肿瘤周围水肿 (ED)。

这些标签用于优化网络,并在最后结合生成整个肿瘤(WT)、肿瘤核心(TC)和增强肿瘤(ET)的分割结果。数据集随机分割,其中150张图像分配给测试集,其余图像用于训练和验证。

2.1.3.内部数据集:GTV分割

该数据集经过匿名化处理并保持私有,包含82名被诊断为非手术性非小细胞肺癌的患者数据。这些患者接受了60至70 Gy范围的放射治疗剂量,所有患者均同意使用其数据。影像采集采用碘造影剂的3D自由呼吸技术,使用西门子CT扫描仪进行规划,以及配备直线加速器的瓦里安CBCT扫描仪进行图像采集。每位患者通常有6-7次CBCT扫描和一次规划CT,CBCT与规划CT进行顺序配准,其中首次配准的CBCT与规划CT对齐。对于标签轮廓,将先前GTV(GTV_{n-1})应用于当前CBCT(CBCT_{n}),使用[-400, +175 HU]的阈值分离GTV,随后对显著解剖变化进行手动调整。数据被划分为子集,其中61名患者分配至训练集,14名分配至验证集,剩余7名分配至测试集,确保各数据集之间患者数据不重叠。这分别对应476、48和40次扫描。

2.1.4. AIIB23数据集

AlIB23数据集[26]作为MICCAI挑战赛"AirwayInformed定量CT成像生物标志物用于纤维化肺病2023"的一部分发布。该数据集的构建旨在促进间质性肺病患者气道树分割和预后生物标志物发现,其中终末期纤维化的结构扭曲使得气道提取异常困难。尽管没有提供肿瘤分割数据,作者仍纳入此数据集以增强模型多样性并提高其泛化能力。挑战赛的训练集包含120个体积的高分辨率胸部CT扫描,这些扫描采用全吸气高分辨率临床CT(HRCT)协议从患有进行性纤维化间质性肺疾病的患者中获取,主要为特发性肺纤维化。所有扫描具有(

1mm)的层间距和约0.7mm的平面像素尺寸,反映了常规HRCT。该数据集随机分割,其中99个体积分配给训练集,剩余的体积用于测试集。

2.2. 所提出的架构

缺乏足够数据点以致无法泛化的小型数据集,可能由于过拟合或训练数据记忆而向模型引入不必要的噪声模式[27]。所提出的Diff-UMamba通过在每个编码器层集成专用模块来解决这个问题,这些模块学习数据中的噪声模式,并通过噪声减少模块(NRM)在 Bottleneck 层最终将它们过滤掉,如图1所示。这种过滤不重要特征的方法受到差分 Transformer 的启发[9],后者在注意力层中使用否定技术来消除上下文 Level 的噪声 Token 级噪声。Diff-UMamba的残差模块和Mamba模块与UMamba[13]中使用的结构相同。每个残差模块由一个卷积层组成,随后是实例归一化(IN[28])和Leaky ReLU[29]激活函数。然后将原始输入加到处理后的输出上,使模块能够学习残差映射。Mamba模块通过两条并行路径处理输入。在两条路径中,序列都使用线性层投影到更高的分辨率

。第一条路径应用1D卷积和SiLU[30]激活,以及结构化状态空间(SSM)操作。第二条路径应用另一个线性投影,随后是SiLU[30]激活。两条路径的输出使用Hadamard积逐元素组合。最后,所得特征被投影回

并 Reshape 为原始3D布局。公式6总结了Diff-UMamba的完整前向传递。

picture.image

其中

是网络的预测输出,

是主要编码器,用于从输入

中提取特征表示,

是解码器,用于重建最终输出,

是 Bottleneck Mamba 模块,用于生成中间表示

,而

是第二个 Mamba 模块,用于从外部嵌入

的加权和中生成

2.2.1. 下采样模块

编码器层的每个输出都通过一个专用的下采样模块,将特征图投影到均匀的空间分辨率。每个模块由一个

卷积、一个 ReLU [29] 激活函数以及一个自适应平均池化操作组成,该操作将特征图调整到预定义的 Bottleneck 大小。给定第

层编码器输出的特征图

,下采样后的输出

按照公式 7 计算如下:

此处

为目标通道数,

表示 Bottleneck 的空间期望维度。对每个编码器层输出分别应用独立的下采样模块,以确保在NRM中的特征融合或聚合前维度保持一致。

2.2.2. 噪声降低模块(NRM)

该模块如图1所示,其输入和输出清晰呈现。该模块基于编码器派生的特征

进行操作,并产生

作为输出。该模块从多个下采样层聚合噪声模式,如方程式8所述:

此处,

是可训练参数,

表示第

个专用下采样模块产生的输出。在聚合输出后,它们通过mamba模块

[5] 进行处理,然后根据公式9从主 Bottleneck 中过滤出去。

其中

对应提取的包含有用信息和噪声的特征,而

表示估计的噪声。类似于经典信号处理系统(例如卡尔曼滤波器),状态空间模型通过估计潜在动力学并滤除测量噪声来执行信号去噪 [31]。NRM 中使用 Mamba 的灵感源于这一原理。从

中减去

实际上充当一个滤波器,以隔离有意义特征并抑制噪声。噪声减少模块(NRM)是一个灵活的组件,可以集成到任何基于 UNet 的架构中。将 NRM 集成到现有架构中的步骤在算法 1 中概述。注意:Diff-UMamba 中有 2 个 Mamba 模块。作者建议使用此模型处理较小的数据集,因为 Mamba 模型 [5](尽管它们比 Transformer [4] 表现更好)在这些数据集上往往难以有效运行。相比之下,较大的数据集通常提供更广泛的多样化训练样本,使模型能够更好地泛化,并且通常基于序列的模型表现更佳。

2.3. 隐空间分析

作者发现,在有限数据集上训练的模型往往会捕捉到虚假或过拟合的模式,这些模式在特征空间中表现为类似噪声的扭曲。为了探究这一现象,作者可视化了训练模型(UMamba-Bot [13])的 Bottleneck 特征。在图2a中,作者展示了通道级的t-SNE投影,其中人为添加了不同水平的高斯噪声。随着噪声水平的增加,特征的有序组织逐渐恶化,表明潜在空间中对噪声的敏感性。有趣的是,当模型在数据集的缩减子集上进行训练时,观察到特征结构的类似退化。为了证明这一点,作者在图2b中可视化了在BraTS-21数据集上使用不同训练数据大小的模型训练的 Bottleneck 特征。随着训练集规模的减小,特征嵌入变得日益分散且缺乏连贯性,表明有限数据在潜在空间中诱导了类似噪声的伪影。为了量化这种行为,作者采用了轮廓系数 [32],对于数据点

,其定义如公式10所示:

picture.image

其中

表示簇内的平均距离(即

与同一簇中所有其他点的平均距离),而

表示

与最近邻簇中所有点的最小平均距离。聚类采用k-means算法进行,使用最大轮廓系数评分来评估聚类质量并选择最优的

。在UMamba-Bot(16%,32%,48%)中观察到聚类行为减弱,这与嵌入空间中噪声水平的增加相似。然而,通过分析不同训练样本尺寸下Diff-UMamba模型的 Bottleneck 特征,作者发现某些通道始终表现出高度分离的簇,这些簇被突出显示。Diff-UMamba具有更高的轮廓系数评分,表明其特征表示更紧凑且更具区分性。尽管作者无法最终建立聚类 Bottleneck 特征与分割指标改善之间的直接因果关系(参见第3.2节),但作者观察到这种一致的聚类行为出现在所有Diff-UMamba模型中。

2.3.1. NRM分析

在本节中,作者在内部数据集上开展探索性实验,分析NRM的行为,并比较DiffUMamba与 Baseline 模型的性能。图3a展示了Diff-UMamba编码器处理测试集1,280个块后,

之间的皮尔逊相关性。结果一致显示这两种嵌入类型之间相关性较低,表明它们捕获了不同的特征表示。这表明

关注输入数据的不同方面。此外,作者通过在推理过程中将不同类型的噪声(高斯噪声、斑点噪声、周期性噪声和椒盐噪声)以不同强度水平引入到第一个残差块中,评估了模型的鲁棒性。如图4b所示,Diff-UMamba比UMamba-Bot [13]适应得更加有效,展示了NRM在UMamba Bottleneck 中减轻噪声的能力。噪声水平与其对应参数的映射关系在附录A.8中给出。

picture.image

picture.image

2.3.2. Lambda参数的演化

unsetunset3. 实验与结果unsetunset

3.1. 实现

作者将Diff-UMamba集成到基于nnUNet [33]框架构建的UMamba-Bot架构中。该架构负责预处理、组装和网络架构的选择,为医学分割任务提供了稳健且可适应的设置。优化过程采用SGD,使用未加权的Dice损失和交叉熵损失。在内部数据集上进行了1000个epoch的实验,使用单个输入(CBCT)或两个输入(参见第3.2节)。对于公共的BRaTS-21数据集 [23, 24, 25],使用了四种输入模态[T1, T1CE, T2, FLAIR]。相比之下,MSD [22]和AIIB23 [26]数据集仅使用单个CT体积作为输入。所有实验均在Tesla A100 GPU上进行。

3.2. 与当前最佳技术的定量比较

在本节中,作者评估并分析了跨不同数据集的各种最先进分割网络。Diff-UMamba与多种架构进行了比较,包括基于CNN的方法(nnUNetv2 [33]、SegResNet [34])、基于transformer的方法(UNETR [10]、SwinUNETR [11])以及基于mamba的模型(LKM-UNet [35]、UMamba-Bot [13]、UMamba-Enc [13]等

SegMamba [36]用于内部数据集。由于肿瘤形状和尺寸的多样性以及它们在低对比度区域的常见性 [37],对深度学习网络进行GTV分割存在显著挑战。为解决这一问题,作者将刚性配准轮廓(r-CT)作为先验信息引入,以指导网络准确界定GTV,如图5所示,这与先前在CBCT体积中进行OAR分割时展示的方法类似 [21]。该过程始于规划CT(传统放射治疗时间线如图A.8所示)与CBCT体积的配准。使用梯度下降优化变换参数以对齐两种模态。为减少人工干预,所有患者均使用相同的超参数。注意:该方法仅应用于内部数据集。表2展示了结果,分为两组:一组排除r-CT轮廓,另一组将其包含在输入中。评估指标包括Dice系数(DSC)、IoU(IOU)和Hausdorff距离(HD95),作者观察到引入r-CT轮廓为所有模型提供了显著优势。此外,Diff-UMamba在两种情况下均优于其他模型。与Umamba-Bot相比,无r-CT轮廓时DSC提高了5.02%,有r-CT轮廓时提高了4.44%。有趣的是,当包含额外数据(r-CT轮廓)时,改进效果较小。NRM将总参数数量增加了2%,同时在潜在特征空间中降低了噪声。

picture.image

picture.image

作者在MSD [22]数据集上进行了实验,包括肺部和胰腺等任务,同时在AIIB23 [26]数据集上进行了气道分割实验。结果如表4所示。在所有任务和数据集中,Diff-UMamba相比其他方法在IOU上表现出1到3%的持续提升。

picture.image

UMamba-Bot [13]。这种持续改进表明,集成到Diff-UMamba中的噪声降低模块(NRM)在增强特征表示和模型泛化方面起着关键作用,尤其是在有限的训练数据约束下。此外,表5和表6展示了在BRaTS-21数据集[23, 24, 25]中使用不同比例训练样本(16%、32%、48%、64%、80%)时sota网络的性能。作者将nnUNetv2 [33]、SegResNet [34]和mamba架构[35, 13]与Diff-UMamba进行比较。作者观察到,当使用数据集32%进行训练时,Diff-UMamba取得了最显著的改进,在三个指标上显著优于其他 Baseline 方法(基于配对t检验,p值<0.05)。由于存在多种输入模态,16%和80%训练数据之间的dice分数差异相对较小。此外,在此设置中,集成NRM的优势不太明显,因为多模态输入本身有助于减少过拟合。因此,性能提升并非在所有较小的数据集大小(16%和48%)中始终显著。表6显示,随着数据集规模的增大,UMamba-Bot [13]和UMamba-Enc [13]优于Diff-UMamba和nnUNetv2 [33],这反映了mamba在建模长程依赖关系和减少对NRM需求方面的优势。这表明随着数据集规模的增加,NRM模块的优势减弱,基础模型能够更有效地泛化。作者使用BraTS-21 [23, 24, 25]的单模态T1加权MRI数据,并使用16%的训练样本重复实验,以展示在真正小数据环境中的改进。图6展示了Diff-UMamba、UMamba-bot [13]和nnUNetv2 [33]在三个肿瘤亚区中的比较。特别是,Diff-UMamba在TC、ET和平均性能上表现出显著改进(p<0.05,配对t检验)。这些结果突出了Diff-UMamba学习更有意义表示的能力,尤其是在数据受限的环境中。

picture.image

picture.image

picture.image

3.2.1. 消融研究

在内部数据集(使用r-CT轮廓)上进行了消融研究,以评估不同NRM配置的影响,包括排除

、移除mamba模块

以及

初始值的变动,具体如表7所示。所有消融变体与UMamba-Bot相比均实现了更高的DSC。具有最大IOU的最佳配置包括(

)、保留mamba模块

以及将

设置为0.5。结果表明,移除

会显著降低性能,而排除深层模块的影响相对较小。这支持了NRM能有效过滤早期编码器层主要捕获的噪声的假设。此外,表7还包含了配备标准NRM模块的SegResNet [34]和UNETR [10]的结果,相较于无NRM的对应模型(见表2),它们实现了适度的改进,SegResNet的Dice分数提升了

,UNETR提升了

。相比之下,Diff-UMamba实现了显著更高的

的改进,这可能是由于mamba架构为集成NRM提供了更好的归纳偏差,从而能更好地建模序列模式并在低数据条件下抑制噪声。

picture.image

3.3. 与当前最佳方法的视觉比较

对于MSD [22](肺部)数据集(图7c),在第一个示例中,大多数方法表现出分割缺陷,尤其是在边界区域。然而,Diff-UMamba显示出更清晰和连贯的界定,假阳性较少且连续性更好,而LKM-UNet与其他模型相比也表现出色。在AIIB23 [26]数据集(图7d)中,该数据集专注于气道和周围结构的分割,在两个示例中,许多模型都出现了明显的伪影。

picture.image

然而,Diff-UMamba表现出更高的鲁棒性,在更少的断开或碎片化气道段的情况下,产生了更符合解剖学原理的结果。内部数据集的比较如图A.10所示,其中子图(a)至(c)表明,r-CT轮廓的引入显著提高了肿瘤边界的可见性,即使在低对比度区域也是如此。

unsetunset4. 局限性unsetunset

降噪模块(NRM)在小规模数据集上展现出良好的效果。在本研究中,NRM被集成到UMambaBot架构中,以利用Mamba在小规模数据集上的长距离依赖建模能力。其他集成方案,如UMamba-Enc,其中作者可以将NRM嵌入到每个编码器层中,能够提升去噪性能。然而,早期的编码器层通常处理高分辨率的特征图,包含大量token,使得这种集成方式计算成本高昂且非易事。解决这一挑战将是未来工作的关键,以实现NRM在整个架构中的更广泛应用。

此外,本研究仅限于3D医学图像分割任务。NRM在2D数据和非医学领域的适用性尚未得到评估。更广泛地说,本研究为小数据集学习开辟了新的方向。传统上,小数据集与轻量级模型结合以避免过拟合。然而,如果像NRM这样的噪声感知组件允许更大模型在数据稀缺环境下更好地泛化,这可能促使作者重新思考模型设计策略。作者或许不再仅仅追求减小模型规模,而是开始探索选择性正则化的更大架构,为在受限数据条件下构建更具表达力的模型铺平道路。未来工作的另一个方向涉及动态NRM的开发,该模块可以根据数据集的特征进行选择性激活。例如,当学习到的噪声阈值(如

值)超过一定水平时,NRM才被应用,使模型能够自适应地决定何时进行去噪。这种机制将实现NRM的动态部署,使Diff-UMamba更具可扩展性。

unsetunset5. 结论unsetunset

在这项工作中,作者介绍了Diff-UMamba,一种通过检测并从每个编码器层中移除噪声来增强mamba等序列模型在较小数据集上性能的新模型。

yinqing-Differential-UMamba_2507基于UMamba-Bot,集成了一个噪声减少模块(NRM),以在有限数据环境下提升性能。作者证明了该模型超越了现有的SOTA模型,在内部数据集和公开数据集上,使用有限的训练样本也取得了更优的结果。

作者的研究结果表明,Diff-UMamba适用于医学影像应用,其中获取大量高质量标注数据仍然是一个重大挑战。

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论