告别固定参数时代:SMoEStereo动态适配不同场景,ETH3D跨域泛化性能达SOTA

大模型向量数据库云通信

点击下方名片,关注「集智书童」公众号


picture.image

精简阅读版本

本文主要解决了什么问题

立体匹配模型的跨领域泛化能力不足 :由于不同数据集之间的视差分布不均衡和领域偏移,现有基于学习的立体匹配模型在跨域场景下表现不佳。

视觉基础模型(VFMs)在立体匹配中的适应性不足 :尽管VFMs在多种视觉任务中表现出色,但直接将其应用于立体匹配时,其零样本性能有限,且难以生成用于密集特征匹配的判别性特征。

现有微调方法的灵活性与效率不足 :传统的低秩适配(LoRA)或适配器(Adapter)方法采用固定的低秩子空间或CNN解码器,难以动态适应复杂多变的自然场景,限制了模型泛化能力。

本文的核心创新是什么

提出SMoEStereo框架 :结合专家混合(MoE)与低秩适配(LoRA)技术,设计了具有自适应秩的MoE-LoRA模块和具有自适应核大小的MoE-Adapter模块,实现对不同领域场景的动态适配。

动态专家选择机制 :通过路由网络为不同输入选择最优的LoRA秩和CNN核大小,增强模型对异构场景的适应能力。

引入轻量级决策网络 :根据输入复杂度选择性激活MoE模块,平衡模型精度与计算效率,提升部署可行性。

归纳偏置建模 :通过MoE-Adapter模块引入局部几何先验,弥补ViT在局部结构建模方面的不足。

结果相较于以前的方法有哪些提升

跨域泛化能力显著提升

  • • SMoEStereo在KITTI、Middlebury、ETH3D和DrivingStereo等多个真实世界数据集上实现了当前最优的跨域泛化性能。
  • • 在挑战性天气条件下(如云、雾、雨)也表现出良好的鲁棒性。

联合泛化性能优越

  • • 使用单一固定模型无需微调即可在多个基准上实现SOTA性能,优于CFNet、UCFNet等鲁棒模型。

参数效率与推理效率提升

  • • 相比现有PEFT方法(如VPT、Adapter、LoRA),SMoE在保持更少可训练参数的同时,获得更高的精度。
  • • 决策网络有效减少冗余计算,推理速度更快。

灵活适配不同计算预算

  • • 通过调整超参数

可灵活控制模型的计算负载,在精度与效率之间实现良好权衡。

局限性总结

依赖预训练的视觉基础模型(VFMs)

  • • 模型性能在一定程度上依赖于所选VFM的质量和容量,若VFM本身泛化能力有限,可能影响整体效果。

专家模块设计复杂度较高

  • • MoE模块的路由机制与决策网络增加了模型设计和训练的复杂性,可能影响训练稳定性。

动态专家选择带来的训练成本增加

  • • 虽然推理效率提升,但训练过程中需要维护多个专家和路由机制,导致训练开销相对较大。

对超参数敏感

  • • 决策网络中的

参数对模型性能有显著影响,需在不同部署场景下进行调优。

总结

SMoEStereo通过结合MoE、LoRA与轻量级决策机制,有效解决了立体匹配中跨域泛化能力不足的问题,并在多个真实世界数据集上实现了SOTA性能。其核心创新在于动态适配机制与归纳偏置建模,提升了模型的灵活性与鲁棒性。尽管存在一定的训练复杂度和对VFM的依赖,但其在推理效率和泛化能力方面的优势使其在实际应用中具有广泛前景。

深入阅读版本

导读

近期,基于学习的立体匹配网络取得了显著进展。然而,由于领域偏移和不同数据集间视差分布的不均衡,它们往往缺乏鲁棒性,难以实现令人印象深刻的跨领域性能。利用视觉基础模型(VFMs)可以直观地增强模型的鲁棒性,但将此类模型以经济高效的方式集成到立体匹配中,以充分发挥其鲁棒性,仍然是一个关键挑战。为此,作者提出了SMoEStereo,这是一个通过定制化场景特定融合的低秩适配(LoRA)和专家混合(MoE)模块,使VFMs适应立体匹配的新框架。SMoEStereo引入了具有自适应秩的MoE-LoRA和具有自适应核大小的MoE-Adapter。前者在MoE中动态选择最优专家以适应不同领域的不同场景,而后者将归纳偏置注入冻结的VFMs以改进几何特征提取。重要的是,为了降低计算开销,作者进一步提出了一种轻量级决策网络,该网络根据输入复杂度选择性地激活MoE模块,在效率与精度之间取得平衡。大量实验表明,SMoE在多个基准测试中表现出最先进的跨领域和联合泛化能力,无需数据集特定的适配。

代码: https://github.com/cocowy1/SMoE-Stereo

  1. 引言

立体匹配是一项关键的视觉任务,旨在识别正交立体图像之间的像素级对应关系。它在自动驾驶[5]、机器人导航[40]和增强现实[58]等领域具有广泛的应用。尽管近年来基于学习的立体匹配方法在标准基准测试中表现出色,但它们在不同数据集上的泛化能力仍然有限。这主要是因为自然场景数据集中存在显著的场景差异和分布不平衡的视差分布,可能导致特征图出现噪声和失真[22, 77],从而削弱当前立体匹配模型的鲁棒性。

为增强立体匹配中特征表示对领域变化的鲁棒性,作者旨在利用视觉基础模型(VFMs)的最新进展。这些模型,如用于单目深度估计的DepthAnythingV2 [74]和用于分割的SegmentAnything [24],均基于在大型多样化数据集上预训练的视觉Transformer(ViTs)构建。此类VFMs在许多视觉任务中展现出提供鲁棒、通用深度特征的强大效果。然而,完全释放它们在鲁棒跨领域立体匹配中的潜力仍受限制,因此产生了两个直观的限制:首先,直接将VFMs应用于立体匹配表现出有限的零样本性能。尽管VFMs在从单图像分割/分类/回归等任务中提取语义信息方面非常有效,但它们难以生成用于密集跨视特征匹配中精确相似度测量的判别性特征 [34, 67, 79],如图1(c)所示。其次,现有的微调方法如低秩适应 [18] 或小解码器 [79] 难以应对现实世界中自然场景立体匹配的复杂变化,因为它们倾向于对所有输入采用统一的低秩子空间或固定的CNN解码器,用僵化的“一刀切”特征精炼方法处理差异巨大的异构领域。这种不灵活性限制了它们动态适应场景特定特征的能力,导致在自然场景中泛化效果不佳 [7, 53, 66]。

picture.image

为解决上述问题,作者提出将具有不同秩的低秩适配(LoRA)融入专家混合(MoE)设计中,以低成本适配视觉函数模型(VFMs),实现鲁棒立体匹配。与固定秩的LoRA简单应用相比,该方法限制了其在不同场景下进行鲁棒立体匹配的适应性,作者通过开发场景条件选择机制扩展了传统LoRA,该机制能从预定义的秩值谱中动态选择最优低秩子空间,实现针对野外场景特征的适应性特征细化。此外,作者观察到即使带有可学习LoRA层的冻结VFMs,也缺乏建模立体匹配局部视觉结构的内在归纳偏差[14,30]。为弥补这一差距,作者通过将卷积神经网络(CNN)集成到每个视觉 Transformer(ViT)块中引入归纳偏差。类似地,作者在每个ViT块中嵌入具有不同感受野的多个CNN Adapter ,以引入归纳偏差,同时增强模型捕获局部几何结构的能力。这种混合设计实现了互补特征学习:CNN分支强调细粒度的局部几何细节,而LoRA路径建模长程交互。结果,与基础VFM-LoRA模型相比,立体匹配D1误差降低了高达30%,显著提升了模型鲁棒性。

此外,将MoE集成到所有ViT模块中会引入冗余并增加额外成本,这对部署效率构成了关键 Bottleneck ,而部署效率是立体匹配应用中的首要关注点。为此,作者为每个MoE层引入一个轻量级决策网络。该网络预测二进制决策以激活MoE模块,通过丢弃简单样本中的冗余模块、为复杂样本使用更多模块来节省计算成本。决策网络与作者的MoE模块联合优化,通过引入使用损失来衡量计算成本,并鼓励减少冗余同时保持精度的策略。超参数

可以通过按比例缩放激活的MoE模块的计算负载来调节整体计算预算,从而灵活适应不同的资源约束,这对具有多样化计算需求的移动设备至关重要[61]。

由于MoE模块以及每个MoE内的专家都可以根据不同的输入特征进行选择性激活,作者将该方法称为SMoEStereo。该方法充分释放了现有VFMs在立体匹配中的潜力,如图1所示。大量实验表明,SMoEStereo表现出强大的鲁棒性,在KITTI、Middlebury、ETH3D和DrivingStereo数据集上实现了跨域泛化性能的当前最佳水平。此外,使用相同的训练模型,无需任何调整,该方法在ETH3D、KITTI和Middlebury基准测试上实现了当前最佳的联合泛化性能。主要贡献如下:

  • • 作者提出了SMoEStereo,这是一种高效且强大的方法,它利用预训练的Vision Foundation模型进行稳健的双目匹配,成本极低。
  • • 作者提出将具有不同秩的MoE LoRA和具有不同核大小的MoE Adapter层集成到VFMs中。这些定制化设计促进了场景特定适应,从而能够在多样化的真实世界场景中实现稳健的立体匹配。
  • • 作者设计了一种轻量级决策网络,集成在每个MoE模块中,该网络动态选择相关模块并停用次要模块。这种机制在模型精度和效率之间取得平衡,能够灵活适应不同的资源约束。
  • • SMoE展现出强大的跨领域泛化能力,在多个基准测试中,使用同一固定模型无需进一步调整,表现优异,显著优于先前的鲁棒模型。
  1. 相关工作

2.1. 鲁棒的立体匹配

近期,随着在光流任务中取得的成功,基于迭代方法的RAFTStereo [32]、IGEVStereo [27]和Selective-IGEV [60]通过相关体积采样迭代更新视差场,设定了新的基准。尽管在模型设计方面取得了进展,但在各种场景中实现稳健性能仍然具有挑战性。

为解决这一问题,研究行人日益关注鲁棒的立体匹配方法,该方法主要分为两大类:1)跨域泛化:此类方法着重于网络对未见过场景的泛化能力。先前研究尝试通过引入域归一化[76]、利用ImageNet[33]上的预训练特征或开发多样化的训练策略来学习域不变特征[4, 9, 78]等方法来处理该问题。2)联合泛化:此类方法旨在使网络在各种数据集上无需重新训练即可保持稳定性能。CFNet[53]及其改进版本UCFNet[55]引入了级联融合代价体积网络来处理域差异。CREStereo

[22]引入了不确定性引导的自适应变形模块以增强循环网络在不同场景下的鲁棒性。LoS[29]整合了结构信息以提升模型在挑战性区域的性能。然而,这些鲁棒方法通常依赖于ResNet[16]、UNet[48]和特征金字塔网络[31]等经典特征提取器 Backbone 网络,这些网络存在感受野有限的问题。因此,基于视觉Transformer(ViT)的更强大的视觉基础模型(VFMs)在鲁棒立体匹配方面的潜力尚未被探索。

2.2. 参数高效微调 (PEFT)

视觉基础模型(VFMs)是指通过自监督/半监督学习在大规模数据上训练的基础视觉模型,旨在适应下游视觉任务[1]。近年来,它们[24,41,47,59,74]已成为提升模型判别性和鲁棒性的解决方案。鉴于完全微调VFMs的高计算成本,参数高效微调(PEFT)已成为一种有前景的替代方案。典型例子包括:视觉 Prompt 微调(VPT)[20],通过添加额外的可学习 Token 来增强输入;AdaptFormer[6],提出用AdaptMLP替换MLP模块;Adapter-tuning[34,79],增加轻量级解码器模块;以及低秩适配(LoRA)[17],将可训练的低秩分解矩阵注入Transformer层。其中,Zhang等人[79]的工作与作者的最为接近。他们通过提出特征 Adapter 来微调VFMs,以获得鲁棒特征。然而,作者的SMoE在两个方面存在关键差异:(1)SMoE不使用固定的CNN解码器,而是采用秩自适应LoRA和核自适应CNN来编码局部和全局线索,实现场景特定适配;(2)与需要顺序处理的计算僵化流程不同,SMoE动态跳过非关键MoE模块,以提高效率和应用性。

2.3. 专家混合模型 (MoE)

专家混合(Mixture-of-Experts,MoE)[19, 52]旨在扩展模型容量,同时引入较小的计算开销。SparseMoE [52]引入了一个路由器来选择专家子集,使用门控网络来调节Sparse性以节省计算资源。 FFN (Feed Forward Networks,FFN)通常被用作默认的专家选择[2, 12, 46, 52, 83]。最近,一些研究通过开发多样化的路由机制,将MoE与多个均匀的低秩近似(Low-Rank Adaptation,LoRA)结合到大型语言/视觉模型中[11, 26, 35, 36, 75],从而实现了多任务学习。

以往关于MoE的研究旨在扩展模型能力或实现多任务学习,而作者的SMoE专注于动态选择最优专家以适应多样化的自然场景,从而增强鲁棒立体匹配。总体而言,作者的工作与先前研究在三个方面存在差异:1)与同质化MoE专家不同,作者的SMoE采用具有不同秩LoRA或不同核CNN配置的异构专家来处理多样化的自然场景。2)虽然MoE主要在预训练阶段使用,但作者将其作为参数高效的调优机制应用于立体匹配任务。3)作者创新性地引入决策网络来选择性地激活最合适的MoE模块,从而提高立体匹配的效率和适用性。

  1. 方法论

3.1. 概述

RAFT-Stereo [32] 作为作者的 Backbone 网络。作者用VFMs替换其特征提取器,而其余结构保持不变。具体而言,网络首先使用精心设计的VFM从立体对中提取立体特征。作者通过将设计的MoE LoRA和Adapter层集成到原始块中来修改ViT块。然后,使用一个浅层CNN块'来压缩特征维度并增强局部性。接着,通过沿对极线计算内积生成相关体金字塔。随后引入多级GRU网络,通过递归更新相关体金字塔中的视差场来执行成本聚合。所提出流程的示意图如图2所示。

picture.image

3.2. 选择性专家混合(SMoE)

如第1节所述,所提出的Selective MoE在每个ViT模块中集成了MoE LoRA和MoE Adapter层。此外,在每个MoE层之前插入了一个层决策网络,该网络被训练以生成合理的MoE层选择策略。通过这种方式,作者的SMoEStereo学习根据每个输入自适应地选择1)要使用的LoRA和Adapter专家,以及2)要跳过的MoE层,以提高模型效率。

MoE LoRA层。传统的LoRA[17]通常预先定义一个矩阵秩来更新可学习权重

,同时冻结预训练权重

。然而,在实际部署环境中,为不同的测试样本预先定义一个理想的秩具有挑战性。为此,作者引入了一种MoE LoRA层架构,该架构采用具有不同矩阵秩的多个LoRA层作为专家,从而为每个输入 Query 识别最优的LoRA专家。如图2(d)所示,MoE LoRA层包含

个专家,记为

。每个LoRA专家

对应一个特定的秩

。作者进一步设计了一个路由网络

,用于动态选择Top

个最优专家(默认

)。具体而言,当输入

被输入到MoE LoRA层时,其中

是 Token 数量,

是特征维度,MoE-LoRA层的正向传播定义为:

预训练权重

在训练过程中被冻结,且

可以是 Query 矩阵、键矩阵或值矩阵。每个LoRA专家由以下公式定义:

其中

是两个可训练矩阵,且

。路由机制如下:

其中

表示瘦的可训练权重,

表示温度,经验设置为5。除了MoE LoRA层,还采用路由机制用于后续的MoE Adapter层。

MoE Adapter 层。现有的视觉Transformer(ViT)由于在建模局部视觉结构方面缺乏内在的归纳偏差,难以从小数据集中学习[42, 43, 70, 80, 81]。为此,作者提出了一种MoE Adapter 层,该层在将局部空间先验信息注入普通ViT模块之前,通过不同感受野捕获这些先验信息。如图2(c)所示,设计的MoE Adapter 层由多个具有不同卷积核尺寸

的CNN Adapter 专家

组成,用于将局部几何信息嵌入到token中。类似于MoE LoRA层中的路由机制,作者引入了一个动态选择最优专家的路由网络

。输出可公式化为:

在训练过程中,

被冻结为预训练的权重。对于每个CNN Adapter 专家

,它可以计算为(省略激活层):

Convdown和

分别为两个

卷积层,分别用于减少和恢复通道数,

表示不同专家中具有

大小的特定卷积层。

与此同时,为防止门控网络对少数几个专家分配较大的权重,作者对每个MoE LoRA和MoE Adapter路由器

的批次平均施加软约束[52]。因此,对于给定的数据批次

,MoE平衡损失

定义为:

其中

分别表示

的方差和均值,作者使用

来定义MoE层中专家的重要性。因此,平衡损失

确保所有专家具有同等重要性,促进其多样化利用。

决策网络。先前研究[10, 25]表明,不同层级的ViTs对整体性能的贡献因输入数据分布而异。因此,决策策略的目标是在每个ViT模块中识别重要的MoE层(即,为“不重要”模块分配O,为重要模块分配1)。为实现此目标,引入了一个具有少量可学习参数的决策网络,通过基于输入样本选择性地保留或丢弃MoE层来减少冗余。具体而言,类别 Token 输入

首先被输入到MLP中,以分别生成MoE LoRA层的对应概率向量

或MoE Adapter层的

。然后,为了使整个框架端到端可训练,使用Gumbel softmax技巧[37]获得第

层的软化二进制 Mask ,如下所示:

其中

表示类别总数(在作者的情况下,对于二元决策

),

是一个Gumbel噪声张量,其所有元素从

中采样,

控制着

的平滑度。在训练过程中,作者使用第一个元素

,而在推理过程中通过Argmax获得二元值,如图2(g)所示。为简化起见,作者将MoE LoRA层和MoE Adapter层的使用策略分别记为

。因此,第

层的公式(1)和(4)可以重新表述为:

综上所述,决策网络根据输入为Transformer块中的每个MoE层生成使用策略。输入随后根据这些策略在块内进行处理。同时,为鼓励降低整体计算成本,作者设计使用损失为:

此处,

表示ViT主干结构的总块数。超参数

指示保留块数的百分比所对应的计算预算。总损失函数。遵循[32],作者监督预测视差序列

与真实视差

之间的

距离。

在训练过程中,

,指数权重

设置为 0.9。总损失公式如下:

作者在设置超参数时,将

  1. 实验

4.1. 实验设置

数据集与指标。SceneFlow [38] 是一个大规模合成数据集,包含35454个训练样本和4370个验证样本。KITTI 2015 [39] 和 KITTI 2012 [13] 是两个真实世界数据集,分别包含200和194个室外驾驶场景的立体图像。Middlebury [49] 包含28个训练样本和15张室内场景的高分辨率评估图像。ETH3D [50] 是一个低分辨率数据集,包含27张灰度图像。作者还通过DrivingStereo数据集 [72] 在具有挑战性的天气条件下,对网络的鲁棒性进行了定性评估。除了Middlebury(半分辨率),作者使用全分辨率处理这些数据集。为了跨域泛化,作者使用SceneFlow数据集预训练模型,并报告其在真实数据集上的跨域泛化能力。对于联合泛化评估,作者严格遵循先前的鲁棒视觉挑战(RVC)设置 [22, 53, 55],其中作者采用KITTI 2015 & 2012。

使用Middlebury和ETH3D训练集微调作者的预训练模型,并在三个真实世界公共基准(KITTI 2015、Middlebury和ETH3D)上使用单个固定模型进行评估,无需任何适应。遵循先前研究[15, 62-64],使用EPE和

px(绝对误差大于

像素的异常值百分比)来评估性能。

实现细节.DAMV2 [74](ViT-base)和RAFT-Stereo [32]被用作实验中最终的 Backbone 网络以展示SMoEStereo。作者还采用DAM [73]、SAM [24]和DINOV2 [41]作为VFM变体。在预训练阶段,作者在SceneFlow上使用32的批处理大小和20K的迭代次数预训练SMoE。对于联合泛化,作者遵循先前的RVC设置[55],通过增强Middlebury和ETH3D训练集以匹配KITTI 2015/2012的大小,防止小数据集被大数据集淹没。然后作者在混合数据集上使用20K的迭代次数微调模型。所有实验均使用8块RTX 5000 Ada GPU在Pytorch中实现。作者使用AdamW [23]优化器和最大学习率为

的一周期学习率调度[56]。对于数据增强,作者将非对称色度增强[27]和非对称遮挡[65, 71]应用于右侧图像。图像对在训练时随机裁剪为

。训练过程中进行16次迭代,并报告24次推理迭代的结果。

4.2. 鲁棒性评估

在立体匹配中,跨域泛化[77, 79]和联合泛化[53, 55]对于评估立体匹配方法的鲁棒性至关重要。因此,作者进行了这两种类型的鲁棒性实验。

4.2.1. 跨域泛化

作者的SMoEStereo首先在零样本设置中展现出强大的鲁棒性,如表1和表2所示。

picture.image

picture.image

与领域泛化方法的比较。作者的SMoEStereo显著优于大多数为领域泛化设计的立体匹配方法。值得注意的是,HVT-RAFT [4]、Former-PSMNet、Former-CFNet和Former-RAFT [79]使用专门模块和损失函数进行领域泛化,而SMoE则无需此要求。作者还比较了SMoEStereo在具有云、雾和雨等挑战性户外条件下的鲁棒性,如表2所示。此外,虽然FormerRAFT [79]使用DAM的ViT-Large版本,但作者采用了较小的ViT-Base版本。如表3所示,SMoE具有更少的参数和更快的推理时间。

picture.image

更多VFMs。作者通过将SMoE与其他VFM集成,例如DAM [73]、SAM [24]、DINOV2 [41],扩展了作者的实验,以突出SMoE的通用性。如表1所示,作者的研究结果揭示,SMoE在不同VFM Backbone 网络上表现出卓越的性能。

SMoE与PEFT方法的比较。作者对SMoE在领域生成任务上与现有PEFT方法的性能进行了全面比较,具体结果如表4所示。除了'冻结'和全微调'之外,作者通过用其他PEFT方法替换SMoE模块,开发了四种网络变体:VPT [20]、Adapter [6]、LoRA [17]和Adapter-Tuning [79]。利用VFMs强大的特征提取能力,这些PEFT方法在泛化能力上取得了显著进展。使用相同的VFM Backbone 网络,SMoE在领域泛化和其他PEFT方法上表现更优。此外,SMoE在推理阶段比其他PEFT方法参数更少。

picture.image

VFM容量。以DAMV2[74]为例,作者开发了具有不同容量的变体,以评估其对零样本性能的影响。表5显示,更大的容量提升了零样本性能,因为更大的模型提供了更强的表征能力和对泛化至关重要的鲁棒先验。

picture.image

专家选择分布。不同的立体数据集表现出显著的领域差异。从图3中,作者观察到这四个数据集之间存在不同的LoRA和Adapter专家选择分布。作者的SMoE框架动态激活每个数据集的最佳LoRA和Adapter专家组合,这经验性地验证了SMoE的灵活适应性——这是在野外部署中的关键优势,因为在野外部署中,稳健的跨领域泛化依赖于动态专家选择。

picture.image

4.3. 消融实验

作者进行了消融研究,以验证RVC设置中每个网络组件的有效性。跨域泛化消融实验的细节请参见补充材料。

主要组件的消融实验。为评估所设计的PEFT模块的有效性,作者在表7中报告了跨数据集的准确率结果。与原始VFM Baseline

相比,利用MoE LoRA和MoE Adapter 通过捕获长程交互和局部几何线索提升了差异估计性能。这一改进归因于作者的MoE设计,该设计在有效学习目标域鲁棒特征的同时保留了密集预测任务的知识。然而,随着MoE模块数量的增加,计算成本不可避免地上升

。所提出的决策网络通过移除冗余同时保持高性能来缓解这一问题

。此外,用计算成本相似的随机生成策略替换学习到的使用策略

)导致准确率显著下降,证实了学习到的使用策略的有效性。

picture.image

对秩

的研究。在表8中,作者比较了SMoEStereo与不同秩的LoRA专家的跨数据集性能。不同的数据集表现出不同的最优LoRA秩。作者的异构MoE动态地为每个输入 Query 选择最优的LoRA秩,在所有三个数据集上都持续优于同构MoE LoRA专家。类似地,补充材料中研究了不同 Adapter 和具有更多秩的LoRA的影响。这充分证明了作者在立体匹配中场景条件选择机制的有效性。

picture.image

SMoE与多专家对比。为了验证SMoE动态选择最优LoRA和Adapter专家的有效性,作者将其与多专家(MultiE)进行对比,后者聚合了所有设计专家的输出。如表9所示,SMoE机制选择性地激活Sparse专家,在训练中实现了1.25倍的加速,在推理中实现了1.12倍的加速。尽管有这些优势,SMoE在跨数据集性能上优于Multi-E,突显了其在选择最优专家以实现鲁棒立体匹配方面的有效性。这表明,盲目聚合多个专家可能并非最优,因为它可能会抑制信息丰富的特征,同时引入噪声。

picture.image

不同的计算预算。SMoEStereo通过改变超参数

(MoE保留比例)灵活地适应不同计算预算的需求。如图5所示,SMoE能够在效率和准确性之间实现广泛的权衡,并且显著优于随机 Baseline 。

picture.image

  1. 结论

在本文中,作者介绍了SMoEStereo,一个旨在轻松利用视觉特征映射(VFMs)进行野外鲁棒立体匹配的通用框架。通过根据输入动态选择合适的MoE(Mixture of Experts)和专家,SMoEStereo展现出强大的鲁棒性,且可学习参数极少,显著优于之前的鲁棒方法。实验结果表明,SMoE在各种数据集上表现良好,具有广泛的适用性。

参考

[1]. Learning Robust Stereo Matching in the Wild with Selective Mixture-of-Experts

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论