清华提出 OneDet3D,基于点云的3D目标检测多域联合训练,强大的通用能力展现,模型几乎覆盖所有三维目标检测任务 !

火山方舟向量数据库大模型

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

当前计算机视觉的趋势是利用一个通用模型解决所有各种任务。实现这样一个通用模型不可避免地需要将多领域数据进行联合训练,以学习多个问题场景。

然而,在基于点云的三维目标检测中,这种多领域联合训练具有很高的挑战性,因为来自不同数据集的点云之间存在巨大的领域间隙,导致严重的领域干扰问题。在本文中,作者提出了一种通用的OneDet3D模型,该模型可以解决不同域之间的三维检测,包括各种室内和室外场景,在同一个框架内,只有一个参数集。

作者提出了基于散列和上下文的域感知划分,受路由机制指导,以解决数据干扰问题,并进一步将文本模式引入,进行语言引导分类,以统一多数据集标签空间,减轻类别干扰问题。全稀疏结构和 Anchor-Free 头 Head 进一步容纳具有显著尺度差异的点云。

大量实验证明了OneDet3D仅使用一个训练模型解决几乎所有三维目标检测任务的强大通用能力(图1)。

picture.image

引言基于3D点云的目标检测旨在为给定一个点集的实时场景预测定向的3D边界框和相应的语义类别标签。与成熟的2D检测器[29, 14, 38, 4]不同,一旦训练完成,它们通常可以在各种场景和环境中对不同类型的图像进行推理。当前的3D检测器仍然遵循单一数据集的训练和测试范式,即推理过程中使用的点云应与训练过程中使用的点云完全相同。无论是室内还是室外,现有的基于点云的3D检测器只能在一特定域的数据集上进行训练,然后在相同域的数据上进行测试。这种对单一数据集的训练和测试严重限制了3D检测器的泛化能力,导致3D检测在通用性方面相对于2D检测有显著的滞后。

为了解决这个问题,应该引入多域联合训练(即多数据集联合训练)到基于点云的3D目标检测中,使3D检测器可以通过大规模联合训练从不同域的点云中学习。这样,一旦训练好的3D检测器可以在各种点云域上很好地泛化。最终目标是获得一个可以在不同域上实现统一3D目标检测的3D检测器,只需要一套参数 。这样就实现了通用3D目标检测的目标。

多个领域联合训练的动机是通过利用不同来源和领域的点云,学习通用的3D知识,从而从3D数据到3D空间位置建立一个通用表示。通过这种方式,可以实现一个与点云来源、收集和领域无关的模型。利用来自不同点云的通用3D知识,它可以有效地作为一个通用的3D检测器,并发挥3D基础模型的作用。然而,实现这一目标非常具有挑战性和困难。如图1所示,由于领域间存在巨大的差异(例如,点云范围、场景、物体大小、稀疏性等),现有的3D检测器无法支持这一点。具体来说,当前的3D检测器可以大致分为基于点的和基于体的两种。对于基于点的3D检测器(图2a的顶部部分),很难对不同域的数据应用相同的采样和分组技术。对于基于体的3D检测器(图2a的底部部分),通常需要将稀疏特征转换为密集特征进行3D边界预测,而室内和室外点云之间的尺度差异使得使用相同大小的密集特征来表示它们变得困难。这从而限制了现有模型学习领域特定知识的能力,限制了它们获取通用3D知识的能力。

picture.image

在本文中,作者提出了一种统一的基于点云的3D检测器OneDet3D ,该检测器仅通过多域联合训练使用一套参数。如图2b所示,作者采用3D稀疏卷积进行特征提取,与基于点的特征提取器相比[26, 27],对域间隙的鲁棒性更强,因此非常适合适应来自不同域的点云。随后,作者使用 Anchor-Free 检测Head,其中物体由中心点[38, 47, 30]表示,使得直接兼容稀疏卷积,并避免了固定大小的密集特征的限制。这种完全稀疏结构,加上使用中心点表示的 Anchor-Free 检测Head,为多域联合训练提供了一种有效的架构。

根据模型架构,在多域联合训练过程中,域间干扰问题需要进一步解决。这个问题主要包含两个方面:数据 Level 的干扰,由点云自身差异引起;以及不同域之间的类别级干扰,由不同域之间的标签冲突引起。为了减轻数据 Level 的干扰,作者采用域感知分区,将主要存在干扰问题的参数域特定化,并在不同域之间保持大部分参数共享。因此,可以在不增加模型复杂度太多的情况下有效地防止数据 Level 干扰。具体而言,作者在归一化层中划分重标定,以保持数据散射的一致性,并参数化用于减少范围差异的影响的上下文学习。它们由域分类器实现的域路由器指导。为了减轻类别 Level 的干扰,作者采用语言引导分类,利用文本模式来缓解冲突问题。作者利用全连接层和稀疏卷积的组合进行类特定和类无关的分类,以确保与 Anchor-Free 头兼容。

作者的主要贡献可以总结如下:

作者提出OneDet3D,一种用于通用3D目标检测的多域点云联合训练模型。据作者所知,这是第一个同时支持室内和室外域的点云,只需一个参数集即可实现3D检测器。

作者提出了基于域路由机制的分散和全局语境下的域感知分区。这样,在多数据集联合训练过程中,点云差异引起的数据 Level 干扰问题可以得到缓解。

作者将文本语义集成到 Anchor-Free 头分类中。通过使用全连接层和3D稀疏卷积的双级分类(无类别和特定类别)实现,可以缓解类别 Level 的干扰问题。

广泛实验证明了作者的一体化3D目标检测器OneDet3D具备通用性。OneDet3D在类别和场景上均具有强大的泛化能力,从而有效实现了通用3D目标检测的目标。在紧密词汇设置下,仅使用一套参数即可实现可比性能。在开放词汇设置下,性能超过7%。

2 Related Work

3D目标检测 的目标是预测场景的类别标签和定向3D边界框。作者主要讨论以点云作为输入的方法。当前的3D检测器可以大致分为基于点的方法和基于体的方法。基于点的方法通常提取点特征,然后进行聚类和分类以进行检测。基于体的方法通常使用3D稀疏卷积提取体特征,然后将它们转换为密集3D特征进行3D边界框预测。考虑到点云的差异,现有的3D检测方法也被分为室内3D检测和室外3D检测,其中每个都有完全不同的模型架构。

最近,[41]提出了一种适用于室内和室外3D检测的统一模型架构。然而,这些方法仍然遵循单一数据集的训练和测试范式,无法解决使用一组参数处理来自不同领域的点云的3D检测问题。

多数据集训练旨在将来自不同领域的多个数据集纳入训练,以便在推理时模型可以在多域数据上进行泛化。由于RGB图像主要在内容上有所不同,而图像本身的结构差异并不显著,多数据集训练在二维目标检测领域得到了广泛研究。相比之下,点云本身存在巨大的差异,这使得在3D目标检测任务中的多数据集训练更具挑战性。一些最近的研究已经研究了这个问题。然而,它们只研究了室内或室外场景下的多数据集训练,并无法同时处理来自室内和室外场景的多个数据集。

例如,[40]和[12]处理了RGB图像的多数据集训练,[20]和[48]专注于室外场景下的多数据集训练,其中不同数据集之间的差异远小于室内和室外点云之间的差异。OneDet3D表明,尽管存在这些巨大的差异,3D检测仍可以通过一个通用解决方案来解决。这是3D领域泛化的一个关键进展。

3 Preliminary

给定点云,目标检测任务旨在预测其标签,其中包含类别标签和3D边界框。在训练过程中,使用了多域(即多数据集)数据。将域表示为,总域数为,因此总训练数据可以表示为。多域联合训练的目的是从这些域中训练一个统一的模型,该模型可以在所有不同域上获得最小预测误差。得到的3D检测器还应该在新域上表现良好。

在3D目标检测中,不同域点云之间存在以下两级干扰,这使得多域联合训练变得极具挑战性:

数据级干扰。正如图1所示,收集室内外点云的传感器存在根本差异,导致点云覆盖范围存在显著差异,差异超过10到近20倍。这也导致了场景中物体尺寸和稀疏度的巨大差异。由于这种规模差异,在联合训练不同场景的点云时,使用固定大小的点指聚聚类技术或特征图是具有挑战性的。即使是在同一类别(室内或室外点云)的数据集中,用于收集的传感器仍然存在微小的差异。例如,SUN RGB-D [36] 点来自RGB-D相机的捕捉,而ScanNet点则来自RGB图像的重建。激光雷达束数的不同也会导致点云稀疏度的差异。

分类 Level 的干扰。 不同的数据集通常具有不同的标签空间。一个在一数据集中被分类为背景的目标,可能在另一个数据集中被视为前景。即使对于相同类别,不同的数据集有时也会采用不同的分类和定义方式,例如户外数据集中的“汽车”类别。这种数据集特定的分类和定义不一致性在统一多个标签空间方面带来了挑战。因此,分类 Level 的差异导致多个数据集在训练过程中出现干扰问题。作者在第4.3节提出了语言引导分类的方法来减轻这种分类 Level 的干扰。

4 Method

作者的OneDet3D概述如图3所示。作者使用3D稀疏卷积进行特征提取,并使用 Anchor-Free 检测Head进行3D边界框预测。基于此,作者在特征提取过程中提出域感知划分以减轻数据 Level 干扰,并在 Anchor-Free 头中提出语言引导分类以减轻类别 Level 干扰。

Multi-Domain Joint Training

架构设计。作者从特征提取器和检测Head两个方面设计了OneDet3D的架构。对于特征提取器,作者采用3D稀疏卷积来提取 Voxel Level 的特征。与点状结构相比, Voxel Level 的特征对域间隙的鲁棒性更强,对超参数的敏感性较低,适用于多域训练。此外,稀疏卷积不仅在计算上更高效,而且仅操作点,不依赖于固定大小的特征图,这使得作者可以提取出域不变的3D特征,适用于多域联合训练。

对于检测Head,作者采用 Anchor-Free 框的方式,其中物体由其中心点表示。它直接将稀疏卷积产生的点作为中心点来表示物体,避免了从稀疏特征图转换为密集特征图的需要。作者没有使用任何剪枝层[13, 30]。相反,作者在框预测的最终阶段保留了所有的点。这有助于避免由于点云变化而需要不同的剪枝策略的问题。这种完全稀疏的架构很好地适应了来自多个领域的点云,因此可用于多域训练。

联合训练。 在训练过程中,由于不同点云中物体尺寸的差异,数据集之间的定位精度需求有很大差异。考虑到这一点,除了分类、回归和中心度预测学习外,作者还引入了3D IoU预测学习,以确保框的得分准确地反映了它们的位置精度。

在分类任务中,作者采用软Focal Loss,如[41]中所述。为了进行更简单的优化,作者利用BEV空间中的IoU(交并比),即作为软目标。具体而言,二进制目标类标签为,预测的类概率为,分类损失为:

picture.image

。这个分类损失可以看作是使用focal loss[19]中的软目标。

通过使用,网络的分类仅关注水平平面上的位置,这有助于提高分类分数的校准。在这里,作者舍弃了高度方向的位置信息,以防止优化变得过于复杂,这使得网络在联合训练过程中更容易收敛。

对于回归,作者使用3D IoU损失[53],使用常规的3D IoU进行优化。对于中心度和IoU预测,作者使用二进制交叉熵损失。

IoU预测分支也使用常规的3D IoU进行监督。由于不同数据集的规模不同,作者在联合训练中使用数据集感知的采样:先采样数据集,然后随机选择样本。将网络参数表示为θ,网络训练的目标可以表示为:

picture.image

Domain-Aware Partitioning

在多域联合训练中,作者首先致力于减轻点云固有结构差异引起的数据级干扰。作者确定了两类主要的干扰源。首先,由于数据之间的显著差异,干扰主要出现在归一化层,该层调整数据的分散以保持一致性。其次,卷积主要关注局部信息,导致不同域点云之间的上下文学习存在干扰,其中尺寸差异主要存在。因此,作者将这两方面的参数划分为域特定参数。作者设计了一个域路由器来引导这种域感知的训练。这样,划分的参数负责学习域等价知识,而大部分模型可以避免干扰并学习域不变的3D知识。这样,多域联合训练可以有效地获取通用3D表示。

域路由器。给定输入点云 ,域路由器旨在为其域感知分区引导路径。作者通过分类其正确域标签 来使用域分类器作为路由机制。为此,作者使用核大小为 3 和 1 的 3D 稀疏卷积进行简单特征提取,然后使用全局平均池化 (GAP) 获得整个场景的特征。在应用softmax之后,作者得到域概率 ,并直接使用交叉熵损失进行分类。由于域差异较大,这种分类任务相对简单,因此域路由器可以快速收敛。在推理过程中,当遇到未见域数据时,这种域概率可以指示其与已见域的相似性,并提供其数据流路径,使模型能够泛化到未见域。

归一化层对输入数据进行正则化,从而减少数据和网络训练过程中的层次差异。然后归一化层进行重新缩放,以调整数据散射。由于不同域之间存在显著差异,相同的重新缩放操作会导致输出数据散射的差异。

因此,在归一化每个域数据后,作者针对每个域的数据分配合数和偏移参数,这样不同域的数据散射就可以进行划分。所有其他卷积层可以共享,只有缩放和偏移参数具有域特定性并存在差异。在推理时,作者引入来自域路由器的域概率。

具体而言,作者保持组缩放和偏移参数,。散射划分可以因此表述为:

picture.image

在作者的工作中,作者使用 来表示归一化层的输出。通过这种方式,网络可以从不同的域应用个性化的缩放操作,从而产生域特定的散射,有效地减轻了数据 Level 的干扰。只引入 组缩放和移位参数几乎不会增加模型的尺寸。

Context 分区。 此外,作者分别学习不同域数据的全局上下文信息,以防止它们之间在全局上下文中产生干扰。

具体而言,对于特征提取器中的特征 ,作者首先应用全局平均池层来提取整个场景的特征,然后利用 3D 稀疏卷积来学习其上下文信息。根据以前的工作 [41],全局信息在室内场景中尤为重要。因此,作者只对室内域进行上下文学习。上下文分区的过程可以表述如下:

picture.image

作者利用 来表示具有分域感知的全局上下文的更新特征。

Language-Guided Classification

然后,作者旨在缓解由于标签冲突导致的领域间类别级干扰。不同的数据集固有地具有不同的标签空间,导致标注不统一的问题。此外,在推理时间,未见过的领域可能涉及与训练过程中看到的不同的标签空间。这种类别级差异导致了对同一目标的相同定义,从而在训练过程中产生了冲突和干扰问题。为了解决这个问题,作者利用CLIP[28]的语言词汇嵌入进行分类。

具体而言,作者使用"a photo of {name}"的 Prompt 从不同的数据集中使用CLIP提取类别名称的语言嵌入。这些语言嵌入然后被用作全连接层的参数进行最终分类,并且在训练过程中保持冻结。每个数据集都使用其自己的语言嵌入,有效地减轻了这种干扰。

由于采用了全卷积架构和 Anchor-Free 框头,最终的分类通常通过3D稀疏卷积实现。为了引入语言嵌入,作者将点上的稀疏特征转换为稠密特征,然后通过全连接层使用语言嵌入进行分类。

然而,从稀疏特征到稠密特征的转换,以及与冻结的语言嵌入,都给梯度反向传播带来了困难,使得网络收敛变得困难。为了解决这个问题,作者引入了一个与类别无关的分类分支,该分支仅进行前景-背景二分类。这个分支在不同的数据集之间共享,并使用3D稀疏卷积实现。这样,一部分分类可以通过3D稀疏卷积解决,使得收敛变得更加容易。最终,来自两个分支的分类概率将被乘积。在多个领域共享这样的无类别分类也有助于模型在3D域中学习通用类别知识。

开源词汇扩展。将语言嵌入引入分类,使OneDet3D可以轻松扩展到开源词汇设置,利用文本的一般化能力,使其在未见类别中受益。

为了进一步确保类别可扩展性,作者遵循[23]的方法,首先使用一个预训练的2D开源词汇检测器[54]在2D图像上进行大规模词汇推理,然后将获得的2D框投影到3D空间,以获得具有扩展词汇的3D伪标签。通过这样大规模的伪标签,可以增强多领域联合训练的泛化能力。

多数据集训练方式使得可以从多个领域的不同类型的数据进行全面利用,因此非常适合开源词汇设置。通过这种开源词汇扩展,OneDet3D可以扩展到未见类别。因此,OneDet3D可以在各种领域、类别和场景之间进行泛化,可以认为它具有通用3D目标检测的能力。

5 Experiments

在本节中,作者通过大量实验展示了OneDet3D的一体化能力。作者同时进行了闭合词汇和开闭词汇的3D目标检测实验。作者主要在SUN RGB-D [36]、ScanNet [8]、KITTI [11]和nuScenes [2]数据集上进行多数据集联合训练,并利用S3DIS [1]和Waymo [37]进行跨数据集实验。作者使用mmdetection3D [7]实现OneDet3D,并使用AdamW [22]优化器进行训练。对于室内数据集,作者使用0.01m的 Voxel 大小,对于室外数据集,作者使用0.05m的 Voxel 大小。此外,对于不同的数据集,其他架构相关的超参数都相同。在多数据集训练过程中,属性通道大小设置为各个数据集属性维度的最小公倍数,即6维。不同数据集的点云属性相应地重复以匹配这个统一通道大小。

Closed-Vocabulary 3D Object Detection

首先,作者在上述提到的四个数据集上进行多数据集联合训练,并执行闭式词汇推理。具体而言,对于SUN RGB-D数据集,作者在10个类别上进行3D检测,对于ScanNet,这是18个类别,而对于KITTI和nuScenes数据集,作者专注于“汽车”类别。结果列在表2中。可以看出,即使在传统的单数据集训练和测试范式中,现有的3D检测器也只能在特定领域进行检测。

室内3D检测器只能操作室内点云,而大多数现有室外3D检测器只能在一个KITTI和nuScenes数据集中工作,因为它们在稀疏度和场景上的差异。相比之下,作者的模型可以直接在这些不同的域点云上进行训练和推理,只需要一套参数。在多数据集联合训练后,OneDet3D可以在仅使用一套参数的情况下,对所有域点云执行3D检测。

其性能超过了使用单数据集训练和推理的现有方法的性能。例如,在SUN RGB-D数据集上,OneDet3D实现了65.0%AP,超过了FCAF3D的1.2%。在室外KITTI数据集上,OneDet3D与PV-RCNN性能相当,而在nuScenes上,其AP超过了现有的方法,如VoxelNeXt和UVTR。

此外,在多域联合训练后,OneDet3D的性能超过了单数据集训练时的性能。在SUN RGB-D和KITTI数据集上,多数据集联合训练为两者都带来了1.8%的改进。这表明,即使存在显著差异,OneDet3D也可以从这些多样化的点云中学习通用的3D检测知识。因此,多域联合训练的必要性以及作者OneDet3D的有效性可以得到证明。

picture.image

与其他更先进的方法进行比较。作者在表3中进一步与一些更先进的3D检测器进行了比较。可以看出,这些最新方法针对特定的3D场景。它们可能在特定数据集上优于OneDet3D,但AP往往会降低,尤其是在从户外切换到室内时。经过多数据集训练后,由于数据集感知干扰,所有数据集上的AP严重下降。在这种多数据集场景下,OneDet3D仍然表现最好。

此外,与Uni3D [48]相比,OneDet3D为户外点云提供了统一的模型,而为所有点云提供了通用的解决方案。可以看出,即使与这些最新方法相比,OneDet3D仍然是第一个可以跨各种点云进行泛化的通用3D检测器。

主要原因是这些检测Head(如基于投票的方法或BEV检测)的设计受到点云结构和内容的制约,因此仅适用于户外场景。此外,这些方法缺乏处理多数据集干扰的设计,导致在多数据集联合训练期间,所有数据集上的性能降低。相比之下,作者OneDet3D的检测Head更具灵活性,适用于室内和室外场景。此外,域感知分区和解语言引导分类可以减轻多数据集干扰。因此,作者的方法为3D检测提供了更通用的解决方案。

picture.image

Open-Vocabulary 3D Object Detection

接下来,作者使用OneDet3D进行开放式词汇3D目标检测实验。在实验中,作者参考了CoDA中的设置,其中SUN RGB-D包括46个类别,ScanNet包括总共60个类别,它们的top 10个类别作为基础类别。

对于多数据集联合训练,作者将两个数据集的基础类别合并形成一个并集,结果为16个基础类别,其余为新类别。作者在新的类别划分下复制现有方法的结果,并列表在表4中。值得注意的是,为了进行公平比较,作者使用了与CoDA完全相同的设置,它使用ScanNet的单视图图像设置,与上面的闭式词汇设置略有不同。可以看出,作者方法的优势在这里更加明显。在SUN RGB-D数据集上,作者与CoDA相比实现了5.94%以上的AP提升。在ScanNet数据集上,作者实现了15.52%的AP,比CoDA高出9%以上。这强烈地证明了作者的OneDet3D不仅跨域泛化效果好,而且在类别 Level 上也表现出强大的泛化能力。与单一数据集训练相比,多数据集训练带来了超过1%的改进。这是因为利用多个数据集可以学习到更丰富的类别知识。这一实验验证了OneDet3D在类别方面的通用能力,这显示了它在通用3D目标检测方面的基本能力。

picture.image

Cross-Domain 3D Object Detection

进一步,作者在S3DIS和Waymo这两个新的领域进行了跨域3D检测实验。比较结果列在表5和表6中。可以看出,在单数据集训练中,作者的方法在S3DIS上已经超越了现有方法。这是因为作者的语言引导分类更好地缓解了类别冲突。

在ScanNet上训练时,性能略有提高,因为ScanNet域与S3DIS更相似。在训练这两个数据集后,S3DIS上的跨域AP提高了4%以上,表明模型能够整合两个域数据集的信息。此外,引入了两个室外数据集,AP提高了0.9%,AP保持稳定。这表明作者的OneDet3D可以从这样高度不同的域点云中学习,以提高跨域3D检测。在室外点云中,这一点更加明显。KITTI与Waymo相对相似,但只包含小规模的点云,而nuScenes规模更大,但域间差异更大。分别在这两个数据集上训练只能得到有限的跨数据集AP在Waymo上的提高。相比之下,通过多数据集训练,模型可以利用这两个特征,从而实现了23.1%的显著提高。这进一步验证了作者的方法对未见域的泛化能力,并再次证明了多数据集训练的必要性。

picture.image

选择性地学习不同领域点云对应的全局上下文,进一步提高了AP。特别是对于室内领域,全局上下文学习的划分使得多领域联合训练AP超过了单领域训练的AP。最后,通过语言引导分类,可以减弱类别冲突的影响。由于SUN RGB-D和KITTI之间的类别冲突问题并不严重,这两个数据集上的性能提升相对温和。这里大约0.5%的AP提升主要是由于通用的无类别分类。在S3DIS上的跨数据集实验中,语言嵌入贡献了更多的AP提升,超过了2%的提升。这主要是因为SUN RGB-D和S3DIS之间的类别重叠更大,使得语言嵌入对于这两个领域更加有效。因此,这种消融实验证明了这些设计在解决多数据集联合训练的干扰问题方面的必要性。

作者提供了图4中的可视化结果。可以看到,无论是来自不同领域的室内外点云,OneDet3D仅使用一套参数就能有效进行3D检测,这进一步证明了其有效性和通用能力。

picture.image

6 Conclusion

在本文中,作者提出了一种名为OneDet3D的通用点云基于3D目标检测器,它可以在各种领域、类别和场景下进行泛化,只需要一组参数。

全稀疏结构和 Anchor-Free 检测Head作为基本模型架构。通过在散列和上下文中进行划分,结合语言引导分类,可以减轻点云和类别带来的干扰。

大量实验证明了OneDet3D的强大通用性。首次在统一的框架内实现了各种3D目标检测场景和需求。

这表明作者的OneDet3D通过多领域联合训练学会了通用的3D表示,从而基本实现了通用3D目标检测和3D基础模型的需求。作者相信,作者的研究将在未来的通用计算机视觉方向上激发相关研究。

参考文献

[0]. One for All: Multi-Domain Joint Training for.

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论