图像引导3D生成中的规范视图偏置问题研究:基于轻量级CNN的方向校正方案 !

大模型机器学习算法

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

Image

尽管取得了令人瞩目的成果,大规模的图像到3D生成模型在其归纳偏置(inductive biases)方面仍显得不透明。作者发现图像条件下的3D生成模型存在一个显著局限:强烈的规范视图偏置(canonical view bias)。

通过使用简单2D旋转的受控实验,作者表明当前最先进的Hunyuan3D 2.0模型在跨视角泛化方面存在困难,其性能在输入发生旋转时显著下降。

作者进一步证明,通过引入一个轻量级CNN来检测并校正输入方向,可以有效缓解这一问题,从而在不修改生成主干(generative backbone)的前提下恢复模型性能。

作者的研究结果提出了一个重要的开放性问题:规模是否足够?抑或作者应追求模块化、具备对称性感知(symmetry-aware)的设计?

1 引言

  • 生成模型(尤其是扩散架构)的表达能力推动了从单张图像生成3D内容的空前成功。这些模型有望从精心筛选的3D训练数据与图像基础模型的混合数据中学习复杂的分布。然而,这种成功也引发了一个基础性问题:训练过程中实际学习到了哪些归纳偏置(inductive biases),它们又如何影响模型的泛化能力?在物理世界中,物体即使在位置和姿态发生变化时仍保持其身份不变。然而,当这些物体被投影到观测空间(如观测图像)时,其外观会呈现出结构化的变化。因此,一个真正理解3D身份结构(3D Identity structure)的模型,应在这些变换下的输入点(Input Points)中保持物体身份的一致性,表现出欧几里得3D世界空间与其在观测空间表示之间的等变性(equivariance)。

picture.image

Image

已有研究指出,对称性应当被显式编码,而不仅仅是被发现:群等变卷积神经网络(group equivariant CNNs)在2D空间中强制实现旋转/反射结构 [2],而 SE(3)-等变网络则将这一思想扩展至3D表示 [11, 3]。相比之下,流行的图像到3D(image-to-3D)流水线通常继承数据集视角偏差(例如,规范前视图),这可能导致模型倾向于采用捷径解法而非真实几何结构 [1, 6]。近期研究尝试通过两种主要策略来缓解这一偏差:其一是对模型在方向对齐的数据上进行微调,以直接生成规范输出 [8];其二是对输入进行归一化处理。

2pose 在重建之前。后者的可行性得到了基础性研究的支持,这些研究表明

简单的网络可以有效预测2D图像旋转 [4]。

1 作者将本研究置于这一背景之中,利用输入图像的平面内旋转作为可控 Prob ,检验当前最先进的模型——Hunyuan3D 2.0 图像到3D生成流水线 [15] 是否具备真正的等变性,还是依赖于标准视角。一个真正内化3D结构的模型应对此类变换保持等变性,在观察角度旋转时仍能维持物体的身份一致性。然而,大规模图像语料库中标准朝向的普遍性可能诱发捷径学习(shortcut learning),导致模型更偏好标准视角而非鲁棒的3D几何结构。作者将这种现象称为标准视角偏差(canonical-view bias),它限制了模型对任意朝向输入的泛化能力。

1 贡献 本工作研究了图像到3D生成中的视角偏差影响。

(i) 作者通过实证发现,Hunyuan3D生成模型中存在显著的规范视角偏差,尤其在具有明确朝向的物体类别(如飞机、椅子和汽车)上表现明显。

(ii) 作者证明,当输入图像偏离其规范姿态时,该偏差会显著降低3D生成质量。

(iii) 作者展示了一种轻量级基于CNN的预处理模块,通过训练以检测并校正图像朝向,能够有效恢复生成质量,且无需对生成模型本身进行任何修改。

2 方法论

2.1 图像到3D生成模型

作者的研究聚焦于 Hunyuan3D [15],这是一种用于单图像 3D 生成的前沿流匹配(flow-matching)架构。该模型采用解耦(decoupled)的流水线设计,将 3D 表示学习与生成过程分离。为了获取 3D 表示,输入图像中的高层语义特征通过一个冻结的基于 DINOv2 的编码器 [9] 提取。这些特征被投影到一个潜在空间中,形成向量集合 [14],作为复杂 3D 形状的隐式表示。生成组件是一个在该潜在空间中训练的流匹配扩散 Transformer,用于从输入图像预测物体 token 序列。这些 token 序列被解码为有符号距离函数(Signed Distance Functions, SDFs),随后通过等值面提取(iso-surfacing)[7] 转换为三角网格。

该架构表明,模型的合成质量受限于其2D编码器的特征保真度。如果DINOv2编码器对标准物体视角存在偏差,那么在处理旋转输入时可能会产生失真的特征表示。

2.2 检测规范视图偏差

精心构建的数据集。为了研究模型对输入方向的敏感性,作者构建了一个针对性的评估数据集,包含三个具有明确标准姿态(canonical poses)的物体类别:飞机、椅子和汽车。图像来源于公开可用的资源库,并经过人工筛选,以确保每张图像中仅包含一个主导物体,遮挡程度最小,并且物体实例之间具有足够的多样性。

旋转变换。为了系统地评估模型对视角变化的鲁棒性,作者对数据集中的每张图像应用一组平面内2D旋转。具体而言,每张源图像

分别绕其平面内旋转角度

,生成一组变换后的输入

。其中,

表示原始的、标准的朝向。

评估指标:跨模态相似性(ULIP)。为了定量评估生成3D形状的语义保真度,作者采用ULIP(Unified Language-Image Pre-training)得分[13],该方法通过将2D图像和3D形状嵌入到共享语义空间中,实现模态间的直接比较。在作者的设置中,每个生成的网格(mesh)被转换为包含8,192个点的点云(point cloud),并使用集成在ULIP框架内的预训练Point-BERT变体提取3D特征。ULIP得分计算为图像嵌入与点云嵌入之间的余弦相似度,得分越高,表示输入图像与生成的3D形状之间的语义对齐程度越强。

评估流程。对于每张旋转后的图像

,作者使用 Hunyuan3D 模型生成对应的 3D 形状

,并计算其相应的 ULIP 分数:

通过比较不同旋转角度下的得分,作者评估模型对输入方向的鲁棒性,并识别当输入偏离标准视图时性能是否下降。

2.3 一种轻量级基于CNN的朝向校正器

为缓解方向偏差问题,作者引入了一个轻量级预处理模块:基于 EfficientNetV2 的紧凑型方向分类器,其输出为四分类的 softmax 结果。关于该方向分类器的更多细节请参见附录 A。给定输入图像

,该分类器生成 logits

,对应于离散的旋转角度

。预测的旋转角度

由下式获得:

随后,图像被旋转回标准方向。作者采用公开可用的预训练权重进行分类,且未进行任何额外的微调。该分类器仅包含 2030 万参数,与生成模型的 28 亿参数相比可忽略不计,在作者的评估中达到了

的准确率。

3 结果与分析

3.1 Hunyuan3D 2.0 中的规范视图偏差

picture.image

Image

作者观察到,在所有评估类别(飞机、椅子和汽车)中,随着输入图像偏离标准的

方向进行旋转,ULIP 相似度分数均呈现一致下降趋势。在每种情况下,

视图的相似度最高,而

的旋转视图则导致显著更低的分数,这表明模型对输入方向敏感,而非具备稳健的3D理解能力(图3)。

picture.image

Image

这一趋势也得到了定性分析的进一步支持。在非标准视角下的输入常常导致系统性的几何错误;例如,飞机机翼塌陷或扭曲,椅子腿错位或重复出现,而来自标准视角的输出则保持结构上的连贯性,并忠实于物体的形状(图4)。

推理步数的影响。作者评估了增加扩散模型推理步数是否能缓解方向偏差。在不同类别和视角下,作者未观察到一致的趋势:对于非标准视角输入,额外的推理步数有时带来微小提升,但改善效果不稳定,不足以缩小与

视角之间的差距。这表明该偏差源于模型学习到的表征,而非采样未充分收敛所导致的伪影。

3.2 轻量级方向校正器

picture.image

Image

为缓解模型对输入方向的敏感性,作者引入了一个轻量级的基于CNN的方向校正模块,该模块在3D生成之前对输入图像进行重归一化处理。重要的是,该校正作为预处理步骤执行,无需对生成主干网络进行任何修改。校正后,ULIP得分与原始以规范

视角呈现的图像所得结果高度一致(表1),证明了这一轻量级干预的有效性。

4 讨论与结论

讨论。作者的研究发现,当前最先进的图像到3D生成流程中存在明显的正视图偏差(canonical-view bias)。具体而言,当输入图像分别旋转

时,各类物体(如飞机、椅子和汽车)的 ULIP 相似度得分均显著下降,且在所有情况下,

(正视图)输入的表现最佳(图3)。定性结果进一步表明,非正视图输入生成的输出中存在明显的几何结构伪影,例如塌陷或扭曲的机翼、重复的椅子腿等;而正视图输入则能够生成稳定且一致的重建结果(图4)。

值得注意的是,增加扩散推理步骤的数量并不能缓解这一差异,这表明性能下降的根源在于学习到的表征本身存在局限性,而非采样不足或过早收敛所致。为解决这一问题,作者证明了一个轻量级辅助网络(通过预测输入旋转进行训练)能够有效将性能恢复至接近标准水平,且无需对底层生成模型进行任何修改(表1)。

参考

[1]. Twist and Compute: The Cost of Pose in 3D Generative Diffusion

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
veRL for Training Coding Agent
随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论