图像引导3D生成中的规范视图偏置问题研究：基于轻量级CNN的方向校正方案！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

Image

尽管取得了令人瞩目的成果，大规模的图像到3D生成模型在其归纳偏置（inductive biases）方面仍显得不透明。作者发现图像条件下的3D生成模型存在一个显著局限：强烈的规范视图偏置（canonical view bias）。

通过使用简单2D旋转的受控实验，作者表明当前最先进的Hunyuan3D 2.0模型在跨视角泛化方面存在困难，其性能在输入发生旋转时显著下降。

作者进一步证明，通过引入一个轻量级CNN来检测并校正输入方向，可以有效缓解这一问题，从而在不修改生成主干（generative backbone）的前提下恢复模型性能。

作者的研究结果提出了一个重要的开放性问题：规模是否足够？抑或作者应追求模块化、具备对称性感知（symmetry-aware）的设计？

1 引言

生成模型（尤其是扩散架构）的表达能力推动了从单张图像生成3D内容的空前成功。这些模型有望从精心筛选的3D训练数据与图像基础模型的混合数据中学习复杂的分布。然而，这种成功也引发了一个基础性问题：训练过程中实际学习到了哪些归纳偏置（inductive biases），它们又如何影响模型的泛化能力？在物理世界中，物体即使在位置和姿态发生变化时仍保持其身份不变。然而，当这些物体被投影到观测空间（如观测图像）时，其外观会呈现出结构化的变化。因此，一个真正理解3D身份结构（3D Identity structure）的模型，应在这些变换下的输入点（Input Points）中保持物体身份的一致性，表现出欧几里得3D世界空间与其在观测空间表示之间的等变性（equivariance）。

picture.image

Image

已有研究指出，对称性应当被显式编码，而不仅仅是被发现：群等变卷积神经网络（group equivariant CNNs）在2D空间中强制实现旋转/反射结构 [2]，而 SE(3)-等变网络则将这一思想扩展至3D表示 [11, 3]。相比之下，流行的图像到3D（image-to-3D）流水线通常继承数据集视角偏差（例如，规范前视图），这可能导致模型倾向于采用捷径解法而非真实几何结构 [1, 6]。近期研究尝试通过两种主要策略来缓解这一偏差：其一是对模型在方向对齐的数据上进行微调，以直接生成规范输出 [8]；其二是对输入进行归一化处理。

2pose 在重建之前。后者的可行性得到了基础性研究的支持，这些研究表明

简单的网络可以有效预测2D图像旋转 [4]。

1 作者将本研究置于这一背景之中，利用输入图像的平面内旋转作为可控 Prob ，检验当前最先进的模型——Hunyuan3D 2.0 图像到3D生成流水线 [15] 是否具备真正的等变性，还是依赖于标准视角。一个真正内化3D结构的模型应对此类变换保持等变性，在观察角度旋转时仍能维持物体的身份一致性。然而，大规模图像语料库中标准朝向的普遍性可能诱发捷径学习（shortcut learning），导致模型更偏好标准视角而非鲁棒的3D几何结构。作者将这种现象称为标准视角偏差（canonical-view bias），它限制了模型对任意朝向输入的泛化能力。

1 贡献本工作研究了图像到3D生成中的视角偏差影响。

(i) 作者通过实证发现，Hunyuan3D生成模型中存在显著的规范视角偏差，尤其在具有明确朝向的物体类别（如飞机、椅子和汽车）上表现明显。

(ii) 作者证明，当输入图像偏离其规范姿态时，该偏差会显著降低3D生成质量。

(iii) 作者展示了一种轻量级基于CNN的预处理模块，通过训练以检测并校正图像朝向，能够有效恢复生成质量，且无需对生成模型本身进行任何修改。

2 方法论

2.1 图像到3D生成模型

作者的研究聚焦于 Hunyuan3D [15]，这是一种用于单图像 3D 生成的前沿流匹配（flow-matching）架构。该模型采用解耦（decoupled）的流水线设计，将 3D 表示学习与生成过程分离。为了获取 3D 表示，输入图像中的高层语义特征通过一个冻结的基于 DINOv2 的编码器 [9] 提取。这些特征被投影到一个潜在空间中，形成向量集合 [14]，作为复杂 3D 形状的隐式表示。生成组件是一个在该潜在空间中训练的流匹配扩散 Transformer，用于从输入图像预测物体 token 序列。这些 token 序列被解码为有符号距离函数（Signed Distance Functions, SDFs），随后通过等值面提取（iso-surfacing）[7] 转换为三角网格。

该架构表明，模型的合成质量受限于其2D编码器的特征保真度。如果DINOv2编码器对标准物体视角存在偏差，那么在处理旋转输入时可能会产生失真的特征表示。

2.2 检测规范视图偏差

精心构建的数据集。为了研究模型对输入方向的敏感性，作者构建了一个针对性的评估数据集，包含三个具有明确标准姿态（canonical poses）的物体类别：飞机、椅子和汽车。图像来源于公开可用的资源库，并经过人工筛选，以确保每张图像中仅包含一个主导物体，遮挡程度最小，并且物体实例之间具有足够的多样性。

旋转变换。为了系统地评估模型对视角变化的鲁棒性，作者对数据集中的每张图像应用一组平面内2D旋转。具体而言，每张源图像

分别绕其平面内旋转角度

，生成一组变换后的输入

。其中，

表示原始的、标准的朝向。

评估指标：跨模态相似性（ULIP）。为了定量评估生成3D形状的语义保真度，作者采用ULIP（Unified Language-Image Pre-training）得分[13]，该方法通过将2D图像和3D形状嵌入到共享语义空间中，实现模态间的直接比较。在作者的设置中，每个生成的网格（mesh）被转换为包含8,192个点的点云（point cloud），并使用集成在ULIP框架内的预训练Point-BERT变体提取3D特征。ULIP得分计算为图像嵌入与点云嵌入之间的余弦相似度，得分越高，表示输入图像与生成的3D形状之间的语义对齐程度越强。

评估流程。对于每张旋转后的图像

，作者使用 Hunyuan3D 模型生成对应的 3D 形状

，并计算其相应的 ULIP 分数：

通过比较不同旋转角度下的得分，作者评估模型对输入方向的鲁棒性，并识别当输入偏离标准视图时性能是否下降。

2.3 一种轻量级基于CNN的朝向校正器

为缓解方向偏差问题，作者引入了一个轻量级预处理模块：基于 EfficientNetV2 的紧凑型方向分类器，其输出为四分类的 softmax 结果。关于该方向分类器的更多细节请参见附录 A。给定输入图像

，该分类器生成 logits

，对应于离散的旋转角度

。预测的旋转角度

由下式获得：

随后，图像被旋转回标准方向。作者采用公开可用的预训练权重进行分类，且未进行任何额外的微调。该分类器仅包含 2030 万参数，与生成模型的 28 亿参数相比可忽略不计，在作者的评估中达到了

的准确率。

3 结果与分析

3.1 Hunyuan3D 2.0 中的规范视图偏差

picture.image

Image

作者观察到，在所有评估类别（飞机、椅子和汽车）中，随着输入图像偏离标准的

方向进行旋转，ULIP 相似度分数均呈现一致下降趋势。在每种情况下，

视图的相似度最高，而

、

和

的旋转视图则导致显著更低的分数，这表明模型对输入方向敏感，而非具备稳健的3D理解能力（图3）。

picture.image

Image

这一趋势也得到了定性分析的进一步支持。在非标准视角下的输入常常导致系统性的几何错误；例如，飞机机翼塌陷或扭曲，椅子腿错位或重复出现，而来自标准视角的输出则保持结构上的连贯性，并忠实于物体的形状（图4）。

推理步数的影响。作者评估了增加扩散模型推理步数是否能缓解方向偏差。在不同类别和视角下，作者未观察到一致的趋势：对于非标准视角输入，额外的推理步数有时带来微小提升，但改善效果不稳定，不足以缩小与

视角之间的差距。这表明该偏差源于模型学习到的表征，而非采样未充分收敛所导致的伪影。

3.2 轻量级方向校正器

picture.image

Image

为缓解模型对输入方向的敏感性，作者引入了一个轻量级的基于CNN的方向校正模块，该模块在3D生成之前对输入图像进行重归一化处理。重要的是，该校正作为预处理步骤执行，无需对生成主干网络进行任何修改。校正后，ULIP得分与原始以规范

视角呈现的图像所得结果高度一致（表1），证明了这一轻量级干预的有效性。

4 讨论与结论

讨论。作者的研究发现，当前最先进的图像到3D生成流程中存在明显的正视图偏差（canonical-view bias）。具体而言，当输入图像分别旋转

、

或

时，各类物体（如飞机、椅子和汽车）的 ULIP 相似度得分均显著下降，且在所有情况下，

（正视图）输入的表现最佳（图3）。定性结果进一步表明，非正视图输入生成的输出中存在明显的几何结构伪影，例如塌陷或扭曲的机翼、重复的椅子腿等；而正视图输入则能够生成稳定且一致的重建结果（图4）。

值得注意的是，增加扩散推理步骤的数量并不能缓解这一差异，这表明性能下降的根源在于学习到的表征本身存在局限性，而非采样不足或过早收敛所致。为解决这一问题，作者证明了一个轻量级辅助网络（通过预测输入旋转进行训练）能够有效将性能恢复至接近标准水平，且无需对底层生成模型进行任何修改（表1）。

参考

[1]. Twist and Compute: The Cost of Pose in 3D Generative Diffusion

点击上方卡片，关注「AI视界引擎」公众号

图像引导3D生成中的规范视图偏置问题研究：基于轻量级CNN的方向校正方案 ！

1 引言

2 方法论

2.1 图像到3D生成模型

2.2 检测规范视图偏差

2.3 一种轻量级基于CNN的朝向校正器

3 结果与分析

3.1 Hunyuan3D 2.0 中的规范视图偏差

3.2 轻量级方向校正器

4 讨论与结论

参考