和德爷一起 6DoF 互动探险，火山引擎空间重建和虚实融合技术 - 文章 - 开发者社区

《跟着德爷闯东非》是 Pico 一款全新的 6DoF 互动纪录片。主角由在全球拥有 530 万粉丝的明星探险家德爷（Edward James Stafford）担任。观众以第一视角摄影师的身份陪伴德爷一起冒险，近距离观察野生动物，体验非洲大草原的野外生存之旅。

与行业内常见的不具备互动性的 3DoF 实拍纪录片以及不具备写实性的游戏引擎制作的 6DoF 纪录片不同，《跟着德爷闯东非》纪录片的拍摄采用空间重建技术及虚实融合技术，兼顾实拍和虚拟互动，以全新的 6DoF 互动体验，增强了 VR 内容的沉浸性和交互性，让用户跟随德爷的脚步沉浸式体验从城市“跃入”荒野的快感。

全新 VR 空间互动性的挑战和难点

传统 VR 实拍视频的交互通常采用不同选项触发不同结局的 AB 型互动方式，而《跟着德爷闯东非》想要实现的是全新的 VR 空间互动，用户可以抓起虚拟世界中的物体完成任务，比如和德爷一起钻木取火，也可以在场景中自由走动，在非洲草原和德爷一起追捕猎杀珍珠鸡，实现全新的交互并达到高沉浸感，突破传统视频的界限。

而想要实现全新的交互和体验高沉浸感，需要做到：

实际拍摄的 VR 视频和用于互动的场景、物品具备高度一致性，包含几何结构、纹理色彩及光影的一致性，这对于空间重建技术提出了很高的要求，需要做到高精度、高质量、真实感建模，超写实数字复原空间场景，让用户感受到原汁原味的非洲荒野。
用户在体验中，虚拟元素与实际场景相互交织，让用户在场景中难以区分哪些是真实的，哪些是虚拟的，达到了最佳的体验效果。这就要求无缝虚实融合技术，需要对重建的数字素材和实拍的视频素材进行像素级配准，这样用户才能够自然沉浸的地在场景中和德爷一起探索非洲，并从实拍 3DoF 视频中德爷手里顺利接过数字重建的 6DoF 互动道具。

空间重建，复原现实世界

空间重建技术能够复原现实世界的场景和物品并转化为数字资产，是计算机视觉和摄影测量中的重要研究课题，也在智慧城市、虚拟现实、数字导航与数字遗产保护等方面有着重要的应用。

火山引擎多媒体实验室团队自研改进 SFM 算法框架，实现高精度的场景稀疏重建及图像定位。

针对特征点提取、匹配算法，通过结合传统特征与深度学习方法，算法在大视角/尺度变化、暗光、弱纹理、运动模糊等多种挑战场景下仍能有效提取足量稳定的特征；通过将特征点纳入自注意力和交叉注意力网络，结合多源传感器输入检索全局最优图像特征匹配，使得算法即使在空地跨视角、鱼眼/针孔/全景跨相机等复杂数据输入的情况下，实现建图完整度、成功率均达到 100%。同时，开发支持多相机系统、多相机模型光束法平差优化算法，同时也兼容其他不同传感器的联合重建，实现高精度、多模态的位姿估计。

在稀疏重建算法之后，需要进行稠密算法重建。

火山引擎多媒体实验室通过立体视觉 (Multiple View Stereo，简称 MVS)技术将二维图像信息转化为三维点云信息。团队自研基于多目立体视觉及全景图的深度估计算法，通过神经网络进行稠密深度估计，在野外大场景环境获得高精度的场景稠密几何测量。获得点云信息后，进行点云去噪和补全，并通过点云配准实现场景几何一致性。最后，通过基于 TSDF 和图像语义信息的点云融合策略，进一步滤除噪声，生成更加平滑一致的完整场景点云。

获得场景点云后，进行 Mesh 重建。

火山引擎多媒体实验室自研多种网格优化算法，实现网格平滑、去噪、简化和补洞，获得更加精细、完整的高质量网格模型。得益于图像处理期间高精度的相机位姿估计以及图像超分等画质优化，结合自研贴图算法，获得更高清、拼缝更少的高质量纹理贴图。同时通过纹理重打包算法优化，实现更高的纹理利用率，降低存储资源浪费，提升纹理有效分辨率。

目前，火山引擎视频云平台具备自动化空间建模链路，助力大场景重建，可支持采集 RGBD/RGB 数据（无人机、手持采集等）自动化上传云平台，2-4 小时后自动产出建模结果，建模精度可达 1cm～2cm。同时，火山引擎视频云的云渲染可视化系统，联合自研动态传输算法，可实现高度真实感的模型渲染。

picture.image

图：火山引擎视频云三维重建平台

火山引擎多媒体实验室将神经辐射场技术（NeRF）与自研大场景建模技术相结合，研发行业领先的大场景光场重建方案，实现高度真实感（psnr>30)的场景重建、复现及后编辑。

在具体实践的场景中，动态物体会使 NeRF 重建出现伪影，借助自研动静态分割、影子检测、inpainting 等算法，对场景中和几何不一致的区域进行提取、修复。同时借助自研高精度 SFM 算法框架，对场景进行高精度的几何重建，包括相机参数估计以及稀疏、稠密点云生成。另外，对场景进行拆分以减小单次训练资源消耗，并可做分布式训练、维护。在神经辐射场训练过程中，针对室外无边界大场景，团队通过优化策略以提升该场景下的新视角生成效果，比如，通过在训练中同时优化位姿提高重建精度、基于哈希编码的层次化表达提升模型训练速度、借助外观编码提升不同时间采集场景的外观一致性、借助 mvs 稠密深度信息提升几何精度等。

以团队同毫末智行合作为例，完成单路采集以及多路合并的 NeRF 重建，相关成果已在毫末 AI Day 发布。

虚实融合，提升用户体验

为提升用户沉浸式体验，火山引擎多媒体实验室自研虚实融合技术，将环境实拍全景图与场景模型进行对齐、融合。 团队利用先进的人工智能技术，建立全景图图像特征与模型关键点的匹配关系，通过 PnP 算法以及光束法平差算法将全景图注册至场景模型坐标系，实现尺度、位置的统一，从而实现模型渲染与实拍全景视频渲染的统一，达到虚实融合的效果。

同时，为扩大用户体验的自由度，团队针对该场景自研非球面天空盒渲染，克服传统的球面全景图渲染仅在图像采集中心视觉一致的缺陷，进一步提升实拍全景图渲染模型与地形模型的匹配程度，以实现更大运动范围的视觉一致性，进一步提升沉浸式体验。

picture.image

图：虚实效果对比示例

物品重建，高精度还原细节

在《跟着德爷闯东非》互动纪录片中，会有用户虚拟体验探险剧情的桥段，例如钻木取火，木棍训蛇等。为了带来真实的体验，道具往往是在实际拍摄过程中就地取材，有细长的树枝，薄薄的小刀，还有形态复杂的篝火堆。这些道具的重建本身是比较有挑战的，再加上整个拍摄过程比较紧张，留给扫描的时间并不充裕。为此，火山引擎视频云团队沉淀出一套采集方便，操作简单，能还原各类复杂物品的重建系统。

为了重建形状比较复杂的道具（例如狭长的木棍、锋利的小刀）。火山引擎视频云采用符号距离场（Signed Distance Fields，简称 SDF）的技术方案来表示三维物体，结合深度学习的方法克服了以上重建难点。对于如何监督神经网络使其准确地拟合该 SDF，火山引擎视频云先用运动恢复结构（Structure from Motion，简称 SfM）算法，精确计算拍摄图像的相机姿态，再利用可微渲染的方法将 SDF 所表示的空间信息渲染到图像上，把渲染得到的图像和该视角下采集的图像做比较，不断优化神经网络，使 SDF 在各个采集视角下的渲染结果尽可能与实际采集的图像一致。为了进一步提高重建精细度，在优化 SDF 的时候加入稀疏重建得到的三维点做约束，能更好的还原物体的细节特征。

picture.image

图：道具重建效果展示

交互技术，让玩法更丰富

采用虚实融合技术可以构造由空间重建模型和实拍 360°VR 视频两部分构成的 6DoF 互动场景，同时在《跟着德爷闯东非》项目中，多媒体实验室也实现了终端上的交互技术，同内容团队一起创造出了很多有创意性的虚实结合的玩法。

拍照功能

使用离屏相机管道，把从全景视频球上投影出的针孔 2D 图像重新贴在玩家手持的相机模型上，以实现出玩家可以对环境中任意角度拍照的玩法。

图：拍照功能示例

物品交互功能

火山引擎多媒体实验室可以估计 VR 视频中的深度信息，结合 3D 虚拟空间中的虚拟物体的位置信息，计算出全景视频球上指定视频元素，对应于玩家在真实的 3D 空间下的位置。从而，实现视频画面上真实物品转换到玩家可交互虚拟物品模型的无缝转换的玩法。

图：物品交互功能示例

虚实融合技术的广阔应用

虚实融合技术目前正处于快速发展的阶段，在众多领域中展现出广阔的应用前景。如游戏、教育和医疗等领域，已开始积极探索虚实融合技术的应用，并取得了不错的成绩：

在游戏领域，虚实融合技术赋予了游戏开发者更多创造力和想象力的空间。通过将虚拟元素与真实世界相结合，游戏能够提供更加沉浸式和交互式的体验。玩家可以与虚拟角色和游戏环境进行实时互动，增强了游戏的娱乐性和参与感。
在教育领域，也可以看到虚实融合技术的巨大潜力。通过将虚拟内容融入到教学场景中，学生可以以更加生动和直观的方式进行学习，提高学习效果和兴趣。虚实融合技术可以为学生提供与实物互动的机会，使他们能够亲身体验和理解抽象概念，促进知识的深入理解和记忆。
在医疗领域，虚实融合可以用于模拟手术训练、辅助手术导航和可视化诊断等方面。通过结合虚拟现实和真实世界数据，医生可以更准确地进行手术规划和操作，提高手术的安全性和成功率。此外，虚实融合还可以用于康复训练和疼痛管理等方面，为患者提供更加个性化和有效的治疗手段。