滑铁卢大学使用谷歌地球图像和高斯溅射进行真实感3D城市场景重建和点云提取！ - 文章 - 开发者社区

picture.image

3D城市场景重建和建模在遥感领域是一个关键的研究领域，在学术界、商业、工业和行政管理中具有众多应用。近年来，视图合成模型的进步使得仅从2D图像实现真实感3D重建成为可能。

利用谷歌地球图像，作者构建了以滑铁卢大学为中心的滑铁卢地区3D高斯溅射模型，并且能够实现远远超过作者基准测试中基于神经辐射场的先前3D视图合成结果。

此外，作者使用从3D高斯溅射模型提取的3D点云来获取场景的3D几何形状，并将其与作者对场景的多视图立体密集重建进行了基准测试，通过3D高斯溅射重建了大规模城市场景的3D几何和真实感光照。

1 Introduction

从2D图像中进行3D重建和建模近年来受到了极大的关注，这要归功于具有3D重建能力的真实感视图合成方法的最新进展。从技术角度来看，这是一个跨计算机视觉、计算机图形学和摄影测量学的交叉研究领域。

它在多个领域都有应用，包括由3D场景理解辅助的自主导航，用于制作对导航、城市规划和行政管理至关重要的3D地图的遥感与摄影测量（Biljecki等人，2015年）。此外，它还扩展到融入城市数字双生的地理信息系统，以及整合真实感场景重建的增强现实和虚拟现实平台。

本文专注于基于遥感的3D高斯溅射（3DGS）的大规模视图合成，以及从高斯溅射中提取3D几何信息。

仅使用来自Google Earth Studio的图像，作者训练了一个3D高斯溅射模型，其性能超过了之前的基于NeRF的模型。作者量化并基准测试了一个大规模城市数据集上的视图合成性能，该数据集包含从Google地球捕获的10个城市以及作者的研究区域。

作者还使用3DGS提取并加密了研究区域的3D几何信息，并将其与多视点立体密集重建进行了比较。据作者所知，这是首次将3D高斯溅射用于基于遥感的大规模3D重建和视图合成。

2 Back Ground and Related Work

Urban 3D Photogrammetry

摄影测量学从二维图像中提取三维几何信息，也可能提取其他物理信息。基于遥感技术的城市摄影测量学用于三维城市建模，依赖于无人机/航空平台/卫星，这些平台从斜向/非垂直角度捕捉感兴趣的建筑物。这通常被称为斜向摄影测量。在大型场景中，可能存在其他土地利用和土地覆盖，这会带来额外的挑战。地面和机载激光雷达扫描仪也可以用来生成非常精确的三维模型，有时与基于图像的方法结合使用。然而，总的来说，图像在传感器和数据获取方面更容易获得。

传统的（非深度学习方法）从图像生成三维点云/几何的方法分为两类：结构从运动（Structure-from-Motion，SfM）生成稀疏点云，多视点立体（Multi-View-Stereo）生成密集点云（Musialski等人，2013年）。最基本的方法可能是结构从运动，它依赖于多视角几何和投影几何来建立三维点与它们在成像平面上的二维投影之间的关系。在每个二维图像中提取关键点，并在场景重叠的图像中进行匹配，然后三角测量到三维，通常通过捆绑调整或其他方法进行进一步校准/误差修正，从而得到稀疏点云三维重建。

然后可以将稀疏点云进行网格化/转换为数字表面模型。稀疏SfM摄影测量通常作为一个预处理步骤，如各种作品所示，以帮助进一步的密集重建或将点云与三维扫描点云进行数据融合。

稀疏SfM点云只能检索场景几何，不能再现场景的真实三维光照，这对于基于AR/VR的应用至关重要，以及其他高度依赖可视化的应用。

在城市环境中，多视点立体（MVS）也需要斜向图像来捕捉建筑物及其立面的几何形状。从根本上说，多视点立体与稀疏SfM摄影测量不同，因为MVS旨在通过利用二维图像中每个像素的三维信息来实现密集重建，而不是二维图像中的特定关键点。这可以通过各种方法完成，例如平面扫描或立体视觉和深度图融合，甚至深度学习方法。MVS方法通常分为两类：基于体和基于点云。

多位作者已经采用MVS进行密集城市三维重建，这也可以为了各种目的如数字表面建模和地球物理模拟进行网格化。

然而，与稀疏SfM摄影测量相比，密集MVS摄影测量在计算上要密集得多，尤其是在内存方面。此外，密集MVS摄影测量通常需要稀疏SfM摄影测量，或者至少需要稀疏SfM摄影测量获得的摄像机姿态作为预处理步骤。尽管密集重建在视觉上比稀疏重建更吸引人，但它们还不是照片级的真实，因为它们无法模拟场景中光照的方向依赖性。

Neural Radiance Fields and Urban 3D Reconstruction/View synthesis

近年来，基于神经辐射场的方法（NeRF）（Mildenhall等人，2021年）在新型视图合成领域占据主导地位。这些方法在场景的定位图像上进行训练，使用可微分的渲染过程来学习隐式（Barron等人，2021年、2022年）或混合场景表示（Muller等人，2022年），通常表现为密度和方向颜色场，并且通常使用多层感知机（MLP）。然后，通过可微分的体积渲染过程将场景表示渲染成2D图像，允许通过像素级的监督学习来学习场景表示，使用光度损失的反向传播。

某些显式场景表示模型（Yu等人，2021年；Fridovich-Keil等人，2022年；Chen等人，2022年）几乎使用了完全相同的可微分渲染流程，但它们显式地存储场景表示，放弃了解码MLP的使用（尽管这些方法中有些允许使用浅层解码MLP，模糊了显式和混合场景表示之间的界限）。

为了合成图像，NeRF方法采用了可微分的体积渲染，通过沿着射线使用局部颜色和局部密度的alpha混合生成像素颜色，以及采样间隔。这可以表示为

其中和从学习到的辐射场（例如NeRF MLP）中采样，并且

城市场景无边无际，充满了短暂的目标（如行人、汽车），并且光照条件不断变化，这给3D场景表示的学习带来了挑战。NeRF-W（Martin-Brualla等人，2021年）、Mip-NeRF360（Barron等人，2022年）、Block-NeRF（Tancik等人，2022年）、Urban Radiance Fields（Rematas等人，2022年）等方法提出了解决其中一些问题的方案，适用于地面 Level 的视图合成和3D城市重建。

从遥感图像进行空中视图3D重建和视图合成也尝试了诸如Bungee/City-NeRF（Xiangli等人，2022年）、Mega-NeRF（Turki等人，2022年）、Shadow NeRF（Derksen和Izzo，2021年）、Sat-NeRF（Mari等人，2022年）等方法。这些方法试图解决诸如将局部NeRF拼接成大规模城市场景、多尺度城市视图合成以及针对高层建筑的考虑阴影的场景重建等问题。BungeeNeRF（Xiangli等人，2022年）引起了作者的兴趣，因为作者使用类似的方法从作者研究的地区提取了谷歌地球数据集。

picture.image

3D Gaussian Splatting

三维高斯 splatting（3DGS）(Kerbl et al., 2023)是在2023年首次开发的一种视图合成方法，与现有的NeRF视图合成方法竞争。与普通的NeRF方法相比，普通的高斯 splatting方法在学习3D场景和合成新视图方面的速度提高了好几个数量级，并且在视图合成的视觉质量上可与其他最佳的NeRF模型相媲美或常常超越，代价是占用更大的内存，并且需要从运动结构（SfM）(Schonberger and Frahm, 2016)初始化/预处理。工作流程在图1中可视化。

picture.image

SfM预处理正是标准的稀疏摄影测量过程，它识别2D关键点，匹配重叠的图像，将关键点三角测量到3D，并通过捆绑调整或某种其他方法进行误差校正。与标准摄影测量相比，后者有时可以将图像颜色投影到平坦（无光照）的3D点云颜色中，3DGS能够逼真地再现场景的方向依赖光照，这对于许多应用至关重要。它还能够使用基于光度（颜色）的目标针对 GT 图像细调场景的几何形状，而不是仅在摄影测量中最小化重投影误差。

与NeRF模型相比，3DGS产生了更自然的3D几何形状，学习到的3D高斯函数的位置均值与场景几何的3D点云表示之间有着自然的对应关系。

将场景表示为3D高斯函数，并将光照表示为附加在这些高斯函数上的球面谐波（SH）系数，3D高斯 splatting方法通过可微分的基于瓦片的高斯光栅化器产生2D图像；根据新视图姿态的视锥将高斯函数投影到二维，通过alpha混合投影的高斯函数以在新视图中产生每个像素的颜色。新视图通过与 GT 图像的监督来训练高斯 splatting参数。据作者所知，这是首次尝试使用基于3D高斯 splatting的大规模遥感-based 3D重建和视图合成，然而最近的工作（Kerbl et al., 2024; Zhou et al., 2024）已经将高斯 splatting应用于大规模城市街道级数据集。

3 Method

Region of Study

研究区域位于加拿大安大略省的基奇纳-滑铁卢地区，以滑铁卢大学为中心。根据2021年的人口普查，滑铁卢市人口大约为121,000人，占地面积64.06平方公里。滑铁卢大学的地理坐标为北纬43.472度，西经80.550度，其主校园占地4.50平方公里。

在城市尺度上，研究区域包括各种土地利用和土地覆盖特征，如城市道路、建筑物、农业和其他土地利用，低植被、水体、温带混合森林和其他土地覆盖。研究区域以环境-1（EV-1）大楼为中心，该大楼位于北纬43.468度，西经80.542度，大约覆盖165平方公里的面积。

作者在城市尺度上进行大规模的视图合成，并在邻里尺度上进行3D点云比较。为该场景获取的谷歌地球图像主要来自Landsat/Copernicus、空客、海洋研究所数据（SIO）和国家海洋和大气管理局（NOAA）。

滑铁卢大学位于中立、安尼什纳贝格和豪德诺索奥尼人的传统土地上。滑铁卢大学位于哈尔迪曼德地区，这片土地是承诺给六个部落的，包括格兰德河两侧各六英里。

Google Earth Studio Datasets

在研究区域，作者使用了七个不同高度的同心圆作为摄像机路径，这些圆以加拿大安大略省滑铁卢市的滑铁卢大学EV-1大楼为中心，具有不同的半径和倾斜角度。第一个圆的半径为500米，高度为475米。最后一个圆的半径为7250米，高度为3690米。

所有图像都指向并高于（在390米的高度）滑铁卢大学EV-1大楼，位于北纬43.468度，西经80.542度。最后一个圆的图像相对于水平面的倾斜角度约为65.5度，有些偏差（在约0.3度以内）。

作者使用Google Earth Studio沿着这些圆定义的摄像机路径收集了401张图像。

研究区域和摄像机姿态以及稀疏SfM结果如图2所示。在预处理过程中，作者观察到距离场景中心6公里以外的SfM点云重建效果较差，6公里以内的SfM重建效果合理，1公里以内的SfM重建效果良好，可以识别单个建筑物。SfM预处理生成了一个稀疏点云，包含337382个点，这些点用于初始化3DGS的3D高斯函数。这个多尺度的Google Earth Studio 数据集受到BungeeNeRF数据集（Xiangli等人，2022年）的启发，作者也将其用于多城市大规模视图合成的基准测试。

picture.image

对于BungeeNeRF场景，作者使用了BungeeNeRF（Xiangli等人，2022年）指定的Google Earth Studio摄像机路径。BungeeNeRF数据集包括10个城市的10个场景。每个场景都围绕一个特定的地标展开，摄像机路径由不同轨道半径和高度的同心圆定义，场景覆盖范围在最高的高度达到全市范围。

picture.image

关于10个BungeeNeRF场景和滑铁卢场景的详细信息，请见表1。以56 Leonard为中心的纽约场景和以Transamerica为中心的旧金山场景在BungeeNeRF（Xiangli等人，2022年）中被用作视图重建的主要场景，分别有459和455张图像。这两个场景以每秒30帧的速度渲染成1分30秒的视频。所有其他场景包含221张图像，并通过固定220+1帧的限制渲染，给定了固定的摄像机路径，并用于额外的可视化。作者注意到原始的BungeeNeRF论文中包含两个附加场景（悉尼和西雅图），但这两个场景的Google Earth Studio摄像机路径没有提供。

Google Earth Studio提供了一个平台，通过简单地指定摄像机姿态和场景位置来生成多视角航空/卫星图像。Google Earth Studio从各种政府商业来源生成复合图像，并使用这些来源的遥感图像构建的3D模型渲染图像。这些来源包括Landsat/Copernicus、Airbus、NOAA、美国海军、美国地质调查局、Maxar图像和在不同时间获取的数据集。复合图像的一个明显例子可以在图5右下角的两个图像中观察到，不同的水域颜色指示了不同的数据来源和/或获取时间。

picture.image

Structure from Motion Preprocessing and Sparse Point Cloud Extraction

三维高斯扩散的标准实现依赖于COLMAP（Schonberger和Frahm，2016）进行预处理。这种结构从运动（SfM）预处理接受一组无序的、相机姿态未知的图像，输出每张图像的相机姿态以及一个稀疏点云。与所有SfM方法一样，COLMAP SfM包括以下步骤。

特征提取 ：在这一步中，对于每张图像，识别出关键点，并分配鲁棒的、视图不变的局部特征。COLMAP默认使用尺度不变特征变换（SIFT）特征（Lowe，1999），这些特征提供了鲁棒性，使得同一个3D点可以在多张图像中作为相应的投影2D关键点被识别。匹配：通过搜索图像及其相应的特征，识别出具有匹配关键点特征的可能重叠的图像对。

几何验证 ：通过验证可能重叠的图像对，构建一个场景图，图像作为节点，连接重叠图像的边。这种验证是通过使用一种鲁棒估计技术，例如Fischler和Bolles（1981年）的随机抽样一致（RANSAC）变体，估计潜在连接图像对中的有效单应性来完成的。

图像配准 ：从一对起始图像开始，其关键点被三角测量到3D，根据场景图，将新的、有重叠的图像通过解决透视-n-点问题（Fischler和Bolles，1981）添加到场景中，该问题估计给定若干3D点和其2D投影的相机姿态。这一步骤鲁棒地估计了新注册图像的姿态。

三角测量 ：给定两个已知姿态的图像中看到的关键点，关键点被三角测量（Hartley和Zisserman，2003）到3D。新注册的图像通过允许更多关键点被三角测量到3D重建中，从而扩展了场景。

误差校正 ：为了校正配准和三角测量中的错误，执行捆绑调整（Triggs等人，2000年），通过在最小化重投影损失时联合优化相机姿态和3D点来完成，该重投影损失由3D点重投影到图像平面与像素值之间的平方误差给出。这可以表示为

Schonberger和Frahm（2016）引入了各种创新，改进了几何验证，提高了初始化和三角测量的鲁棒性，引入了下一个最佳视图选择方法和一种迭代且更有效的捆绑调整方法，从而形成了COLMAP SfM库。

Multi-View-Stereo Dense 3D reconstruction

作者用作研究区域地面真相/参考几何的MVS密集重建来自COLMAP的MVS算法（Schonberger等人，2016年）。该方法基于联合视图选择和深度图估计（Zheng等人，2014年）。方法总结如下。

深度和法线图估计 ：为了在参考图像中的像素处估计深度和法线，使用了一个联合似然函数。是所有图像的集合（一张作为源图像，其余作为参考图像）。是遮挡指示符的集合，如果图像被选择用于在中像素的深度估计，则，否则为零（如果被遮挡）。是要恢复的中每个像素的深度。也是要恢复的的法线。这由以下公式给出：

(5)

其中索引输入图像，索引参考图像中的像素或 Patch ，表示优化迭代。第一个项强制实现空间平滑和优化步骤上时间（迭代）一致的遮挡图。第二个项强制参考图像与源图像之间的光度一致性。第三个项强制深度和法线图与多视图几何一致。关于此联合似然函数的每一项构造及其优化过程，读者可参考Schonberger等人（2016年）。

过滤和融合 ：首先，根据上一步为每张图像估计深度和法线图。导出光度与几何约束，并用于过滤异常值，其中任何观察值的支持集满足的几何和光度约束都少于3个元素（即参考像素至少在3张其他图像中可以观察到同时满足这两个约束。）定义了一个由一致像素组成的定向图，支持像素作为节点，边缘从参考图像指向源图像。融合在支持最大的节点（在满足光度和几何约束的同时被最多源图像观察到）处初始化。递归地，在深度一致性约束、法线一致性约束和重投影误差边界约束下收集连接的节点。当没有更多满足所有3个约束的节点时，集合的元素进行融合。融合点成为带有位置和法线平均值的输出密集点云的一部分，该平均值是集合元素的。融合的节点从图中删除，直到图变空。最终输出是一个带有法线的密集点云，可以通过Poisson表面重建（Kazhdan和Hoppe，2013年）进行处理，正如作者所做的那样，或者如果需要，可以使用其他方法。

3D Gaussian Splatting

在本文的这一小节中，作者将简要描述3D高斯溅射（Kerbl等人，2023年），它被用作作者研究区域内以及基准测试中的3D城市重建和视图合成的基石。

从场景的2D图像中，3D高斯溅射学习并表示场景几何为（未归一化的）3D高斯函数，其均值和协方差矩阵给出如下：

场景的光照和颜色被学习为每个颜色通道的第三阶球面谐波系数，并附加在每个高斯上。每个高斯还分配了一个局部（锥形）不透明度。结合3D均值和协方差矩阵，每个高斯总共有59个可训练参数。3D协方差矩阵被学习为一个3D对角缩放矩阵，和一个由四元数表示的旋转，该四元数可以用来重构以下形式的3D旋转矩阵：

然后，3D协方差矩阵由以下方式给出：

首先使用如COLMAP（Schonberger和Frahm，2016）的结构从运动库计算稀疏初始点云和训练图像的相机姿态。在稀疏点云中的每个点上初始化一个高斯，并使用可微分的瓦片基础光栅化器进行训练。

3.5.1 Rasterization

基于块的栅格化器将图像划分为的瓦片。对于每个瓦片，一个 Frustum 裁剪空间被投影到3D场景中。根据与 Frustum 裁剪空间的重叠，为每个瓦片积累/分配3D高斯分布，并通过其均值和协方差矩阵的投影将其投射到2D。这些由以下公式给出：

其中是视图变换，是投影变换。在像针孔模型这样的线性相机模型的情况下，变换是一个矩阵乘法，这在标准3DGS模型中用到，结果是。是投影变换的仿射近似的雅可比矩阵（在线性相机模型中）。然后跳过的第三行和第三列，以获得成像平面上的2D协方差矩阵。

接下来，根据瓦片和深度对高斯分布进行排序。对于瓦片中的每个像素，通过累积场景内方向相关颜色并使用学习到的SH系数进行alpha混合来生成像素的颜色。对于要混合的每个高斯分布，像素位置处的每个是通过计算与其关联的学习不透明度缩放的2D高斯分布来得到的。

其中是通过（3.5.1）投影到2D维度和图像平面上的高斯分布（7）。

栅格化器生成一幅图像，该图像与 GT 图像通过光度损失和，即结构相似性指数差异度量（D-SSIM）（Wang等人，2004）损失进行比较：

其中是一个可调整的权重参数，默认为0.2。通过不同的栅格化反向传播可训练参数，并使用Adam（Kingma和Ba，2014）进行优化。

3.5.2 Densification and Pruning

三维高斯 splatting 也会在视空间位置梯度高的区域进行加密度/生长新的高斯分布（默认情况下，阈值）。这些区域对应于缺失几何特征的邻域以及具有少数高斯分布覆盖场景大片区域的地方。具有视空间位置梯度的低方差高斯分布会被复制。另一方面，高方差高斯分布会被分成两个，其标准差除以1.6的因子。这一过程在图3中进行了说明。

同时也会剪除不重要的高斯分布。本质上透明的、不透明度低于用户定义阈值的高斯分布（，默认值为）会被删除。每3000次迭代（或其他用户选择的数字），每个高斯分布的不透明度被设为零，然后允许重新优化，根据需要再进行裁剪。这个过程控制了浮动物件的数目，并有助于控制高斯分布的总数。作者认为，这种加密度和密度控制过程可以允许进行点云重建，其密度和潜在质量与密集重建相当，前提是有一个好的数据集。

Evaluation Metrics

对于合成图像的质量，作者使用峰值信噪比（PSNR）、结构相似性指数测量（SSIM）（Wang等人，2004年）和学习到的感知图像块相似性（LPIPS）（Zhang等人，2018年）作为全参考图像评估指标，将这些生成的视图与真实视图进行比较。PSNR是噪声和视觉伪影存在的好指标，而SSIM和LPIPS已被证明更能与人类对图像与其参考图像视觉相似性的判断相关联。

对于点云几何评估，作者使用了点对点（D1）均方误差（MSE）、点对面（D2）MSE、豪斯多夫距离和切夫距离，这些指标都是将低质量点云与其参考点云进行比较。作者注意到，像D1和D2 MSE这样的指标不会惩罚点密度的差异，只会惩罚现有点相对于真实/参考点的偏差。另一方面，切夫距离和豪斯多夫距离更好地捕捉了点分布之间的差异，包括点密度的差异。

4 Experiments and Results

Experiment Setup

在配备10GB VRAM的3080 RTX GPU和i9-10900KF CPU上进行了COLMAP预处理和3D高斯溅射优化，使用的PyTorch版本为2.1.1，CUDA工具包版本为12.1。作者注意到GPU VRAM的限制尤为重要，因为在使用3D高斯溅射时，总是可以增加更多的高斯分布以达到更高的视觉重建质量，但这会以内存和存储为代价。### 研究区域的三维新视图合成

对于研究区域，作者使用了COLMAP SfM（Schonberger和Frahm，2016）预处理，并从400张二维图像中提取了三维点和相机姿态。实验采用MipNeRF-360（Barron等人，2022）风格的训练验证分割：每八张图像中有一张（约12.5%）用于测试目的。由于GPU内存限制，在训练期间将1920x1080分辨率的图像下采样了4倍。作者在第1000次迭代开始加密，并训练了50000次迭代，每100次迭代加密一次。作者使用了初始位置学习率为和尺度学习率为。其他训练超参数保持默认设置。

picture.image

结果在表2和图4中展示，并结合了来自BungeeNeRF数据集的进一步视图合成实验。作者在训练集和测试集上均实现了高视图合成视觉质量。从视觉检查来看，渲染的图像与真实图像几乎无法区分。这也得到了视觉评估指标的支持，SSIM得分接近1，LPIPS得分接近0，这表明 GT 图像和生成图像之间几乎达到完美的视觉一致性。约30dB的PSNR值也表明了良好的图像质量和低噪声水平。这可以与使用优质有损压缩算法（Netravali，2013）的全尺寸图像相比的压缩图像的PSNR相媲美，考虑到3DGS模型是在分辨率下训练的，这是令人印象深刻的。

picture.image

3D Novel View Synthesis of Bungee-NeRF Scenes

对于BungeeNeRF场景，作者按照之前描述的MipNeRF-360风格进行了训练和验证集划分的实验。除了将训练迭代总数减少到30000次之外，实验设置与Waterloo场景实验保持相同。BungeeNeRF为纽约和旧金山场景提供了详细的基准，这些基准被用于它们的主要视图合成实验。作者针对这两个场景，对高斯溅射技术、BungeeNeRF、普通NeRF和Mip-NeRF进行了详细比较。此外，作者还为剩余的八个场景训练并评估了高斯溅射模型，这些场景的摄像机路径由BungeeNeRF提供。

如表3所示，在纽约和旧金山场景中，根据所有三种评价指标，作者观察到视图合成质量的大幅提升。从3DGS到BungeeNeRF的视觉效果改进，比从BungeeNeRF到普通NeRF或任何其他基准模型的改进要大得多。作者还注意到，视图合成质量的显著提升并没有以训练时间为代价。实际上，高斯溅射模型的训练速度比隐式NeRF模型（如普通NeRF（Mildenhall等人，2021年）、Mip-NeRF（Barron等人，2021年）和BungeeNeRF（Barron等人，2021年））快了三个到四个数量级。高斯溅射模型在训练和渲染时间更快的情况下，以更高的视图合成质量为代价，增加了内存和存储需求（Gao等人，2022年）。

picture.image

如图5的定性比较所示，使用3DGS渲染的图像视觉质量很高，除了 GT 图像右下角可识别的Google Earth水印外，很难从视觉上与 GT 图像区分开来。与 GT 图像相比，作者观察到，在最小尺度（约300米高度）下，渲染图像的边缘稍微有些模糊，而在最大尺度（约3000米高度）下，某些街道级细节稍微不够清晰。在图5的最后一行中，从 GT Google Earth图像和渲染图像中还可以看出，在最大尺度下，多个数据源被拼接在一起的效果。作者从旧金山海岸线到旧金山湾和金门地区的海水颜色明显不连续和网格状变化中注意到了这一点，这很可能是不同航空和/或卫星图像拼接的地方。这种效果也被3DGS模型学习到了，在相应的渲染图像中可以明显看到。

此外，作者还测试了3DGS在其他BungeeNeRF Google Earth Studio场景上的性能。作者注意到，在所有场景中，从训练集到测试集的移动，PSNR下降了0.7到5.7，这表明在训练视图中存在一定程度的过拟合。作者注意到，与约450张图像的纽约和旧金山场景相比，在约200张图像的场景中过拟合更为严重，作者的400张图像Waterloo场景位于中间。以古根海姆博物馆为中心的毕尔巴鄂场景，3DGS重建效果最差。作者认为这可能是由于古根海姆博物馆复杂的建筑形状、低空时缺乏足够的训练视图，以及低空斜视角度下Google Earth 3D模型质量较差，导致训练图像质量不佳的综合原因。

3D Reconstruction of the Region of Study

对于3D重建实验，由于多视角立体（MVS）致密化受计算限制，其内存需求甚至比3DGS还要高，作者使用第一级摄像机路径的前50张图像提取了稀疏点云。

然后，采用Schonberger等人（2016）的方法生成深度和法线图，作者再利用这些图生成致密点云，作为EV1邻域的 GT /参考3D几何。接着，作者在这些前50张图像上训练了一个3D高斯溅射模型。之后，将高斯位置均值提取为新3DGS致密化的3D点云，结果产生了1856968个点，从24740个点的稀疏点云开始，接近10倍的致密化。作者提取的位置均值作为3DGS致密化点云在图4中进行了可视化（高斯尺度= 处的栅格化）。相比之下，MVS致密化点云产生了2528969个点。MVS致密化结果在图7中进行了可视化。

picture.image

作者首先注意到初始稀疏点云和3DGS致密化点云是相互对齐的。然而，作者视为 GT /参考点云的MVS致密化点云由于旋转、平移和非仿射变形，远离原点，与两者都有偏移。这在图7的最后一行中可见，当作者进一步扩展视野时更加明显。因此，作者对这三个点云进行了裁剪，并执行点云配准以对齐三个点云。

作者使用迭代最近点算法（ICP）（Besl和McKay，1992）将初始点云和3DGS致密化点云注册到MVS致密化点云。这个过程通过平移和旋转对齐了所有三个点云，但在配准后，随着距离原点和高度的升高，作者仍然观察到轻微的非仿射变形，如图8所示。

picture.image

裁剪导致稀疏、3DGS致密化和MVS致密化点云分别有12773、244849、1270820个点。作者注意到，初始稀疏点云和MVS致密化点云在场景中心比边缘要密集得多，而3DGS致密化点云与上述两个点云相比，具有相对更均匀的点密度。因此，裁剪将稀疏和MVS致密化点云中的点数减少了大约2倍，而将3DGS致密化点云中的点数减少了约7.5倍。

然后，作者将这两个点云与通过深度和法线图融合的致密MVS点云进行了比较，使用D1（点对点）均方误差和D2（点对面）均方误差、豪斯多夫距离和切夫距离。作者观察到，与稀疏初始点云相比，3DGS致密化点云的D1和D2均方误差（相对于MVS致密化点云）略高。然而，作者注意到这两个均方误差指标并不惩罚点密度的差异。它们只测量异常值和噪声点的存在。另一方面，豪斯多夫和切夫距离更好地反映了点分布之间的差异。作者观察到，与稀疏点云相比，3DGS致密化点云与参考MVS致密化点云在这两个指标上具有更好的一致性。这也通过图7的视觉检查得到了证实。作者在图8中绘制了相对于参考MVS致密化点云的局部豪斯多夫距离。这有助于突出参考MVS致密化点云与其他两个点云之间的非仿射变形。

利用包括Landsat、Copernicus、Airbus、NOAA、美国海军、美国地质调查局、Maxar等政府和商业来源的遥感影像，这些影像在不同的时间获取，这既可以是优势，也可以是劣势。作者首先指出，低空影像依赖于Google Earth Engine自身的3D模型，这些模型是远离垂直/非垂直视角拍摄的，与真实的遥感影像相比，在细节上有所局限。另一方面，数据来源的多样性有利于3D高斯溅射模型的鲁棒性，该模型已经在不同传感器、不同光度学和辐射学条件下拍摄的影像上进行训练。这种劣势也被Google Earth Studio易于创建具有螺旋式摄像机路径的多尺度数据集所抵消，这种路径适合于围绕城市中某些感兴趣区域的大规模3D场景。

在从SfM预处理、3DGS细化后的点云以及甚至MVS细化后的密集点云中恢复3D几何（作为3D点云）时，作者注意到存在从轻微到强烈的噪声，这应在未来的3DGS研究中加以解决。在作者的3D重建和细化实验中，作者将MVS细化后的点云作为 GT 值，尽管它也是从2D图像构建的。尽管恢复了高质量的密集3D表面，但MVS细化后的点云与初始稀疏点云和3DGS细化后的点云存在非仿射变换的偏移，这需要进一步研究。将来，对于几何恢复的基准测试，作者认为来自LiDAR源的扫描点云将作为 GT 值更为准确。未来的一个项目可能是使用扫描点云作为 GT 值，并将MVS和3DGS细化后的点云注册到扫描点云，以准确研究这些考量的几何形状，并进一步启用映射和GIS应用。作者还注意到，COLMAP MVS细化的内存需求大于3DGS细化的内存需求，这是在较小规模上使用较少图像进行细化实验的原因之一。尽管存在这些问题，作者注意到尽管3DGS并不是作为一个3D几何提取工具构建的，但它通过高斯位置细化与优化，合理地能够恢复场景几何。

3D高斯溅射的高GPU内存需求阻止了整个大规模场景的高分辨率重建。由于所选择的摄像机路径，场景中心在所有高度上都得到了很好的重建，并且被高斯函数密集填充。这导致了高质量渲染图像的产生。然而，在远离场景中心的其他区域，作者只能在较高高度实现高质量的重建，在靠近地面处则效果不佳。尽管某些目前在预印本中的进展试图解决内存问题；这些模型中的许多在训练后压缩了训练好的高斯溅射模型，减少了模型存储需求，并没有在训练期间显著减少工作内存需求。

作者预计减少工作记忆需求将成为未来的研究方向。这还将使得在多个邻域之间实现更好的重建成为可能，或许可以使用更复杂的摄像机路径，例如在Google Earth Studio中围绕每个感兴趣邻域分层排列的多个螺旋，或者是填充整个大规模场景的密集覆盖的空间填充曲线。另外，可以考虑像Mega-NeRF（Turki等人，2022年）那样将多个局部模型拼接在一起的大规模3D重建方案。另一个未来的研究方向是基于遥感的大规模语义3D重建和语义合成。对于城市场景，这个研究领域有望在城市数字双生创建、城市监测以及城市/土地利用规划中找到应用。这个研究方向还可以将土地利用/覆盖分割普遍扩展到三维，这具有多种研究和商业应用。这些是作者目前正在研究的研究领域。

5 Conclusion

仅通过利用谷歌地球图像，作者就捕获了研究区域的全景俯视数据集。作者能够对场景进行逼真渲染并捕捉其几何信息。

在大规模城市重建数据集上，作者比较了3DGS方法与NeRF方法，该数据集跨越了10个城市，并对3DGS的三维点云密度增强能力进行了仔细研究，与多视图立体密集重建在作者的研究区域进行了比较和可视化。作者发现了一个仿射错位，作者通过点云配准将其移除，以及一个非线性形变，作者对其进行量化并在多视图立体增强点云与3DGS增强点云之间进行了可视化。

作者希望作者的研究和实验有助于未来基于大规模遥感的三维高斯溅射研究，无论是视图合成还是几何检索。