点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
在本文中,作者介绍了从不一致的暗图像中实时生成高斯镶嵌视图合成的方法。通过使用高斯分摊技术,作者能够有效克服暗图像中存在的相干性问题,实现对暗图像的实时处理。
此外,作者提出了一种基于高斯分摊的视图合成技术,可以充分利用明暗图像之间的互补信息,提高合成结果的质量。
此外,作者还设计了一种实时渲染引擎,可以实现对高斯镶嵌视图的实时可视化,便于用户交互和后期调整。
在实验结果方面,作者发现本文提出的方法在真实场景下能够取得较好的效果,具有较强的实时性和实用性。
unset
unset1 Introduction unset
unset
在深度学习中,迁移学习是重要组成部分,它利用了预训练模型在未见过的数据上的性能表现。然而,在实际应用中,作者需要适应新任务的需求,所以作者需要一种适应性迁移学习方法。本文提出了使用K近邻(KNN)分类器实现适应性迁移的学习方法。作者首先通过KNN分类器在源领域和目标领域中进行模型训练,得到源领域和目标领域的KNN分类器。然后,作者将这两个分类器组合到一个端到端的分类器中,以实现源域和目标域之间的适应性迁移。作者使用了一个公开的数据集(MNIST手写数字数据集)来验证作者的方法,通过与原始迁移学习方法的比较,证明了作者的方法的优越性。作者的实验表明,作者的方法可以有效地实现源域和目标域之间的适应性迁移,并且具备较高的迁移学习性能。
作者注意到,在黑暗环境中拍摄图像时,亮度不一致通常会出现。在这里,“黑暗环境”指的是由于其复杂性或广阔性而没有得到充分照亮的场景,而不是完全没有光源的场景。黑暗场景中的光源是恒定和静态的。这种黑暗环境的特点是近光区域有明显的亮度,而远离光源或被遮挡的区域亮度较低。在黑暗环境中拍摄图像具有挑战性,因为相机的传感器只能同时处理有限的光亮范围[1],这使得无法获得同时包含亮度和暗部细节的图像。因此,为了获得完整的细节范围,作者必须不断改变拍摄角度和距离,同时调整不同视点下的对焦位置。这导致相机相应地适应曝光水平以确保整个场景或聚焦主体的清晰度。具体而言,当聚焦于较亮的区域时,相机自动降低光线摄入以保留高光细节,但也导致较暗的区域曝光不足。相反,当聚焦于较暗的区域时,相机增加光线摄入以捕捉阴影中的细节,但也导致较亮的区域曝光过度。总之,由于摄像机成像特性,在黑暗环境中的图像在不同视图之间观察到亮度不一致(如图2所示)。
3D高斯分裂(3DGS)[10]在实时渲染速度的实时显示质量方面具有显著的创新。然而,作者观察到它只有在条件良好、多视图一致的环境下才有效,在这种情况下,场景完全且均匀地照明。正如作者的实验结果所示,当在上述黑暗环境中呈现不一致的图像捕捉时,3DGS的性能会变得非常严重,出现大的浮子(floaters)和鬼影(ghosting artifacts)。这些问题可能阻碍了3DGS在夜间实际应用中的直接使用。
在工作[1]中,作者提出的是第一个能够处理夜间摄影中多视图不一致的3DGS方法,称为_Gaussian-DK_.首先,由于一致性问题是由摄像机成像特性引起的,作者明确地区分了物理世界的重建和摄像机的成像过程。
作者利用3DGS来表示物理光场的辐射场,并加入曝光时间、ISO增强和光圈以调整物理辐射值的曝光水平。然后,作者使用卷积神经网络(CNN)色调映射器,将调整后的物理辐射值映射到图像像素值以实现正确的亮度效果。
其次,作者将可学习的光特征附加到每个高斯,以增强作者方法在处理高光和阴影方面的能力。
第三,作者引入了一种根据摄像机距离和光强度分布的步骤策略,成功抑制了远离摄像机的高浮子,这些浮子是由于复杂的光亮变化引起的。
为了评估_Gaussian-DK_的有效性,作者提出了一种新的基准数据集,该数据集包括在黑暗环境中拍摄的12个场景。实验结果表明,_Gaussian-DK_明显优于3DGS和其他 Baseline ,同时仍然实现实时渲染速度。
总之,作者做出了以下贡献:
- 作者提出了一种从在黑暗环境中拍摄的不一致图像中恢复一致场景的新方法。此外,作者可以通过控制曝光水平来合成发光图像,这些图像可以清楚地显示阴影区域的细节。
- 作者设计了一个综合的相机响应建模 Pipeline 、一种新的高斯光特征以及一种基于步骤的梯度缩放策略,以增强光线和阴影效果。
- 作者提出了一个在实际黑暗环境中收集的具有挑战性的数据集,证明了作者的方法的有效性。
作者还公开发布作者的代码和夜时基准数据集:https://github.com/yec22/Gaussian-DK。
unset
unset2 Related Worksunset
unset
unset
unsetNovel View Synthesisunset
unset
新颖的观点合成任务旨在在未见过的视点下生成特定主题或场景的图像。传统的方法利用光场[13,14]或多视立体[13,14]合成新视角。神经辐射场(NeRF)[14]通过将每个空间坐标映射到密度和颜色,以多层感知机(MLP)网络表示三维场景,并使用体积渲染生成新视角。尽管NeRF显著优于先前方法,但需要密集图像作为输入并需要耗时的训练过程。各种后续工作试图进一步提高渲染质量以生成新视角。
神经辐射迹信息速度[14]将三维场景作为隐式场,将每个空间坐标映射到密度和颜色,以多层感知机(MLP)网络表示,并使用体积渲染生成新视角。虽然NeRF显著优于先前方法,但需要密集图像作为输入并需要耗时的训练过程。各种后续工作试图进一步提高渲染质量以生成新视角。神经辐射迹信息速度[14]将三维场景作为隐式场,将每个空间坐标映射到密度和颜色,以多层感知机(MLP)网络表示,并使用体积渲染生成新视角。
虽然NeRF显著优于先前的方法,但它需要密集图像作为输入并需要耗时的训练过程。各种后续工作试图进一步提高渲染质量以生成新视角。
尽管NeRF在之前的算法中表现出色,但它需要密集图像作为输入数据,并且需要耗时的训练过程。各种后续工作试图进一步改进渲染质量,以合成新的视图[15-19]。神经辐射信息速度[14]通过将每个空间坐标映射到密度和颜色到多层感知模型(MLP)网络[14]来表示3D场景,并使用体渲染生成新视。尽管 NeRF 较之前的算法有显著的提升,但需要高密度图像作为输入数据,并且有耗时的训练过程。各种后续工作试图进一步提高渲染质量,以合成新的视图[15-19]。神经辐射信息速度[14] 通过将每个空间坐标映射到密度和颜色到多层感知模型(MLP)网络[14]来表示3D场景,并使用体渲染生成新视。尽管 NeRF 较之前的算法有显著的提升,但需要高密度图像作为输入数据,并且有耗时的训练过程。各种后续工作试图进一步提高渲染质量,以合成新的视图[15-19]。神经辐射信息速度[14] 通过将每个空间坐标映射到密度和颜色到多层感知模型(MLP)网络[14]来表示3D场景,并使用体渲染生成新视。尽管 NeRF 较之前的算法有显著的提升,但需要高密度图像作为输入数据,并且有耗时的训练过程。
尽管NeRF相比之前的方法有显著改进,但需要输入密集图像且训练过程耗时较长。各种后续工作试图进一步提高渲染质量以合成新视角 。神经辐射轨迹信息速度[14]通过将每个空间坐标映射到密度和颜色与多层感知器(MLP)网络表示3D场景为隐式场,并使用体积渲染生成新视角。尽管NeRF相比之前的方法有显著改进,但需要输入密集图像且训练过程耗时较长。各种后续工作试图进一步提高渲染质量以合成新视角 。神经辐射轨迹信息速度[14]通过将每个空间坐标映射到密度和颜色与多层感知器(MLP)网络表示3D场景为隐式场,并使用体积渲染生成新视角。尽管NeRF相比之前的方法有显著改进,但需要输入密集图像且训练过程耗时较长。各种后续工作试图进一步提高渲染质量以合成新视角 。神经辐射轨迹信息速度[14]通过将每个空间坐标映射到密度和颜色与多层感知器(MLP)网络表示3D场景为隐式场,并使用体积渲染生成新视角。尽管NeRF相比之前的方法有显著改进,但需要输入密集图像且训练过程耗时较长。各种后续工作试图进一步提高渲染质量以合成新视角 。
尽管NeRF在性能上明显优于之前的方法,但需要密集型图像作为输入,并且训练过程耗时较长。随后的各种研究试图进一步改进渲染质量,以便通过 Voxel 渲染合成新视角。
unset
unsetThe Deep Learning Approachunset
unset
深度学习方法(深度学习方法)(深度学习) (深度学习)
unset
unsetInconsistency Handling for Neural Renderingunset
unset
在实际场景中,捕获图像的多视图一致性假设可能会被违反,使得视图合成变得更加困难。NeRF-W [16]以及一些后续的工作[23, 24, 25, 26]旨在从不受限制的互联网照片中重构不同的场景,这些场景的外观不同。为了补偿外观变化和前景遮挡,NeRF-W为每个视图引入了一个外观嵌入,并将场景分解为由单独的光场模型的“静态”和“瞬态”部分。VastGaussian [25]引入了一个像素级的嵌入,并预测一个转换映射来调整渲染图像,它能够处理大型场景中的不均匀光照。上述工作主要处理由变化的光线条件或不同的环境引起的不一致性。在作者的问题设置中,环境和光线都是静止的,不一致性来自摄像机的成像特性。更接近作者的是,HDR-NeRF [26]利用一组具有不同曝光时间的不同图像来恢复一致的高动态范围(HDR)光场。然而,HDR-NeRF仅考虑曝光时间,而作者是模型化一个全面的摄像机成像过程,以补偿更复杂的不一致性。此外,作者采用3DGS作为更强大的表示来达到更好的渲染质量和实时渲染速度。
unset
unsetDark Environment Settingsunset
unset
近年来,由于暗环境下计算机视觉与图形任务的重要性日益增加,这些任务在实际应用中起着关键作用,并创造出特殊视觉效果。然而,这也使得现有方法的鲁棒性和有效性受到挑战。一些先行的工作已经探索了暗场景下的目标检测[27],SfM关键点匹配[15],机器人探索[14],图像增强[28,16],以及视频增强[25,17]。在低光计算机摄影中,[19]提出了一种流程,捕捉、对齐并合并一系列帧以降低噪声并增加动态范围。随后,[25]在手持移动设备上创建了高质量低光照片。在视图合成方面,RawNeRF[15]首次提出使用多种RAW格式的图像来生成夜景场景的新视角。然而,RAW数据需要高昂的存储成本。作者的_Gaussian-DK_采用sRGB图像作为暗场景恢复的输入,这在RAW数据不可用时可能很有用。
unset
unset3 Methodunset
unset
显然,静态的黑暗环境在物理世界中是均匀和一致的。然而,由于相机的成像特性,这种一致环境下拍摄的照片可能仍然饱受多视图不一致的影响。在不同的视图中使用不同的曝光 Level 来确保被拍摄物体的清晰度,但也导致了显著的图像亮度变化,这使得普通的3DGS无法处理。
为了应对上述挑战,本文提出了一种名为Gaussian-DK的解决方案。作者的方法是使用3D高斯核来表示物理世界的统一辐射场,并采用一个相机响应模块,将辐射值映射到图像像素值,同时补偿由相机成像引起的不一致。此外,作者还设计了一种梯度缩放策略作为额外的优化正则化项,用于抑制相机附近的浮子效应。图3展示了作者Gaussian-DK的整体流程。## 3D高斯辐射场
作者使用一组3D高斯核来表示物理世界的辐射场。每个高斯核都可以由其均值位置μ,协方差矩阵Σ,透射率α以及用球谐展开编码的辐射值c来参数化。请注意,在普通的3DGS中,c对应于像素值范围从0到255的值,而在作者的Gaussian-DK中,c表示物理辐射值范围从0到+∞。通过优化可学习的参数并适应地调整密度,这些高斯核可以最好地表示目标场景。3D高斯核在世界空间中定义为:
将3D高斯核进行栅格化过程将3D核映射到2D辐射图。给定一个指定的相机姿态,相机 Frustum 内的3D高斯核首先通过变换协方差矩阵将其转换为相机坐标. 然后,通过将一组重叠的2D高斯核进行混合来计算2D辐射图值。混合过程可以表示为:
其中是通过下列计算得到的多维相干射线辐射值与相机在投影空间中的透射率乘积。
和是投影2D空间中的坐标。
unset
unsetCamera Response Modelingunset
unset
为防止 3DGS 受到不一致输入图像的影响,并恢复一致场景,作者设计了一个相机响应模块,该模块充当 3DGS 调制函数,以补偿不匹配并实现正确的亮度效果。相机响应模块包括三个部分:曝光水平条件 (Section 3.2.1),可学习的光特征精炼 (Section 3.2.2) 和色调映射 (Section 3.2.3)。正式地,作者的相机响应模块可以表示为:
其中 是像素值, 是二维辐射图的值, 是曝光水平,在不同视图中不同, 是高斯的光特征, 是色调映射函数。
unset
unset3.2.1 Exposure Level Conditionunset
unset
作者将曝光 Level 作为主要条件来确定3DGS渲染的二维辐射图的整体亮度。在摄影中,曝光 Level 指的是镜头所接受并传递到传感器的总光线量。具体而言,作者将曝光 Level 建模为可以从捕获图像的元数据(例如EXIF)中轻松获得的三个摄像参数:曝光时间、光圈和ISO增益[PSA04]。光圈和曝光时间控制摄像机接收的光线量,而ISO增益,即摄像头传感器对光的敏感度,控制传感器利用的光线量。
在摄像拍摄过程中,光子以光子形式向CMOS传感器流动并撞击光电二极管。曝光时间越长,进入摄像机的光子越多。因此,曝光 Level 与曝光时间成正比。光圈可以被视为光线通行的通道大小,因此CMOS传感器接收的光子数也成正比于光圈面积,由光圈直径D决定。在摄像设置中,光圈值A定义为 ,其中v是焦距。因此,曝光 Level 与光圈值平方成反比。在相等的光圈和曝光时间下,将ISO值乘以2将使传感器检测到光线的数量加倍,因此ISO值也与曝光 Level 成正比。结合这些关系,作者推导出一个经验公式来计算曝光 Level :
其中T是曝光时间,A是光圈值,ISO是摄像头传感器对光的敏感度,K是一个常数。此公式将曝光时间、光圈和ISO增益集成在一起,合理地表示了数字摄影中的曝光 Level 。
unset
unset3.2.2 Gaussian Light Featureunset
unset
上述曝光度在摄像机成像过程中充当全局亮度调节器。然而,作者观察到仅使用曝光度来调整图像的整体亮度对于复杂3D几何场景中的高频光线和阴影细节建模是不够的。具体来说,当曝光度较低时,生成的图像过于黑暗,导致阴影区域失去细节,而明亮区域出现斑驳。相反,当曝光度较高时,生成的图像的亮点和阴影区域稍微过曝,缺乏明确的纹理和对比。这种现象表明,不同的3D位置对相同的曝光度水平应该有不同的响应。
为了模拟对曝光度水平的不同响应,作者为每个高斯分布附加一个可学习的光特征向量。在每一个视点下,作者首先将高斯光的特征映射到二维光特征图(参见公式(2))。然后,作者采用CNN网络学习二维光特征与曝光度水平之间的响应函数,从而得到像素级的亮度图。这张图精确地描绘了摄像头在对应视点捕捉到的亮度 Level 。作者使用这些亮度图而不是曝光度来调节物理辐射,以补偿不同的亮度。作者将亮度图生成过程表示为:
其中,是CNN编码的响应函数,是映射到的二维光特征图。结合光特征(用于细节增强)与曝光度(用于高层次亮度调整),作者可以实现细粒度亮度控制。这使作者能够更好地表示光线和阴影区域,并保留渲染图像的丰富纹理。
unset
unset3.2.3 Tone-Mapperunset
unset
最后,作者通过将上述光度图 与亮度图 相乘以补偿不同视角的像素级亮度变化,对渲染 3DGS 的二维辐射图 进行调制。然后,作者的色调映射器尝试学习一个函数 ,将调制后的辐射值映射到图像像素值 :
,见式 (7) 。
在实际应用中,作者发现球谐函数固有地具有低频特性 [26, 25] 并受限于最适应用范围。直接使用球谐函数来表示具有剧烈变化和无界值的复杂辐射场可能导致在优化过程中出现数值不稳定性。因此,作者将所有辐射值表示为对数域。对数变换压缩了值域和变化幅度,使得球谐函数的优化过程变得更容易。这种最终的色调映射过程可以表示为:
,见式 (8) 。
,见式 (9) 。
其中 是对数域的色调映射函数。作者使用轻量级通道 CNN 模型 函数。由于不同颜色通道的色调映射函数可以不同,作者分别使用不同的网络层对每个通道 (R, G, B) 进行处理。实验结果显示,这种通道级色调映射器在保留渲染图像的生动性和准确性的同时,与同时处理三个颜色通道的全球 CNN 相比,防止颜色降低。此外,作者采用的轻量级 CNN 确保了色调映射过程的有效性,实现了在保持良好渲染质量的同时,不牺牲太多渲染速度的出色表现。
unset
unsetFloater Removalunset
unset
尽管引入了摄像机响应模块可以解决由于不一致性导致的大部分artifacts,但作者注意到,几个浮动物体仍然出现在摄像机附近。作者假设这些浮动物体是高斯函数,试图弥补复杂亮度变化,这些变化无法完全通过作者的摄像机响应模块来建模。在训练过程中,这些高斯函数被放置在场景的中心点尽可能远离的位置,以最小化它们对其他视图的影响,因此通常看起来离摄像机更近。对于捕捉距离发生剧烈变化的场景,这些浮动物体的影响尤为明显。
为了解决这些浮动物体的问题,作者提出了一种降低摄像机周围高斯函数梯度的方法,以防止它们在3DGS的适应性密度控制过程中分解或克隆。此方法通过根据Normalized Device Coordinates (NDC)中的摄像机距离计算每个高斯函数的梯度幅度,并结合"Floaters No More" [24]和Pixel-GS [19]的灵感来实现。虽然梯度缩放策略是有效的,但作者还观察到它的抑制能力过于强大,导致在靠近物体捕捉的视图中高频细节丢失。因此,作者将训练迭代次数引入梯度缩放过程的平滑中,并强烈限制在早期阶段以减少浮动物体,并逐步平滑以生成细节。
其中是高斯函数在NDC系统下的个视点中的z坐标,表示该高斯函数到摄像机的距离,,是作者提前设置的超参数,表示场景的缩放倍数:
其中是场景的训练视点数量,表示场景第个摄像机中心的在世界坐标系下的3D位置。
unset
unset4 A New Benchmark Datasetunset
unset
针对夜间新视角合成,可供研究的资料较少。RawNeRF[14]首次引入了一个去噪数据集,该数据集中包含了使用正面设置(即视角点之间的差异相对较小)在夜晚捕捉到的带有噪声的RAW图像。这样的捕获设置过于简化问题,无法满足复杂实际场景中的数据收集需求。而且,RAW格式的文件导致大量的存储需求,限制了每个场景捕捉的图像数量。
图4:包含视角变化和拉近捕捉的“雪人”场景具有挑战性。尽管基于NeRF的方法失败,3DGS生成了许多浮点数,但作者的方法仍然能够合成类似于真实场景的有益图像。
为了促进在夜间条件下进行新视角合成的进一步研究,作者提出了一种新的具有挑战性的数据集,该数据集包含12个现实世界的场景(5个室内和7个室外)。每个场景包括大约80至130个sRGB图像。具体来说,作者的室内场景包括四个房间的场景(厨房、客厅、钢琴房和 dormitory)和一个近距离的场景(雪人)。室外的场景包括两个大规模的场景( alley,街道),三个中规模的场景(自行车、围墙和树),以及两个近距离的场景(楼梯、花)。
在收集这个数据集时,作者遵循了两个主要原则:1)捕获过程应尽可能自然。作者没有手动调整任何相机参数(曝光、ISO、白平衡等),以避免捕捉照片中的不自然不一致。2)场景的所有细节应得到充分记录。而不是采用正面设置,作者大幅变化了捕捉视角(包括射击角度和距离),以确保夜间场景中的所有主体都清楚可见。因此,作者的数据集中包含了大量的广角照片和近距离照片。
作者使用iPhone 14 Pro(自动曝光模式)进行数据收集。图像格式为8位JPEG,具有3991 x 2960的分辨率。作者为训练使用4倍下采样图像。
unset
unset5 Experimentsunset
unset
Implementation Detailsunset
unset
作者实现了作者的_Gaussian-DK_,并使用PyTorch框架对CUDA渲染核进行了修改,用于作者的梯度缩放策略。作者使用COLMAP [19]估计相机姿态和获得初始高斯核的3D位置。实验中,作者设定了退火参数和。每个光特征向量的维度设置为8。对于产生亮度图和调色色映射每个颜色通道的CNN,作者使用了具有和的三卷积层。遵循3DGS的适应性密度控制,作者在每100次迭代中压缩和剪枝高斯核。将其球面谐波增加的速度设置为每1,000次迭代增加1度,直到达到3度为止。对于每个场景,作者在单个NVIDIA A6000 GPU上的_Gaussian-DK_进行了15,000次迭代优化,这通常需要20分钟。
unset
unsetEvaluationunset
unset
5.2.1 Baselines and Metricsunset
unset
作者的 Gaussian-DK 首先提出处理夜景摄影中的多视图不一致性,因此,没有可行的基准。为了评估 Gaussian-DK 的有效性,作者将其与三种最相关的方法进行比较,即基础 3DGS [14] 和处理不一致性的两种基于 NeRF 的方法:NeRF-W [17] 和 HDR-NeRF [18]。对于 3DGS 和 HDR-NeRF,作者直接使用它们的官方代码。由于 NeRF-W 的作者未发布其代码,作者采用了常用的非官方实现1。由于 NeRF-W 需要 RAW 格式的输入图像,因此作者排除了 RawNeRF [19] 的评估。为了评估渲染质量,作者使用了三个定量指标:峰值信噪比(PSNR),结构相似性指数(SSIM)[20] 和学习感知图像块相似度(LPIPS)[18]。作者也报告了每种方法的渲染速度(每秒帧数,FPS)。
unset
unset5.2.2 Quantitative Comparisonunset
unset
表1总结了定量结果。在几乎所有场景中,_Gaussian-DK_在PSNR、SSIM和LPIPS方面都优于其他基准。将原始的3DGS应用于不一致的照片集合会导致性能较差,无法与其他方法竞争处理不一致性。特别是,_Gaussian-DK_在PSNR上平均提高了3.4dB,SSIM上提高了33%,LPIPS上提高了46%。NeRF-W取得了第二好的结果,表明其视角外观补偿策略可以生成具有良好PSNR的不一致渲染。然而,由于NeRF-W缺少这些感知指标所青睐的高频纹理和细微细节,其LPIPS和SSIM仍然明显落后于作者的方法。HDR-NeRF在PSNR方面略胜3DGS,表明这种方法只能处理有限的输入不一致性,因为它仅考虑了曝光时间的差异。值得注意的是,基于NeRF的方法在"雪人"场景中输出了完全黑色的渲染。如图4所示,作者认为这个特写场景过于挑战性,具有较大的视角变化和缩放捕捉,使得基于NeRF的方法失败。此外,与基于3DGS的方法相比,基于NeRF的方法在FPS方面的性能较差。作者同时提高了渲染质量和实现实时的渲染,但相对于3DGS,慢一些。
unset
unset5.2.3 Qualitative Comparisonunset
unset
图5展示了不同方法的结果对比。3DGS产生了令人不愉快的浮动眼花,如同凌乱的黑白色斑点,严重模糊了场景。这些浮动眼花实际上是尝试弥补每个视图中不同亮度的Gaussian,但与场景几何不符。基于NeRF的方法都缺乏细节,产生模糊的结果。NeRF-W可以恢复一致但过于平滑的场景。在其渲染中,边缘区域可能出现刮痕黑色人工制品。此外,在评估NeRF-W时,作者需要输入 GT 图像的左边一半,以优化相应的外观嵌入,这样生成的渲染图像可以获得与 GT 相同的亮度。这个优化过程耗时较长,而学习到的外观嵌入不具备良好的可解释性。HDR-NeRF生成了大量的浮动眼花人工制品,并合成出与 GT 不符的颜色,表明它不足以处理复杂的矛盾。相比之下,作者的方法生成了干净且视觉上吸引人的渲染结果,具备微妙的细节。请参见附录中的详细演示视频。
unset
unsetAblationsunset
unset
表2:消融试验结果。作者的全系统在PSNR、SSIM和LPIPS方面都取得了最佳性能。
作者通过消融试验分别评估了作者的方法四个组成部分:
(1)每个高斯分布上的附加光特征(有光特征),(2)在曝光 Level 考虑感光度增益和光圈(无感光度与光圈),(3)每个颜色通道使用单独的卷积神经网络进行色调映射(无单独RGB通道),(4)基于相机距离的梯度缩放策略(无梯度缩放)。
视觉比较结果如图6所示,平均指标报告在表2中。为每个高斯分布附加光特征可以改善隐藏在阴影中的物体细节和视觉上吸引人的效果。以前的方法仅将曝光时间考虑在相机响应建模中。而相比之下,作者额外考虑了感光度增益和光圈,以得到更全面的相机响应建模。作者尝试仅使用曝光时间来表示曝光 Level ,导致性能大幅度降低,并出现了明显的浮子艺术效果(如图6所示)。为了证明作者提出的通道式CNN色调映射的有效性,作者进行了一次使用单个全局卷积神经网络同时映射RGB通道的消融试验。尽管定量结果变化不大,但视觉效果显著较差,渲染被漂白且失去了鲜艳的颜色。当单独映射每个颜色通道时,作者得到了生动的渲染,甚至比真实值更好。通过删除梯度缩放策略,作者观察到相机附近地区出现的模糊渲染和浮子。有了梯度缩放策略,作者可以合成更清晰的图像。请注意,作者的全系统产生了最佳结果,这证明了所提出每个组成部分的有效性。
unset
unsetLight-Up Visual Effectunset
unset
如图8所示,这是作者方法的一个附加应用。在作者的相机响应模块中,作者采用三个相机参数来模拟曝光度(见第3.2.1节),这决定了渲染图像的整体亮度。通过增加曝光度,作者可以使渲染图像亮起来,从而揭示阴影区域中隐藏更多信息,这在实际应用中非常有用。
请注意,在低光区域,sRGB图像的监督较弱且信息较少,如图3所示。因此,在低光区域,高斯可以很大、很稀疏且不透明,3DGS不需要生成密集的高斯来代表这些区域。对于大多数暗图像,这些稀疏的高斯可以产生不错的渲染。当采用某些曝光度较高的视角时,这些不太密集的高斯可能会导致“云雾”伪影。这些伪影可以通过适当的图像捕捉来进一步减轻,以确保足够的监督。
unset
unsetLimitationunset
unset
作者注意到,当渲染图像的曝光度与训练图像中出现的曝光度显著不同时,作者的渲染质量将会下降。例如,图7中合成的图像的曝光度远低于所有训练视图,并且表现出不准确的亮度效果(尤其是光源区域,比真实值更暗)。作者将这个问题留作一个有趣的未来方向。
unset
unset6 Conclusionunset
unset
在这项工作中,作者提出了一个新的方法 _Gaussian-DK_,该方法可以在从不一致的黑暗输入图像中合成高质量、一致的新视角的同时,仍实现实时渲染速度。
具体来说,作者利用强大的 3DGS 来表示物理世界的辐射场,并设计了一个全面的摄像机响应建模 Pipeline 。此外,作者还提出了一种梯度缩放策略,用于控制 Gaussians 的分裂和克隆过程,成功抑制了摄像机附近的花纹。
作者还观察到,在黑暗环境中的多视图数据很少,因此作者收集了一个新的具有挑战性的数据集,包含12个现实世界场景。在作者的数据集上的实验表明,_Gaussian-DK_ 明显超过了现有的 Baseline 。
此外,作者的方法还可以生成照亮图像,这些图像在阴影区域明显揭示了细节。
点击上方卡片,关注 「AI视界引擎」 公众号