LLM-MDE，多模态框架，通过语言理解深度，可以从单目图像中理解深度！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

单目深度估计是计算机视觉应用中的关键功能。本文表明，大规模语言模型（LLM）可以有效地通过高效资源利用和一致的神经网络架构理解深度，而无需过多的监督。

作者提出了LLM-MDE，一种多模态框架，通过语言理解深度。

具体来说，LLM-MDE采用两种主要策略来增强预训练LLM的深度估计能力：跨模态重编程和自适应提示估计模块。这些策略将视觉表示与文本原型对齐，并根据单目图像分别自动生成提示。

在现实世界的MDE数据集上的大量实验证实了LLM-MDE的有效性和优越性，它在执行少量/零次学习任务时使用较少资源。源代码可用。

I Introduction

单目深度估计（MDE）对于诸如自动驾驶等应用至关重要，其中准确的环境感知对安全性至关重要。基于手动设计的特征和几何模型的传统MDE方法在复杂场景中经常表现不佳。最近深度学习（DL）的进步已经革新了MDE ，提供了强大的性能，同时无需受制于物理或需要消耗大量资源的特征工程。

DL支持的MDE技术可以分为两类，基于学习策略：有监督的[4,5,6]和无监督的[7,8]方法。有监督的方法需要大量标记数据集并交付出色的性能，但消耗大量资源。相比之下，无监督方法使用未标注数据以促进有效的知识转移和最小的监督。然而，两种策略都面临三个主要挑战：

（1）依赖于专门的神经架构，需要针对特定任务定制模型，从而降低灵活性；

（2）在某些场景中需要明确的上下文信息，依赖于特定的预训练姿态估计网络以获得特定场景的知识，从而限制性能；

（3）依赖精确的数据标注，尽管在无监督方法中很难找到这样的假设，但在很少被质疑的前提之下。因此，开发一个支持灵活性能、最小监督和独立于复杂、自定义模型架构的统一的MDE框架至关重要。

本文证明了预训练大型语言模型（LLMs）可以从单目图像中有效理解深度。作者引入了L arge L anguage M odel for M onocular D epth E stimation（简称LLM-MDE），一个多模态框架，通过语言理解解释深度。LLM-MDE结合了两种主要的策略来提高深度感知：跨模态重编程和自适应深度提示生成。前者将单目图像的视觉表示与来自综合词汇库的文本原型对齐，增强LLM输入的特征提取。后者策略从单目图像生成并标记提示，以便LLM处理。这些方法极大地提高了LLM对单目深度估计的见解。作者的贡献有四点：

本研究是首次探索预训练大型语言模型（LLMs）用于单目深度估计。实证证据表明，LLMs可以通过最小监督提供深度信息。
作者引入了LLM-MDE，这是一个统一的多模态框架，用于单目深度估计。它集成跨模态重编程和自适应深度提示生成模块，以增强LLM在最小监督和资源方面的深度洞察力。
作者介绍了跨模态重编程和自适应深度估计。前者将单目图像和文本原型对齐，而后者则自动生成深度提示以增强估计洞察力。
在现实世界的MDE数据集上的广泛实验表明，作者的LLM-MDE的有效性和优势，它在与少量/零样本任务的良好性能。

作者强调，LLM-MDE并非为了竞争，而是作为深度估计的探索性工具，尤其是在有限的监督/资源或无需复杂神经架构的场景中。

II Methodology

在图1（c）中展示了作者LLM-MDE的结构。它结合了两种预训练模型：一个视觉Transformer（ViT）从图像中提取视觉表示，另一个是具有深度估计功能的LLM。作者提出了两种策略：跨模态重编程和自适应深度提示生成，从而增强了LLM的深度估计能力。这些策略的特征通过一个自适应 Head 融合到LLM，以实现准确的深度估计。进一步的详细信息将随后提供。

picture.image

Cross-modal Reprogramming between Vision and Text

广泛自然语言数据集预训练的LLM表现出优越的序列建模和泛化能力。然而，文本和图像数据之间的差异阻止了将LLM直接应用于图像表示任务。单目图像也不能直接用自然语言进行无损描述或者编辑，这为使用无须激烈微调的LLM理解它们带来了重大挑战。为了应对这个问题，作者提出了一种跨模态重编程策略，将单目图像的视觉表示与大规模文本语料库的潜在语义信息相结合，提高LLM感知、理解和解释视觉表示的能力。具体地，作者在LLM主干的预训练词向量中使用，其中和分别表示词汇表大小和维度。然而，作者没有先验知识，表示哪个文本标的是与单目图像表示直接相关的。因此，作者通过线性变换（记为，

最后，通过聚合每个头中的特征，作者得到，其中是跨域重编程的输出维度。这些特征随后线性投影并与以下提示表示的表示相融合。

Adaptive Depth Prompts Generation Module

根据论文，为了提高无额外结构或内部修改的预训练语言模型的深度理解洞察力，作者引入了自适应深度提示生成模块（APG）。该模块可以自主地为单目图像生成统计提示，从而提高深度理解。该模块将提示生成和表示相结合，从四个角度生成提示：数据集、任务、像素和类别。数据集和任务组

Depth Projection from Adaption Head

为了将语言表示转换为深度信息，作者引入了基于ResNet架构的Adaptation Head用于特征精炼和深度投影。Adaptation Head采用了上采样BN模块，结合卷积、批量归一化和指数ReLU以及残差连接。该过程首先通过线性层调整输入特征，然后经过三个上采样BN操作来增强空间分辨率并改进特征表示。这将特征图扩展以捕捉细微细节并增加感受野。最后，一个Sigmoid函数对输出进行归一化，得到深度图。

Lightweight Operations and Optimization

调节预训练的ViTs和LLMs进行视觉表示和深度估计仍然需要大量的资源，在低资源环境中面临着巨大的挑战。为了应对这个问题，作者在框架的各个部分中引入了轻量级的操作来平衡成本和性能。具体来说，作者在ViT和LLM内的每个自注意力块中采用低秩自适应（LoRA）[9]，通过只修改一小部分权重来有效地更新参数，保持原始模型结构和知识。LoRA的实现涉及到使用原始权重矩阵，并将其与较低阶矩阵乘积相加：

其中表示秩值，和是小于的低秩矩阵（），以确保在调优过程中具有较少的参数数量。对于优化，作者使用尺度不变的平方损失（SSI），将单目深度估计（深度预测）表示为：

其中表示模型未冻结的参数，是第i个样本的真实深度值，是第i个样本的深度预测值，是样本数量。

III Experiments

作者在配备Intel Xeon Silver 4210R CPU和NVIDIA GeForce RTX 3090Ti GPU（24 GB内存）的Ubuntu 22.04服务器上进行了评估。关键的超参数设置如下： Patch 大小为16，训练分辨率为224，丢弃率为0.1，批处理大小为16，使用AdamW优化器，初始学习率为。作者在所有实验中使用NYU原始数据集，该数据集包括分辨率为的图像，因为其具有普遍适用性。作者在所有实验中始终使用ViT-base和12层BERT。训练期间，作者进行了50个周期，其中采用早期停止策略，如果在连续5轮验证损失不降低时停止训练。此外，作者将学习率应用为余弦退火策略，以防止过拟合。作者严格遵循Ranftl等人[10]提出的实验协议。具体来说，作者使用RMSE，Abs Rel，Sq Rel，Log RMSE和准确率作为作者的评估指标。

Few-Shot and Zero-Shot Experiments

为了证明在资源有限的环境下LLM-MDE的有效性，作者进行了少样本和零样本实验。如Tab.I和Fig.1所示，少样本实验分为五组。前四组从1-Shot到4-Shot，每组包含50到100张图像。第五组被称为Few-Shot，由每个场景类型中随机选出的一个单一图像组成，总共28张图像。随着镜头数的逐步增加，各种损失显著减少，细节分辨率得到提升，如图3和图4中的书架和无效区域的描绘得到改善。

picture.image

如Tab.II和Fig.2所示，在仅针对一个场景进行训练并在四个未见过的类型上进行测试的零样本实验验证了LLM-MDE的泛化能力。尽管未经这些场景的训练，模型实现了较低的损失值，突显了其鲁棒性。图2表明，在无需训练的情况下，模型只能捕获部分纹理细节并不准确地估计深度。在跨域训练后，视觉结果显著改善。例如，在客厅场景中，经过训练的模型准确地识别了沙发、地板和远处物体的深度，而在浴室场景中，它有效地捕捉了水槽和浴缸的纹理和深度。

picture.image

Ablation Experiments

为了证明APG和固定提示在深度估计中的有效性，作者进行了一项消融研究，结果如图3和表3所示。无提示的模型表现最高损失，具有明显噪声和 artifacts。相反，固定提示显著降低了损失，将RMSE和Abs Rel降低了31.4%和43.4%，并将 artifacts 降低。APG提示表现优越，最小化了 artifacts，并增强了纹理细节。例如，在图3中，APG提示有效捕获了第三列第四行的水槽纹理，第三列第五行的桌椅细节。作者也进行了定性和定量分析以确认这些结果，证实了APG提示在提高深度估计准确性方面的优越性。

picture.image

如表4和图4所示，作者进行了消融研究以验证LoRA微调策略对深度估计的有效性。方案1，使用 Frozen ViT 和 Frozen LLM 作为对照组，展现了高模型损失和明显 artifacts。方案2，用 LoRA ViT 替代 Frozen ViT，降低了 artifacts，并将Abs Rel和Sq Rel 分别降低了30.0%和47.0%。方案3，进一步用 LoRA LLM 替代 Frozen LLM，实现了最低损失，其中 Abs Rel和Sq Rel 分别降低了40.0%和61.0%，有效消除了 artifacts，提供了更准确的预测。

picture.image

Hyper-parameter Sensitivity

表5和图5呈现了涉及多种LoRA微调策略的LLM-MDE超参数敏感性实验结果。作者采用了一种控制变量法，调整了LoRA ViT和LoRA LLM的Alpha和Rank参数，以及批大小和学习率，来研究它们对模型准确性的影响。方案1、3和7显示，较小的Alpha和Rank值降低了LoRA的有效性：方案1显示的预测结果较为粗糙，而方案7产生了更多的噪声。方案3和6表明，非常高的Alpha和Rank值导致了过拟合和糟糕的泛化，从而产生了显著的噪声。方案2和3揭示，参数调整自由度过大破坏了训练稳定性，增加了损失和噪声。方案3、5和8表明，较小的批量大小降低了训练稳定性和预测准确性，增加了损失。然而，如方案8所示，对于小数据集来说，非常大的批量大小也可能损害准确性。

picture.image

IV Conclusions

论文总结如下，本文介绍了LLM-MDE，一种多模态框架，能够通过语言理解来解释深度。LLM-MDE采用两种主要策略来增强深度感知：跨模态重编程和自适应深度估计模块。

前者将单目图像中的视觉表示与综合词汇中的文本原型进行对齐，以提高LLM输入的特征提取。

后者从图像中生成和标记提示，以便LLM进行处理。这些方法显著增强了单目深度估计的洞察力。

在实际场景的MDE数据集上进行的广泛实验表明了作者的LLM-MDE的有效性和优越性。

参考

[1].Large Language Models Can Understanding Depth from Monocular Images.

LLM-MDE，多模态框架，通过语言理解深度，可以从单目图像中理解深度 ！

I Introduction

II Methodology

Cross-modal Reprogramming between Vision and Text

Adaptive Depth Prompts Generation Module

Depth Projection from Adaption Head

Lightweight Operations and Optimization

III Experiments

Few-Shot and Zero-Shot Experiments

Ablation Experiments

Hyper-parameter Sensitivity

IV Conclusions

参考