LLM-包装黑盒语义感知视图语言基础模型的适应！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

视觉语言模型（VLMs）在多个任务上都表现出了令人印象深刻的能力。然而，与专门或微调模型相比，其零样本能力可能有所限制。

在本文中，作者提出了一种名为LLM-wrapper的新方法，通过利用大型语言模型（LLMs）以黑盒方式自适应VLMs以便对其输出进行推理。

LLM-wrapper以轻量和高效的方式微调LLMs。作者在Referring Expression Comprehension（REC）任务上证明了LLM-wrapper的有效性，这是一项具有挑战性的开放式词汇任务，需要进行空间和语义推理。

作者的方法显著提高了现成的模型，得到了具有竞争力的结果。

1 Introduction

视觉语言模型(VLMs)是 [3] 类基础模型，在大量多样化的任务和数据集上进行了训练，表现出解决各种开放词汇任务的能力，例如图像描述生成 [18, 39]，视觉问答或文本图像检索的出色能力。最近的研究也取得了成功，在各种目标本地化问题上取得了成功，包括目标检测和语义分割 [9, 38, 39]。

在本研究中，作者专注于开放词汇检测任务，即在图像中定位由复杂的文本 Query 描述的目标，因此需要进行空间和语义推理。

最近的研究 [22, 31] 表明，大多数REC Query 中提到的目标都可以被VLMs检测到，并为它们提供相当可靠的紧固框和标签。然而，REC任务只需要找到描述的目标，而模型通常无法理解指定目标之间、属性或否定之间的关系 [40, 42]。

为了达到竞争性的结果，VLMs可以对选择的下游任务或数据集进行微调，采用特定的、精心设计的训练策略，如图1（左）所示。然而，微调VLMs存在强限制。

首先，它需要对模型架构和权重进行“白盒”访问以进行反向传播。由于越来越多的VLMs，如Grounding-DINO 1.5 [31]，作为带有专有许可的API发布。其次，它需要专业知识来设计和优化每个VLM和下游任务的微调目标和超参数。最后，存在可用于微调专有模型的API，例如 [27]，但仅限于预定义的范围并需要与外部私人公司共享数据，从而引发法律和隐私问题。

picture.image

作者提出LLM-wrapper，一种通过使用LLMs来推理其输出来适应VLMs以解决REC任务的新方法，如图1（右）所示。实际上，作者将VLMs的预测集合（翻译成自然语言）传输到LLM，使用精心设计的提示，并请求模型在输入 Query 中选择最佳匹配框。

新的方法基于最近和令人印象深刻的大型语言模型（LLMs）的最近发展，这些模型在大规模数据集上的推理能力出色，因为经过精心设计的训练目标。VLMs在生成的检测中表现良好，其中LLM-wrapper可以使用LLM的语义和空间推理能力选择最相关的框。

为了获得最佳性能，作者使用高效的LoRA [15]策略微调LLM。与标准端到端VLMs微调 [20]不同，LLM-wrapper对VLMs模型不敏感，只需要模型的输出，对应于“黑盒”访问，并且不假设模型架构。几项最近的工作也提出了“黑盒”方法来提高VLMs能力，但他们需要访问模型的某些内部表示 [28] 或昂贵的VLM API迭代调用 [21, 26]。

作者在REC任务上评估LLM-wrapper，使用两种显著不同的VLMs，即Grounding-DINO [22] 和Florence-2 [39]，以及两种较为轻量级的LLM：最近的Mikrtal 8x7B [16]和Llama 3 BB [11]。

作者表明，LLM-wrapper显著提升了VLMs性能，在所有VLMs和LLMs组合中的P@1得分提高了9.5个百分点以上，从而显出了作者方法的模型无关性。作者还表明，LLM-wrapper的训练从一个VLM转移到另一个VLMs，并可以接受模型的输出集。

2 Method: LLM-wrapper

在这一节中，作者提出了一种新颖的基于LLM的方法LLM-wrapper，它可以提高VLMs在REC任务上的性能。作者的方法（见图1的右图）将一个冻结的VLM（在作者的设置中，是一个基于开词汇的目标检测器）的预测结果进行了包装，它通过一个LLM来对其进行推理。LLM-wrapper只需要对VLM进行黑盒访问，而标准的微调策略需要对VLM进行白盒访问以执行反向传播，如图1的左图所示。

给定一个复杂的文本 Query ，作者的方法利用检测导向的VLMs通常能够在 Query 中准确定位大多数名词，即使它们在推理上可能会遇到困难。LLM-wrapper然后将这些推理留给能够处理难以理解的文本 Query ，包括属性、否定和物体的关系或空间描述。作者观察到，在没有进行微调的情况下，LLM就已经能够选择具有地理或语义信息的方块。作者通过LLM与一个高效的训练策略进行微调来提高性能。

提示构建 。在下一个LLM提示中，作者列出所有预测的输出（包括其方块坐标、标签和适用时显示的置信度（如浅灰色显示的下方））并翻译成自然语言。这样，仅读取文本的"盲目"LLM就可以理解场景并对其进行推理。提示最后提供 Query ，并要求LLM选择最佳匹配的方块。

例如，根据 Query （图1中的绿色部分）和相关的输出，如'flower'、'plate'、'bowl'等，作者向LLM询问最佳匹配的方块索引，如下所示：

微调LLM 。为了获得最佳结果，作者使用交叉熵损失对LLM进行微调，该微调任务是下个标记预测。作者将训练限制在提示完成，使用上述提示。预期的答案是最优方块索引--最优对应于最接近已知的真实框。作者使用REC训练数据构建一个训练集，该数据集由（图像， Query ）对和真实框组成。用于生成训练提示的检测输出（方块、标签、得分）是通过VLM进行推测的。微调可以帮助调整LLM到任务，并观察到，帮助改善LLM基于物体坐标的推理能力。

3 Experiments

在本节中，作者将评估LLM包装的质量。作者在第3.1节中介绍实验设置，主要结果在第3.2节中呈现，分析在第3.3节中进行。

实验设置

3.1.1 The task: Referring Expression Comprehension

作者在REC（Reaction Times）任务上评估LLM-wrapper。在该任务中，给定一个输入对（图像， Query ），模型需要预测 Query 描述的目标周围的一个边界框，如图1所示。作者使用具有复杂性的知名数据集RefCOCOg[24]，平均每个 Query 有8.43个单词的长时间描述，以及每张图像2至4个干扰目标。

作者使用拥有非重叠训练/验证/测试划分的数据集版本，其中分别有80,512/4,896/9,602个表达式。作者采用标准精度@1（P@1）指标进行评估，如[29]所述。

3.1.2 The VLMs

作者研究了两种VLMs，即以下内容[22]，并使用官方的预训练权重报告结果。除非特别说明，否则作者使用未经在RefCOCOg上fine-tuned的模型版本。使用以下模型设置，对于每个提示，有2到20个边界框传递给LLM-wrapper。

Grounding-DINO (GD) [22] 通过模态融合和对比学习将视觉 Query 与文本对齐。该模型最初设计用于无词汇检测任务，在REC任务上的召回率高但准确度低。作者提出了一种简单改进，即GDrec，在此过程中，而不是将每个框分配与任何 Query 词的最大相似分数，而是将 Query 的主题1的相似度分数分配给该框。GDrec在所有情况下（例如，未fine-tuned模型在P@1方面+7）都显着超过了GD在RefCOCOg上的性能，如表1所示。

为了限制 Proposal 框的数量，作者将框置信度分数阈值设置为0.15。未fine-tuned的GD / GDrec使用SwinT(T)背心和开源的fine-tuned版本（FT）基于SwinB（B）。作者还运行了使用Grounding-DINO 1.5[31]（GD-1.5）进行初步实验的尝试（在线访问： Grounding-DINO-1.5-API）。GD-1.5将GD扩展到更大的背心，ViT-L来自[13]，并增加了训练数据集。

Florence-2 (Flo2) [39]是一个序列到序列的多任务模型。作者使用Hugging Face Hub上的Florence-2 Large版本。它由一个DaViT视觉编码器[8]和多模态编码器-解码器组成。Flo2可以对多个任务进行提示，并保留和连接 '目标检测' 和 '短语定位' 任务模式中的框。

picture.image

3.1.3 The LLMs and their fine-tuning

作者使用两种不同的预训练语言模型（LLMs）来评估LLM-wrapper：Mikrtal 8x7B Instruct [16]（v0.1）和Llama 38 Bsh Instruct [1] ，均为Hugging Face实现的。为了实现高效的微调推理，作者采用了LoRA [15]（'rank' ，'relevance_weighting' ）、Hugging Face的带监督微调 Pipeline （SFT） [12]、flash attention [6] 和 4-bit-quantization [7]。这些选择使得LLM-wrapper可以在单张40GB-A100 GPU上进行训练。

作者将作者的LLMs进行单epoch训练，并使用4个批处理大小进行训练。收敛时间约为个样本，如图2所示，并在第3.3节进行讨论。

picture.image

将不同的VLMs集成到一起。 作者在表2中研究了使用LLM-wrapper从不同VLMs处获得的集成输出的影响。结果表明，当将GDrec和Flo2进行集成时，与使用最佳性能的VLM（通过LLM-wrapper调整）获得的结果相比，得分提高了+3.0 P@1（val-umd）和+2.1 P@1（test-umd）。这表明LLM-wrapper可以在多个来源上进行推理并学会利用不同模型的优势。

picture.image

Analysis

在VLMs之间迁移LLM-wrapper 。在表3中，作者证明了LLM-wrapper可以在VLMs之间良好地迁移。例如，在GDrec的或Flo2的输出上进行微调，然后在另一个模型的输出上进行推理时的迁移，使其从零样本VLMs的+5.6增加到+6.3 P@1。这表明在作者微调期间，LLM-wrapper学习了适用于其他模型的空间和语义概念。这在私有模型（如GD-1.5[31]）中尤其有趣，因为创建训练集可能非常昂贵；例如，仅获得训练集预测将需要≈ $1,600（每个API调用约为20）。作者对仅对应300个免费API请求的val-umd的受限制子集进行了实验，该子集对应于GD-1.5。

作者发现，使用在GDrec的输出上调优并用于推理GD-1.5的输出时，使用LLM-wrapper boosts结果显著+29.0 P@1。作者的方法甚至在与零样本LLM进行推理时，在GD-1.5的输出上达到+11.3的P@1提升。

picture.image

训练动态 。图2显示了LLM-wrapper在RefCOCOg上的性能演变，相对于观看的样本数量，在微调Llama 3的同时。它显示了在所有VLMs（尤其是对GD印象最深刻）上的P@1在第一30,000个样本（在作者的设置中需要2小时到2小时30分钟训练）中急剧增加。因此，即使在有限数量的样本情况下，LLM-wrapper也可以提升性能。

此外，在没有任何微调之前，LLM-wrapper使用Llama 3的测试结果与非定制VLMs（P@1为58.05_vs._60.09的GD，67.48_vs._67.61的GDrec和67.69_vs._68.28的Flo2在val-umd上）具有可比性，因此表明作者的零样本LLM在选择良好矩形方面几乎与VLM一样好。

直觉。在图3中，作者对比了Flo2和LLM-wrapper在Fl2上操作的输出（Llama 3微调）的结果。图3（a&b）显示LLM-wrapper在空间和关系推理上的优势，图3（c）显示LLM-wrapper可以更好地识别 Query 的主题。

picture.image

局限性 。图3（d）显示了LLM-wrapper的一个典型错误案例，其中缺少LLM进行正确回答所需的详细信息：由于以框坐标形式提供的视觉信息缺乏可以允许LLM正确回答的详细信息，因此无法知道哪些面朝哪个方向。此外，作者的方法在VLMs预测出足够多样化的精确定位框，覆盖了所需的大部分元素时，工作效果最佳。

4 Conclusion

本工作引入了LLM-wrapper，一种使用LLM适应视觉语言基础模型的全新方法。

LLM-wrapper利用LLMs的强大推理能力，以黑盒形式显著提高了现成的VLMs的性能。

作者还展示了如何将来自不同VLMs的预测结果集成为一，以利用各自的优势。得益于有效的、经过良好研究的LLM fine-tuning方法，LLM-wrapper在实践中简单易用且计算高效。

未来的工作包括使用这种新适应方法来解决其他任务，如[40]描述性目标检测。

参考

[1].LLM-wrapper: black-box semantic-aware adaptation of.

LLM-包装 黑盒语义感知视图语言基础模型的适应 ！

1 Introduction

2 Method: LLM-wrapper

3 Experiments

3.1.1 The task: Referring Expression Comprehension

3.1.2 The VLMs

3.1.3 The LLMs and their fine-tuning

Analysis

4 Conclusion

参考