备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
视觉语言模型(VLMs)在多个任务上都表现出了令人印象深刻的能力。然而,与专门或微调模型相比,其零样本能力可能有所限制。
在本文中,作者提出了一种名为LLM-wrapper的新方法,通过利用大型语言模型(LLMs)以黑盒方式自适应VLMs以便对其输出进行推理。
LLM-wrapper以轻量和高效的方式微调LLMs。作者在Referring Expression Comprehension(REC)任务上证明了LLM-wrapper的有效性,这是一项具有挑战性的开放式词汇任务,需要进行空间和语义推理。
作者的方法显著提高了现成的模型,得到了具有竞争力的结果。
1 Introduction
视觉语言模型(VLMs)是 [3] 类基础模型,在大量多样化的任务和数据集 上进行了训练,表现出解决各种开放词汇任务的能力,例如图像描述生成 [18, 39],视觉问答或文本图像检索 的出色能力。最近的研究也取得了成功,在各种目标本地化问题上取得了成功,包括目标检测和语义分割 [9, 38, 39]。
在本研究中,作者专注于开放词汇检测任务,即在图像中定位由复杂的文本 Query 描述的目标,因此需要进行空间和语义推理。
最近的研究 [22, 31] 表明,大多数REC Query 中提到的目标都可以被VLMs检测到,并为它们提供相当可靠的紧固框和标签。然而,REC任务只需要找到描述的目标,而模型通常无法理解指定目标之间、属性或否定之间的关系 [40, 42]。
为了达到竞争性的结果,VLMs可以对选择的下游任务或数据集进行微调,采用特定的、精心设计的训练策略,如图1(左)所示。然而,微调VLMs存在强限制。
首先,它需要对模型架构和权重进行“白盒”访问以进行反向传播。由于越来越多的VLMs,如Grounding-DINO 1.5 [31],作为带有专有许可的API发布。其次,它需要专业知识来设计和优化每个VLM和下游任务的微调目标和超参数。最后,存在可用于微调专有模型的API,例如 [27],但仅限于预定义的范围并需要与外部私人公司共享数据,从而引发法律和隐私问题。
作者提出LLM-wrapper,一种通过使用LLMs来推理其输出来适应VLMs以解决REC任务的新方法,如图1(右)所示。实际上,作者将VLMs的预测集合(翻译成自然语言)传输到LLM,使用精心设计的提示,并请求模型在输入 Query 中选择最佳匹配框。
新的方法基于最近和令人印象深刻的大型语言模型(LLMs)的最近发展,这些模型在大规模数据集上的推理能力出色,因为经过精心设计的训练目标。VLMs在生成的检测中表现良好,其中LLM-wrapper可以使用LLM的语义和空间推理能力选择最相关的框。
为了获得最佳性能,作者使用高效的LoRA [15]策略微调LLM。与标准端到端VLMs微调 [20]不同,LLM-wrapper对VLMs模型不敏感,只需要模型的输出,对应于“黑盒”访问,并且不假设模型架构。几项最近的工作也提出了“黑盒”方法来提高VLMs能力,但他们需要访问模型的某些内部表示 [28] 或昂贵的VLM API迭代调用 [21, 26]。
作者在REC任务上评估LLM-wrapper,使用两种显著不同的VLMs,即Grounding-DINO [22] 和Florence-2 [39],以及两种较为轻量级的LLM:最近的Mikrtal 8x7B [16]和Llama 3 BB [11]。
作者表明,LLM-wrapper显著提升了VLMs性能,在所有VLMs和LLMs组合中的P@1得分提高了9.5个百分点以上,从而显出了作者方法的模型无关性。作者还表明,LLM-wrapper的训练从一个VLM转移到另一个VLMs,并可以接受模型的输出集。
2 Method: LLM-wrapper
在这一节中,作者提出了一种新颖的基于LLM的方法LLM-wrapper,它可以提高VLMs在REC任务上的性能。作者的方法(见图1的右图)将一个冻结的VLM(在作者的设置中,是一个基于开词汇的目标检测器)的预测结果进行了包装,它通过一个LLM来对其进行推理。LLM-wrapper只需要对VLM进行黑盒访问,而标准的微调策略需要对VLM进行白盒访问以执行反向传播,如图1的左图所示。
给定一个复杂的文本 Query ,作者的方法利用检测导向的VLMs通常能够在 Query 中准确定位大多数名词,即使它们在推理上可能会遇到困难。LLM-wrapper然后将这些推理留给能够处理难以理解的文本 Query ,包括属性、否定和物体的关系或空间描述。作者观察到,在没有进行微调的情况下,LLM就已经能够选择具有地理或语义信息的方块。作者通过LLM与一个高效的训练策略进行微调来提高性能。
提示构建 。在下一个LLM提示中,作者列出所有预测的输出(包括其方块坐标、标签和适用时显示的置信度(如浅灰色显示的下方))并翻译成自然语言。这样,仅读取文本的"盲目"LLM就可以理解场景并对其进行推理。提示最后提供 Query ,并要求LLM选择最佳匹配的方块。
例如,根据 Query (图1中的绿色部分)和相关的输出,如'flower'、'plate'、'bowl'等,作者向LLM询问最佳匹配的方块索引,如下所示:
微调LLM 。为了获得最佳结果,作者使用交叉熵损失对LLM进行微调,该微调任务是下个标记预测。作者将训练限制在提示完成,使用上述提示。预期的答案是最优方块索引--最优对应于最接近已知的真实框。作者使用REC训练数据构建一个训练集,该数据集由(图像, Query )对和真实框组成。用于生成训练提示的检测输出(方块、标签、得分)是通过VLM进行推测的。微调可以帮助调整LLM到任务,并观察到,帮助改善LLM基于物体坐标的推理能力。
3 Experiments
在本节中,作者将评估LLM包装的质量。作者在第3.1节中介绍实验设置,主要结果在第3.2节中呈现,分析在第3.3节中进行。
实验设置
3.1.1 The task: Referring Expression Comprehension
作者在REC(Reaction Times)任务上评估LLM-wrapper。在该任务中,给定一个输入对(图像, Query ),模型需要预测 Query 描述的目标周围的一个边界框,如图1所示。作者使用具有复杂性的知名数据集RefCOCOg[24],平均每个 Query 有8.43个单词的长时间描述,以及每张图像2至4个干扰目标。
作者使用拥有非重叠训练/验证/测试划分的数据集版本,其中分别有80,512/4,896/9,602个表达式。作者采用标准精度@1(P@1)指标进行评估,如[29]所述。
3.1.2 The VLMs
作者研究了两种VLMs,即以下内容[22],并使用官方的预训练权重报告结果。除非特别说明,否则作者使用未经在RefCOCOg上fine-tuned的模型版本。使用以下模型设置,对于每个提示,有2到20个边界框传递给LLM-wrapper。
Grounding-DINO (GD) [22] 通过模态融合和对比学习将视觉 Query 与文本对齐。该模型最初设计用于无词汇检测任务,在REC任务上的召回率高但准确度低。作者提出了一种简单改进,即GDrec,在此过程中,而不是将每个框分配与任何 Query 词的最大相似分数,而是将 Query 的主题1的相似度分数分配给该框。GDrec在所有情况下(例如,未fine-tuned模型在P@1方面+7)都显着超过了GD在RefCOCOg上的性能,如表1所示。
为了限制 Proposal 框的数量,作者将框置信度分数阈值设置为0.15。未fine-tuned的GD / GDrec使用SwinT(T)背心和开源的fine-tuned版本(FT)基于SwinB(B)。作者还运行了使用Grounding-DINO 1.5[31](GD-1.5)进行初步实验的尝试(在线访问: Grounding-DINO-1.5-API)。GD-1.5将GD扩展到更大的背心,ViT-L来自[13],并增加了训练数据集。
Florence-2 (Flo2) [39]是一个序列到序列的多任务模型。作者使用Hugging Face Hub上的Florence-2 Large版本。它由一个DaViT视觉编码器[8]和多模态编码器-解码器组成。Flo2可以对多个任务进行提示,并保留和连接 '目标检测' 和 '短语定位' 任务模式中的框。
3.1.3 The LLMs and their fine-tuning
作者使用两种不同的预训练语言模型(LLMs)来评估LLM-wrapper:Mikrtal 8x7B Instruct [16](v0.1)和Llama 38 Bsh Instruct [1] ,均为Hugging Face实现的。为了实现高效的微调推理,作者采用了LoRA [15]('rank' ,'relevance_weighting' )、Hugging Face的带监督微调 Pipeline (SFT) [12]、flash attention [6] 和 4-bit-quantization [7]。这些选择使得LLM-wrapper可以在单张40GB-A100 GPU上进行训练。
作者将作者的LLMs进行单epoch训练,并使用4个批处理大小进行训练。收敛时间约为 个样本,如图2所示,并在第3.3节进行讨论。
将不同的VLMs集成到一起。 作者在表2中研究了使用LLM-wrapper从不同VLMs处获得的集成输出的影响。结果表明,当将GDrec和Flo2进行集成时,与使用最佳性能的VLM(通过LLM-wrapper调整)获得的结果相比,得分提高了+3.0 P@1(val-umd)和+2.1 P@1(test-umd)。这表明LLM-wrapper可以在多个来源上进行推理并学会利用不同模型的优势。
Analysis
在VLMs之间迁移LLM-wrapper 。在表3中,作者证明了LLM-wrapper可以在VLMs之间良好地迁移。例如,在GDrec的或Flo2的输出上进行微调,然后在另一个模型的输出上进行推理时的迁移,使其从零样本VLMs的+5.6增加到+6.3 P@1。这表明在作者微调期间,LLM-wrapper学习了适用于其他模型的空间和语义概念。这在私有模型(如GD-1.5[31])中尤其有趣,因为创建训练集可能非常昂贵;例如,仅获得训练集预测将需要≈ $1,600(每个API调用约为20)。作者对仅对应300个免费API请求的val-umd的受限制子集进行了实验,该子集对应于GD-1.5。
作者发现,使用在GDrec的输出上调优并用于推理GD-1.5的输出时,使用LLM-wrapper boosts结果显著+29.0 P@1。作者的方法甚至在与零样本LLM进行推理时,在GD-1.5的输出上达到+11.3的P@1提升。
训练动态 。图2显示了LLM-wrapper在RefCOCOg上的性能演变,相对于观看的样本数量,在微调Llama 3的同时。它显示了在所有VLMs(尤其是对GD印象最深刻)上的P@1在第一30,000个样本(在作者的设置中需要2小时到2小时30分钟训练)中急剧增加。因此,即使在有限数量的样本情况下,LLM-wrapper也可以提升性能。
此外,在没有任何微调之前,LLM-wrapper使用Llama 3的测试结果与非定制VLMs(P@1为58.05_vs._60.09的GD,67.48_vs._67.61的GDrec和67.69_vs._68.28的Flo2在val-umd上)具有可比性,因此表明作者的零样本LLM在选择良好矩形方面几乎与VLM一样好。
直觉 。在图3中,作者对比了Flo2和LLM-wrapper在Fl2上操作的输出(Llama 3微调)的结果。图3(a&b)显示LLM-wrapper在空间和关系推理上的优势,图3(c)显示LLM-wrapper可以更好地识别 Query 的主题。
局限性 。图3(d)显示了LLM-wrapper的一个典型错误案例,其中缺少LLM进行正确回答所需的详细信息:由于以框坐标形式提供的视觉信息缺乏可以允许LLM正确回答的详细信息,因此无法知道哪些面朝哪个方向。此外,作者的方法在VLMs预测出足够多样化的精确定位框,覆盖了所需的大部分元素时,工作效果最佳。
4 Conclusion
本工作引入了LLM-wrapper,一种使用LLM适应视觉语言基础模型的全新方法。
LLM-wrapper利用LLMs的强大推理能力,以黑盒形式显著提高了现成的VLMs的性能。
作者还展示了如何将来自不同VLMs的预测结果集成为一,以利用各自的优势。得益于有效的、经过良好研究的LLM fine-tuning方法,LLM-wrapper在实践中简单易用且计算高效。
未来的工作包括使用这种新适应方法来解决其他任务,如[40]描述性目标检测。
参考
[1].LLM-wrapper: black-box semantic-aware adaptation of.