Bengio 团队多模态评测，CogVLM2 开源第一 - 文章 - 开发者社区

picture.image

对于视觉缺失信息的认知补全，是人类视觉认知的一项重要能力，同时也是考察视觉模型对图像理解程度的一个重要因素。

近日，图灵奖得主 Yoshua Bengio 团队，针对这一问题，提出了一项全新的视觉理解评测—— 视觉字幕恢复 (VCR) ，专门用于评估视觉语言模型（VLMs）恢复图像中模糊文本的能力。

以下图为例：

picture.image

根据图片信息，填补被遮挡的文字。 解决这类问题，对于人类来说，表面上看似乎并不困难，其实却需要复杂的推理过程。而传统 OCR 在这类问题中则会完全失效。

因此，视觉语言模型，是否能够解决这类问题，以及解决程度如何，事实上代表着模型是否真正具备了视觉认知和推理能力。

Bengio 等人在这项研究中，选择了目前市面上最主流的 20 个开源/闭源视觉语言模型，进行评测。

测试结果表明，在所测试模型中， CogVLM2 在开源模型中表现最佳，GPT-4o 在所有模型中达到了 SOTA。

picture.image

特别是在中文模式中， 除 CogVLM2 和 GPT-4o 之外，其他模型的测试结果基本上都为个位数或接近 0。

picture.image

Why VCR？

近来，VLMs 在多模态应用领域取得了显著的进步。然而，现有的多模态评估基准测试在跟踪 VLMs 发展方面依然存在不足，无法公平、公正地评估各家 VLMs 的真实能力。现有模型虽然能识别图像中的物体和文本，但由于信息丢失严重，处理遮挡物体的复杂性仍有困难。

相比之下，人类利用低级视觉处理和高级认知功能（如前额叶皮层）填补缺失信息，前额叶皮层处理决策和记忆等复杂认知过程，将碎片化的视觉输入整合成连贯对象。 VCR 可以作为区分低级识别和高级认知的探针 ，并启发新算法，在动态、真实世界条件下模仿人类的感知和解释能力。

此外，VCR 通过遮挡文本而非常见的视觉物体，测试模型的文本图像对齐能力，这对 VLMs 是主要挑战之一。

VCR 要求模型模仿人类理解的方式对齐文本和视觉信息，利用文本和视觉线索，视觉图像（VI）、嵌入图像中的文本（TEI）和跨模态的上下文解释，超越了 OCR 的简单文本提取。这不仅测试模型处理 TEI-VI 模态的能力，还挑战其保持内部一致性的能力，类似于人类利用上下文和视觉线索理解和响应的过程。通过调整文本遮挡的程度，可以调整任务难度，提供一个可扩展的框架，系统地增强模型在文本视觉对齐和语义理解方面的能力，有助于发展视觉语言模型，更好地理解文本和图像之间的微妙关系。

What VCR？

在这项研究中，Bengio 团队提出了三个 VCR 测试的关键点：

视觉与文本的融合： VCR 要求模型能够将视觉信息和文本信息相结合，并理解文本嵌入图像中的独特特征，这与常见的视觉元素和自然语言存在差异。
复杂认知过程： VCR 模拟人类通过复杂的视觉和认知过程来识别部分遮挡物体的能力。这需要模型能够利用低级视觉处理和高级认知功能，如推理和记忆，来填补信息空白。
文本-图像对齐： VCR 强调文本和图像之间的对齐，这是视觉语言模型面临的主要挑战之一。模型需要有效地处理文本-图像模态，并利用文本和视觉线索来准确恢复遮挡内容。

VCR 任务要求将 VI 与 TEI 对齐。因此，研究团队创建了一个名为 VCR-WIKI 的数据集，从维基百科获取主要图像及其对应的说明。

VCR-WIKI 数据集被设计为 VQA 任务，每个实例包括一个图像、一个问题和一个标准答案。图像通过将图像与其对应的文本描述垂直堆叠而成。为了避免图像过高，团队将 TEI 截断为最多五行，并排除那些高度超过 900 像素的实例。

picture.image

图 | VCR-WIKI 的流程

研究团队使用 spaCy 随机选择若干 5-grams 进行掩盖，确保被掩盖的文本不超过说明文本的 50%。选择的 5-grams 通过白色矩形部分遮盖，只露出文本的上部和下部，以调整任务难度。

VCR 任务包含一个预定义的问题，要求模型生成图像中被遮盖的文本。标准答案对应于未遮盖部分显示的说明。研究团队在英文和中文两种语言中开发数据集，并创建了两种任务变体：

简单版本：该版本对于母语者来说很容易，但开源 OCR 模型几乎总是失败；
困难版本：其中揭示的部分对于大多数字母或字符仅由一到两个像素组成，但恢复任务对于该语言的母语者来说仍然是可行的。

VCR 数据集包含四种配置：英文简单、英文困难、中文简单和中文困难。每种配置都可以进一步分为训练集、验证集和测试集。验证集和测试集各包含 5000 个实体。英文配置和中文配置的训练集分别包含 2095733 和 336448 个实例，可用于模型的持续预训练。

picture.image

图 | 数据集的基本统计信息。

Results

研究团队测试了几个最先进的专有模型及其提供的 API，还评估了在 OpenVLM Leaderboard 上表现最佳的开源模型和最先进的中文 VLM 模型。完整测试结果如下。

picture.image

图 | 各种开源和闭源 VLMs 在 VCR 任务上的结果。

对于不同的语言，研究团队注意到在测试中文配置时模型性能大幅下降，尽管所有模型都声称具有基本的英汉双语能力。在英文配置中，闭源模型的表现优于所有开源模型，除了 CogVLM2 以外，表明模型缩放可能有助于提升 VCR 任务的性能。

值得注意的是，对于大多数模型而言，VI 对准确匹配分数有负面影响（∆ < 0），这意味着图像信息未被正确利用。表现最好的开源模型 CogVLM2-Llama3-Chat 及其微调版本在除中文困难配置外的所有配置中都有正的 ∆，这表明 VI 的信息可以帮助提高模型在 VCR 任务中的表现。

研究团队还对人类 VCR 能力进行了测评。

picture.image

图 | 人的评价结果对 VCR 任务来说是完全匹配的。

根据图表信息，如果考虑包含时间、地名、人名的错误，人类在简单难度下的中文平均正确率约为 98.58%，在困难难度下的中文平均正确率约为 91.84%。而去掉这些因为时间、地名、人名的错误，人类在简单难度的中文下几乎接近满分，而中文困难难度下正确率也达到了 96.63%。可以看出，VCR 任务对于人类而言是非常简单的。

<··················>

picture.image