Bengio 团队多模态评测,CogVLM2 开源第一

picture.image

对于视觉缺失信息的认知补全,是人类视觉认知的一项重要能力,同时也是考察视觉模型对图像理解程度的一个重要因素。

近日,图灵奖得主 Yoshua Bengio 团队,针对这一问题,提出了一项全新的视觉理解评测—— 视觉字幕恢复 (VCR) ,专门用于评估视觉语言模型 (VLMs)恢复图像中模糊文本的能力。

以下图为例:

picture.image

根据图片信息,填补被遮挡的文字。 解决这类问题,对于人类来说,表面上看似乎并不困难,其实却需要复杂的推理过程。而传统 OCR 在这类问题中则会完全失效。

因此,视觉语言模型,是否能够解决这类问题,以及解决程度如何,事实上代表着模型是否真正具备了视觉认知和推理能力。

Bengio 等人在这项研究中,选择了目前市面上最主流的 20 个开源/闭源视觉语言模型,进行评测。

测试结果表明,在所测试模型中, CogVLM2 在开源模型中表现最佳,GPT-4o 在所有模型中达到了 SOTA。

picture.image

特别是在中文模式中, 除 CogVLM2 和 GPT-4o 之外,其他模型的测试结果基本上都为个位数或接近 0。

picture.image

Why VCR?

近来,VLMs 在多模态应用领域取得了显著的进步。然而,现有的多模态评估基准测试在跟踪 VLMs 发展方面依然存在不足,无法公平、公正地评估各家 VLMs 的真实能力。现有模型虽然能识别图像中的物体和文本,但由于信息丢失严重,处理遮挡物体的复杂性仍有困难。

相比之下,人类利用低级视觉处理和高级认知功能(如前额叶皮层)填补缺失信息,前额叶皮层处理决策和记忆等复杂认知过程,将碎片化的视觉输入整合成连贯对象。 VCR 可以作为区分低级识别和高级认知的探针 ,并启发新算法,在动态、真实世界条件下模仿人类的感知和解释能力。

此外,VCR 通过遮挡文本而非常见的视觉物体,测试模型的文本图像对齐能力,这对 VLMs 是主要挑战之一。

VCR 要求模型模仿人类理解的方式对齐文本和视觉信息,利用文本和视觉线索,视觉图像(VI)、嵌入图像中的文本(TEI)和跨模态的上下文解释,超越了 OCR 的简单文本提取。这不仅测试模型处理 TEI-VI 模态的能力,还挑战其保持内部一致性的能力,类似于人类利用上下文和视觉线索理解和响应的过程。通过调整文本遮挡的程度,可以调整任务难度,提供一个可扩展的框架,系统地增强模型在文本视觉对齐和语义理解方面的能力,有助于发展视觉语言模型,更好地理解文本和图像之间的微妙关系。

What VCR?

在这项研究中,Bengio 团队提出了三个 VCR 测试的关键点:

  • 视觉与文本的融合: VCR 要求模型能够将视觉信息和文本信息相结合,并理解文本嵌入图像中的独特特征,这与常见的视觉元素和自然语言存在差异。
  • 复杂认知过程: VCR 模拟人类通过复杂的视觉和认知过程来识别部分遮挡物体的能力。这需要模型能够利用低级视觉处理和高级认知功能,如推理和记忆,来填补信息空白。
  • 文本-图像对齐: VCR 强调文本和图像之间的对齐,这是视觉语言模型面临的主要挑战之一。模型需要有效地处理文本-图像模态,并利用文本和视觉线索来准确恢复遮挡内容。

VCR 任务要求将 VI 与 TEI 对齐。因此,研究团队创建了一个名为 VCR-WIKI 的数据集,从维基百科获取主要图像及其对应的说明。

VCR-WIKI 数据集被设计为 VQA 任务,每个实例包括一个图像、一个问题和一个标准答案。图像通过将图像与其对应的文本描述垂直堆叠而成。为了避免图像过高,团队将 TEI 截断为最多五行,并排除那些高度超过 900 像素的实例。

picture.image

图 | VCR-WIKI 的流程

研究团队使用 spaCy 随机选择若干 5-grams 进行掩盖,确保被掩盖的文本不超过说明文本的 50%。选择的 5-grams 通过白色矩形部分遮盖,只露出文本的上部和下部,以调整任务难度。

VCR 任务包含一个预定义的问题,要求模型生成图像中被遮盖的文本。标准答案对应于未遮盖部分显示的说明。研究团队在英文和中文两种语言中开发数据集,并创建了两种任务变体:

  1. 简单版本: 该版本对于母语者来说很容易,但开源 OCR 模型几乎总是失败;
  2. 困难版本: 其中揭示的部分对于大多数字母或字符仅由一到两个像素组成,但恢复任务对于该语言的母语者来说仍然是可行的。

VCR 数据集包含四种配置:英文简单、英文困难、中文简单和中文困难。每种配置都可以进一步分为训练集、验证集和测试集。验证集和测试集各包含 5000 个实体。英文配置和中文配置的训练集分别包含 2095733 和 336448 个实例,可用于模型的持续预训练。

picture.image

图 | 数据集的基本统计信息。

Results

研究团队测试了几个最先进的专有模型及其提供的 API,还评估了在 OpenVLM Leaderboard 上表现最佳的开源模型和最先进的中文 VLM 模型。完整测试结果如下。

picture.image

图 | 各种开源和闭源 VLMs 在 VCR 任务上的结果。

对于不同的语言,研究团队注意到在测试中文配置时模型性能大幅下降,尽管所有模型都声称具有基本的英汉双语能力。在英文配置中,闭源模型的表现优于所有开源模型, 除了 CogVLM2 以外,表明模型缩放可能有助于提升 VCR 任务的性能。

值得注意的是,对于大多数模型而言,VI 对准确匹配分数有负面影响(∆ < 0),这意味着图像信息未被正确利用。 表现最好的开源模型 CogVLM2-Llama3-Chat 及其微调版本在除中文困难配置外的所有配置中都有正的 ∆,这表明 VI 的信息可以帮助提高模型在 VCR 任务中的表现。

研究团队还对人类 VCR 能力进行了测评。

picture.image

图 | 人的评价结果对 VCR 任务来说是完全匹配的。

根据图表信息,如果考虑包含时间、地名、人名的错误,人类在简单难度下的中文平均正确率约为 98.58%,在困难难度下的中文平均正确率约为 91.84%。而去掉这些因为时间、地名、人名的错误,人类在简单难度的中文下几乎接近满分,而中文困难难度下正确率也达到了 96.63%。可以看出,VCR 任务对于人类而言是非常简单的。

<··················>

picture.image

0
0
0
0
评论
未登录
暂无评论