中科大 & 阿里开源 GeoGPT4V 数据集，提升了各种类型和模型的跨模态几何能力！

picture.image

大型语言模型在数学问题解决中得到了广泛应用。然而，在通常需要视觉辅助以更好地理解的几何问题中，即使是目前最先进的多模态模型仍然在有效利用图像信息方面面临挑战。

高质量数据对于提升多模态模型的几何能力至关重要，但现有的开源数据集及相关努力要么对直接模型学习来说过于困难，要么存在文本与图像之间的不对齐问题。

为了解决这个问题，作者引入了一个新颖的流程，利用GPT-4和GPT-4V生成相对基础的几何问题，并配对文本和图像，以促进模型学习。

作者已经制作了一个包含4.9K个几何问题的数据集，并将其与1.9K个开源数据结合形成了作者的GeoGPT4V数据集。

实验结果表明，GeoGPT4V数据集在MathVista和MathVision基准测试上显著提高了各种模型的几何性能。

代码可在https://github.com/Lanyu0303/GeoGPT4V\_Project获取。

1 Introduction

随着大型语言模型（LLM）展现出强大的性能，其在解决数学问题方面的应用变得越来越流行（Toshniwal等人，2024年；Wang等人，2023年；Gou等人，2023年；Wang等人，2023a年）。先前的研究表明，人类在没有视觉辅助的情况下解决几何问题时，准确性会显著降低（Chen等人，2021年）。因此，将图像中的视觉信息整合进来对于准确解决这类数学问题至关重要，这需要多模态大型语言模型（MLLM）的视觉感知能力。然而，即使是现在可用的最好的MLLM，Gemini 在几何能力方面仍显著落后于人类表现。因此，研究行人正急于探索提升MLLM几何能力的方法。

为了增强MLLM的几何能力，一个重要的步骤是构建相应的高质量数据。然而，目前的数据通常存在两个主要问题。一方面，大多数开源数据集都相当有挑战性，使得模型难以直接从中学到几何能力。例如，UniGEO 数据集包含从高中教材中提取的问题，但模型尚未接触到相应的的基础知识。另一方面，当前的数据增强技术（Gao等人，2023年），例如使用ChatGPT-3.5调整文本中的数值，未能将这些变化与图像中相应的值协调一致。因此，修改后的文本与图像之间的不匹配可能会迷惑模型并阻碍其学习过程。

在本文中，作者通过引入一种简单高效的生成几何问题数据的 Pipeline 来解决上述问题。

作者的目标有两个：

（1）创建有助于模型获取基本几何概念的几何问题；

（2）确保生成的几何问题的图像和文本良好对齐。具体来说，作者首先使用GPT-4V根据开源数据集创建简化版的几何问题集。随后，作者利用GPT-4（OpenAI，2023a）为之前编造的每个几何问题生成个单独的Wolfram1代码。执行这些代码后，会生成个不同的几何图像。

最后，作者使用GPT-4V为这些图像打分，使作者能够选择与相关文本描述最佳对齐的最佳图像。通过上述 Pipeline ，作者生成了一个包含4.9K几何问题的数据集，这些问题的特点是简单且图像文本匹配。

然后，作者将生成的问题与开源数据集中的19K问题混合，制定了一个难度均匀的数据集，命名为GeoGPT4V。作者在MathVista [14]和MathVision [27]数据集的几何问题子集上进行了全面实验，这两个数据集是常用的多模态数学数据集。

实验结果表明，经过作者的数据集训练后，各种大小和类型的模型在几何能力方面都能取得显著提升（在MathVista的Geometry problem solving (GPS) minitest分割上，LLaVA-1.5-7B [15]和ShareGPT4V-7B [16]分别实现了58.2%和33.8%的相对提升），这验证了作者的方法的有效性。

总之，本文的贡献总结如下：

作者首次引入了一种能够自动生成简单几何数据并配对对齐图像文本的 Pipeline 。
作者开源了通过作者的 Pipeline 生成的4.9K数据集，以及训练在GeoGPT4V上的模型的预训练权重，以促进社区的发展和进步。
大量实验一致表明，GeoGPT4V有效地提升了各种类型和大小的模型的跨模态几何能力。

2 Related Work

在本节中，作者从两个方面深入探讨了相关研究：多模态大型语言模型和数学问题解决。

多模态大型语言模型。随着LLM（大型语言模型）的迅速发展，研究界开始开发这些模型的多模态扩展，称为MLLMs[1, 15, 16]。这些MLLMs将视觉信息与语言数据相结合，显著提升了其能力。诸如GPT-4V[12]，Gemini[18]，和Qwen-VL-Max[15]等闭源模型在图像理解和认知任务上展现了卓越的技能。对于开源模型，LLaVA[15, 16]利用线性投影连接视觉编码器和语言模型，在多模态任务上取得了令人称赞的表现。基于LLaVA架构，ShareGPT4V[16]采用高质量的教学数据进一步增强了模型能力。此外，InternVL-Chat[15]将其视觉编码器扩展到60亿个参数。InternLM-XComposer2[13]在自由形式的文本图像组合和理解方面表现出色。尽管这些MLLMs展现了强大的视觉能力，但在数学问题解决方面，MLLMs仍面临挑战，如近期研究所指出的。

数学问题解决。LLM在推理能力上的卓越表现促使研究行人利用它们来解决数学问题。在纯文本的数学任务领域，WizardMath[14]通过向下和向上的指令进化过程改进指令，从而提高模型性能。MetaMath[28]通过引导数学问题并从不同角度重写问题来提高理解和解决问题的能力。然而，正如先前研究所发现的，当人类在没有图像的情况下解决几何问题时，其准确性会显著下降[16]。

因此，几何问题需要多模态模型的视觉感知能力来充分理解和解决。UniGeo[16]通过从高中教科书中编译几何问题，并引入统一的多任务几何 Transformer 框架，以序列生成的形式同时解决计算和证明问题。G-LLaVA[15]利用ChatGPT-3.5创建几何问题-答案对，并重写问题中的文本内容。然而，这种仅通过文本重写的方法可能导致图像和文本之间的不一致，使模型产生不正确或不切实际的输出。这突显了在多模态数学问题解决中，持续对齐文本和视觉信息的挑战。

3 Method

在本节中，作者将详细阐述作者构建的处理流程。作者处理流程的概述如图1所示。具体来说，作者的流程包括：(1)生成新的问答对（第SS3.1节），(2)生成相应的几何图像（第SS3.2节），以及(3)基于图像-文本匹配度进行评分和过滤（第SS3.3节）。

picture.image

正式地说，来自开源数据集的原始数据可以表示为，其中代表问题，代表答案，代表图像。

Question-Answer Pairs Generation

由于开源数据集中普遍存在更复杂的几何问题，为了便于作者的模型学习基本的几何概念，作者最初简化这些难题以生成更容易的几何问答（QA）对。

具体来说，作者利用GPT-4V OpenAI（2023）从数据集生成QA对。作者指导GPT-4V根据原始几何QA对编写简化问题，以获得包含基本几何概念的QA对。具体来说，作者提示GPT-4V考虑以下三个角度：（1）生成前置问题，（2）生成子问题，（3）将答案中的结论融入问题的条件中，这样可以降低问题的复杂性。为了防止GPT-4V生成相同的简化问题，作者还要求GPT-4V尽可能生成多样化的问题。此外，为了提高效率，指令还要求GPT-4V生成图像的文字描述，以支持后续的图像生成阶段。详细的提示可以在附录C.1中找到。

在实践中，作者基于单个原始数据点生成（）个新的数据点，以提高效率和降低API成本。经过这个阶段，作者获得的数据可以正式表示为，其中代表图像描述。### 几何图像生成

需要强调的是，新生成的QA对可能与原始图像不直接对应，这可能会损害模型的学习过程。为了确保文本内容与视觉方面的连贯性，产生与生成的QA对相匹配的新图像至关重要。为了解决这个问题，作者采用了Wolfram，这是一款强大的软件工具，能够执行代码以生成几何图像。

具体来说，作者利用GPT-4[1]根据数据集生成Wolfram代码。首先，作者将问题、答案和图像描述作为提示输入到GPT-4以生成Wolfram代码。在生成过程中，作者指导GPT-4在代码中明确命名所有变量，目的是为了更清晰地理解，并帮助GPT-4识别代码元素与给定问题之间的关系。详细的提示可以在附录C.2中找到。最后，作者执行Wolfram代码，生成新的图像。

在实践中，作者发现使用GPT-4生成代码不稳定。因此，作者从相同的数据生成（）个不同的代码，以增加获得正确代码的概率。因此，作者可以得到与个代码相对应的个不同图像。它可以表示为，其中代表为每个问题生成的第个图像。

Scoring and Filtering

在为每个问题使用Wolfram生成张图像后，作者需要选择最适合的一张作为作者数据集中的最终图像。

具体来说，作者采用GPT-4V为每个问题的生成图像与问题本身之间的对应程度分配一个从0到1的分数；分数越高，表示对齐度越强。为了增强GPT-4V的评分能力，作者从思维链[20]中获得灵感，指导GPT-4V在确定最终分数之前，阐述其评估背后的推理。详细的提示可以在附录C.3中找到。

最后，对于每个与个不同生成图像相关的问题，作者得到个相应的分数。对于每个问题，作者保留分数最高的图像作为。请注意，如果这个分数小于0.9，作者认为这个问题的图像生成得不够好，作者将丢弃这个问题。因此，作者编制了一个数据集，其中包含的问题更简单，图像与关联文本之间的对齐度更强。

4 Data Analysis

在本节中，作者将对作者的 Pipeline 生成的数据集进行全面的统计分析（第SS4.1节）和评估（第SS4.2和SS4.3节）。

Datasets

在本研究中，为了最小化成本，作者从UniGEO-Proving[13]，Geometry3K[15]，和GeoQA[13]的训练集中选择了前1500个样本，创建了UniGEO-Proving_Enhanced，Geometry3K_Enhanced和GeoQA_Enhanced，以验证作者方法的有效性。随后，作者将生成的几何问题与开源数据集的问题相结合，包括ChartQA[11]，UniGEO-Calculation[13]，原始的Geometry3K[15]，和GeoQA+[14]，形成了一个难度 Level 统一的新数据集，称为GeoGPT4V。数据集的详细分解在表1中提供。

picture.image

Difficulty Evaluation

正如第SS3节所提及，作者的 Pipeline 将原始数据作为输入并输出生成数据。作者的目标是生成比原始数据更容易的数据，以便促进模型对基本几何知识的学习。本节通过比较和的难度 Level 来展示作者 Pipeline 的有效性。作者从形成一个数据对开始，并使用GPT-4V来评估数据点的相对难度。为了减轻由于呈现顺序导致GPT-4V可能产生的偏差，作者还考虑了对数据点顺序进行交换后得到的对。如果GPT-4V基于和产生不同的输出，作者得出和的难度是相等的。

在实际操作中，作者随机抽取了500对生成数据及其对应的原始数据点。图1(a)中的结果显示，超过80%的生成数据集中的问题难度与原始问题相同或更低。这表明作者的 Pipeline 成功地生成了比原始数据集更简单的数据。

Image-text Matching Evaluation

正如在前一部分提到的，文本和图像之间的对齐是几何问题数据的一个关键方面。为了说明生成的图像比原始图像更适合简化问题，作者将每个问题的生成图像替换为原始图像，从而得到新的数据集。因此，在本节中，作者将比较作者生成数据集与以及之前方法生成的QA数据集 - G-LLaVA [1] 之间的图像-文本匹配程度。与第SS3.3节中的评分函数类似，作者使用GPT4-V来评分图像和问题之间的对齐程度。

具体来说，作者从每个数据集中随机选择了500个数据点，并在图1(b)中展示了三个数据集的平均分数。结果显示，作者生成的数据集在图像-文本匹配程度上显著高于以及由G-LlaVA增强的数据集（为0.9636，为0.7276，G-LlaVA为0.6754）。此外，观察到G-LlaVA的图像-文本匹配分数最低，这证实了作者的假设，即简单扩大问题中数字的大小是一种不恰当的方法。

5 Experiment

在本节中，作者进行实验以回答以下研究问题（RQ）：

RQ1 ：GeoGPT4V数据集能否提高不同模型的几何能力？
RQ2 ：对于模型学习来说，生成的图像是否优于原始图像？
RQ3 ：对生成的图像进行评分和过滤是否必要？
RQ4 ：改进仅仅是由于原始数据集吗？

Experimental Setup

基准测试。作者使用了两种广泛应用的基准测试，它们包含了许多多模型几何问题，以评估作者提出的GeoGPT4V数据集的有效性。这些基准测试的详细信息如下：

图2：数据分析结果。此图表展示了作者数据集的简单性和图像-文本匹配属性。图（a）是生成数据和原始数据难度对比的图表。“更容易”表示生成数据比原始数据简单；“更难”表示生成数据比原始数据难；“相等”表示生成数据和原始数据难度相同。图（b）展示了三种数据类型的平均图像-文本匹配分数。“生成图像”代表作者生成的数据。“原始图像”代表在生成数据中将生成图像替换为原始图像获得的数据。

picture.image

MathVista [15] 是一个视觉环境下的数学推理基准。它包括多种视觉背景，如自然图像、几何图表、图表等。MathVista 包含多项选择题和开放式问题。MathVista 测试集包含5141个没有真实答案的示例，并提供1000个有真实答案的示例，称为 MathVista 测试迷你版。
MathVision [23] 是一个比 MathVista 更具挑战性的多模态数学基准。它将所有数学问题分为五个难度 Level 和16个不同任务。MathVision 也包括多项选择题和开放式问题。MathVision 测试集包含3040个有真实答案的示例。

评估方法。作者严格遵循 MathVista [14] 和 MathVision [23] 提出的评估方法。首先，作者使用 ChatGPT-3.5 从 MathVista 的模型输出中提取最终回应，而使用正则表达式处理 MathVision 的输出以实现相同目的。因此，作者将答案的准确率作为性能评估的得分。

Baseline 模型。作者使用作者提出的 GeGPT4V 数据集训练以下主流的开源模型，模型大小包括7B、13B 和 40B。

LLaVA-1.5 [14, 15] 使用线性层连接视觉编码器和大语言模型（LLM）。在预训练阶段，LLaVA-1.5 保持视觉编码器和LLM冻结状态，只训练线性层。在微调阶段，它冻结视觉编码器并训练线性层和LLM。 ShareGPT4V [1] 的架构与LLaVA类似。然而，在ShareGPT4V的预训练阶段，视觉编码器和语言模型都不冻结。训练数据是由GPT-4V生成的高质量、详细描述数据。 InternVL-Chat-V1.2-Plus [1] 使用InternViT [1] 作为其视觉编码器，拥有60亿个参数。更重要的是，它将LLM扩展到34B，并使用了一个包含120万个样本的微调数据集。

实施细节。对于数据生成，作者使用OpenAI提供的“gpt-4-vision-preview”和“gpt-4-1106-preview”API进行GPT-4V和GPT-4。对于模型训练，所有模型都在NVIDIA A100 GPUs上使用PyTorch 2.0.1版本进行训练。为了确保公平比较，作者保持了训练参数与模型原作者指定的参数一致，并训练模型一个周期。

主要结果（RQ1）

作者在GeoGPT4V数据集上训练后，在MathVista测试小型（简称MathVista）和MathVision测试（简称MathVision）基准上评估了各种开源模型的性能，以展示作者提出方法的有效性。为了方便，作者在模型名称后附加“-G”后缀，以表示在GeoGPT4V数据集上训练的模型，如“LLaVA-1.5-G”。由于作者的方法关注几何数据，作者在表2中展示了与几何相关的所有任务的详细分数以及这些任务的平均分数。完整的分数集可以在附录D.1和D.2中找到。在附录D.3中，作者比较了作者的最佳模型InternVL-Chat-V1.2-Plus-GeoGPT4V与其他开源和闭源模型的几何能力。

picture.image

表2的实验结果表明，作者的数据集可以有效提升不同模型的几何能力。首先，作者提出的GeoGPT4V在MathVista和MathVision基准测试的所有几何相关任务上的平均分数都有所提高，表明GeoGPT4V可以增强模型的通用几何性能。此外，作者提出的GeoGPT4V为这两个基准测试中的大多数几何相关任务带来了改进，涵盖了所有规模和类型的模型。此外，作者的GeoGPT4V显著缩小了开源模型和闭源模型之间几何能力的差距，除了已经使用了大量定制微调数据集的InternVL-Chat-V1.2-Plus。

In-depth Analysis

为了全面分析GeoGPT4V的有效性，作者从各个角度设计了一系列分析实验。首先，作者从生成新几何图像的有效性和使用GPT4V分数选择生成图像的角度设计了消融实验。随后，作者进行了实验，以证明GeoGPT4V带来的显著性能提升是源自生成数据，而非开源数据的利用。由于资源和空间限制，作者在分析实验中使用了LLaVA-1.5-7B，并在MathVista和MathVision上进行评估。

5.3.1 Effect of Generating New Images (RQ2)

作者通过用其原始图像替换在GeoGPT4V中生成的图像，并在它们上面训练模型，来验证新产生的几何图像的有效性。具体来说，作者首先将GeoGPT4V新产生的图像替换为原始图像，同时保留生成的简化问题，构建了一个新数据集，记为。随后，作者在上训练LLaVA-1.5-7B模型，并将其几何能力与在GeoGPT4V上训练的模型进行比较。

根据表3所示的结果，作者有以下观察：首先，在上训练的模型性能不如在GeoGPT4V上训练的模型，表明了新产生的图像的有效性。其次，在上训练的模型比没有使用训练的模型表现出更好的性能，从而验证了作者 Pipeline 生成的更容易的QA对的效力。

picture.image

5.3.2 Is Scoring Necessary? (RQ3)

正如在第SS3.3节中提到的，对张图像进行评分，从这组中选择得分最高的图像。为了证明评分的必要性，作者通过直接修改构建了一个新数据集。根据表3所示的结果，作者可以发现，在上训练的模型与在GeoGPT4V上训练的模型相比，表现较差。这些结果表明，通过排名获得的图像质量优于随机选择的图像。

5.3.3 Are the Open-source Datasets Enough? (RQ4)

为了证明GeoGPT4V带来的性能提升不仅仅依赖于开源数据，作者比较了使用不同组合的开源数据和作者生成数据训练的模型的性能。具体来说，如表格4所示，作者构建了三个 Level 的数据集。首先，作者将所有开源数据集组合在一起形成“基础”数据集。随后，作者将“基础”数据集中的原始数据替换为作者 Pipeline 生成的数据，形成了“替换”数据集。最后，作者将生成的数据与“基础”数据集中的所有数据混合，形成了“混合”数据集。值得注意的是，GeoQA是GeoQA+的一个子集。因此，在这三个数据集设置中，作者只使用GeoQA+，而不是同时使用GeoQA+和GeoQA。

作者在这三个数据集上分别对LLaVA-1.5-7B进行微调，并在表格5中评估它们的性能，观察结果如下：尽管使用开源数据构建的“基础”数据集提供了适中的几何能力，但作者的“替换”和“混合”数据集在几何性能上的提升甚至更为显著。这不仅证明了作者 Pipeline 生成的数据的有效性，也表明GeoGPT4V带来的改进并不单纯来源于开源数据。

6 Conclusion

在本研究中，作者提出了一种新颖的流程，旨在增强MLLMs的几何能力。作者提出了针对涉及问题简化和生成与新生成文本匹配的图像的多模态几何任务的数据生成方法。具体来说，作者使用GPT4V和GPT4为给定的几何任务生成子问题或前置问题，并生成相应的Wolfram代码，该代码可以执行以生成几何图像。基于这一流程，作者生成了4.9K个简化和图像-文本匹配的几何问题。作者将生成的数据与19K个开源数据混合，制定了一个难度均匀的数据集，命名为GeoGPT4V。在GeoGPT4V数据集上训练后，各种模型在MathVista和MathVision基准测试上的几何分数都有所提高。广泛的实验结果证明了GeoGPT4V数据集的有效性。作者已经开源了GeoGPT4V数据集以及在GeoGPT4V数据集上训练的模型的预训练权重，旨在促进社区的发展。

限制

本文关注于几何图像的生成。作者使用GPT-4生成Wolfram代码，该代码可以执行以生成图像。然而，这种方法不稳定，可能导致图像质量较差。这就是为什么作者使用GPT-4V对图像进行评分，这导致了更多的API调用和成本增加。

更重要的是，本文仅考虑简化开源几何问题。然而，生成更复杂的问题也值得考虑，因为它将生成更复杂的几何图像，并帮助模型提高复杂推理能力。作者未来的工作将探索更准确生成复杂几何图像的方法。

最后，多模态数学不仅限于几何问题。它还包括如图表问题回答和函数问题回答等任务。生成更丰富的图表和函数图像也是作者未来探索工作的一部分。

参考

[1].GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation.

中科大 & 阿里 开源 GeoGPT4V 数据集，提升了各种类型和模型的跨模态几何能力！

1 Introduction

2 Related Work

3 Method

Question-Answer Pairs Generation

Scoring and Filtering

4 Data Analysis

Datasets

Difficulty Evaluation

Image-text Matching Evaluation

5 Experiment

Experimental Setup

In-depth Analysis

5.3.1 Effect of Generating New Images (RQ2)

5.3.2 Is Scoring Necessary? (RQ3)

5.3.3 Are the Open-source Datasets Enough? (RQ4)

6 Conclusion

参考