MathScale: 提升大模型数学推理能力的数据集构造方法

增长营销数据中台大数据

        
          
https://arxiv.org/pdf/2403.02884.pdf  

      

picture.image

这篇文章介绍了一种名为MathScale的方法,使用前沿的大模型(如GPT-3.5)创建高质量的数学推理数据集。MathScale方法的核心思想是模仿人类数学学习的认知机制,通过以下几个步骤来生成新的数学问题和答案对:

  1. 概念提取(Concept Extraction)
  • 从现有的种子数学问题中提取高层次的概念,即主题(topics)和知识点(knowledge points)。
  • 使用GPT-3.5作为数学老师,通过prompt engineering来提取这些概念。
  • 目标是提取解决问题所需的元信息,如数学科目名称或教科书章节的主题名称(主题),以及更精细的数学概念(知识点),例如定理、技能等。
  • 概念图构建(Concept Graph Construction)
  • 使用提取的主题和知识点构建概念图,图中的节点代表主题和知识点。
  • 图中包含三种类型的边:主题到主题、主题到知识点、知识点到知识点,形成三个子图。
  • 通过计算共现统计来建立边的权重,即如果两个节点(主题或知识点)在种子问题中共同出现,则在它们之间建立边。
  • 数学推理数据生成(Mathematical Reasoning Data Generation)
  • 从概念图中随机采样主题和知识点,然后使用这些采样的概念来指导GPT-3.5生成新的数学问题和答案对。
  • 通过图随机游走算法来创建概念组合,然后基于这些组合生成问题。
  • 为了引导GPT-3.5正确构造问题,还包括了一些示例问题,这些示例问题基于知识点集的Jaccard距离从种子问题中选择。

picture.image

  1. 验证(Validation)
  • 由于新生成的问答对中可能存在错误答案,文章中尝试引入了一个额外的验证过程,即让GPT-4生成参考答案,然后验证这个答案是否正确。
  • 如果GPT-4认为原始答案不正确,则用新的GPT-4答案替换。但在最终的流程中,这个验证步骤被移除了,因为小规模实验表明这个步骤并没有改善结果。

picture.image

通过这种方法,作者成功创建了一个包含两百万数学问题-答案对的数据集(MathScaleQA),并用这个数据集对开源的大型语言模型(如LLaMA-2和Mistral)进行了微调,显著提高了它们在数学推理方面的能力。在MWPBENCH基准测试中,MathScale-7B模型在所有数据集上都取得了最先进的性能。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论