大模型 - 逆向思维

大模型向量数据库机器学习

论文笔记分享,标题:Reverse Thinking Makes LLMs Stronger Reasoners

逆向思维,有点像数据增强的回译。 数据链路是从用户问题 -> 推理链路 -> 推测问题 -> 推测问题的推理链路。

picture.image

与仅对正确的 Q→A 对进行微调的标准蒸馏方法不同,这里使用教师模型生成反向问题和反向推理来增强数据。

因此,学生模型从 Q→A 和 A→Q 两个方向学习,实现了 13.53%的提升。

picture.image

一个例子,来自ARC-challenge的一个问答对:

  • Q: 以下哪一个是物理变化的例子?
  • A:(B)打破玻璃 (因为其他的是化学变化)

逆向问题:

  • Q:玻璃为什么会破碎?
  • A:(A)施加物理力

picture.image

使用三个目标训练学生模型:

  1. 针对问题,生成正向推理
  2. 针对这个问题,生成一个反向问题
  3. 给定逆向问题,生成逆向推理

picture.image

在 8 个数据集上,RevThink 分别使用 Mistral 和 Gemma 优于最佳蒸馏baseline 6.44%-6.97%,优于最佳数据增强baseline 4.52%-5.74%。此外,RevThink 在(常识、数学、表格、NLI、逻辑)任务上得到了持续的提升。picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论