论文笔记分享,标题:Reverse Thinking Makes LLMs Stronger Reasoners
逆向思维,有点像数据增强的回译。 数据链路是从用户问题 -> 推理链路 -> 推测问题 -> 推测问题的推理链路。
与仅对正确的 Q→A 对进行微调的标准蒸馏方法不同,这里使用教师模型生成反向问题和反向推理来增强数据。
因此,学生模型从 Q→A 和 A→Q 两个方向学习,实现了 13.53%的提升。
一个例子,来自ARC-challenge的一个问答对:
- Q: 以下哪一个是物理变化的例子?
- A:(B)打破玻璃 (因为其他的是化学变化)
逆向问题:
- Q:玻璃为什么会破碎?
- A:(A)施加物理力
使用三个目标训练学生模型:
- 针对问题,生成正向推理
- 针对这个问题,生成一个反向问题
- 给定逆向问题,生成逆向推理
在 8 个数据集上,RevThink 分别使用 Mistral 和 Gemma 优于最佳蒸馏baseline 6.44%-6.97%,优于最佳数据增强baseline 4.52%-5.74%。此外,RevThink 在(常识、数学、表格、NLI、逻辑)任务上得到了持续的提升。