提纲
1 简介
2 Think Twice
3 实验
4 讨论
参考文献
1 简介
目前先进的LLM,如deepseek-r1或者openai-o1,已经验证了在推理过程通过增加推理过程可以显著增加推理能力,但是依旧会收到长文本处理能力跟强化学习RL训练效率的影响。于是乎,a-m-team的研究人员提出了一种新的简单且有效的推理方案,Multi-round Thinking,这种方案会利用先前的结果作为后续轮次的信息输入来优化模型输出,反复迭代。最终在多个评测benchmark,新方案取得普遍提升,且跟推理轮次呈现正相关。
Think Twice不同于常规的COT,每一轮的信息输入只包括上一轮的最终结果,但不用到上一轮的推理过程。它的强大之处在于下一次推理结果总是优于上一次,颇有“我最好的作品永远是下一个”的即视感。
2 Think Twice
Think Twice是一个反复进行的pipeline,具体流程如下:
1 首先需要设置一个原始的user prompt,即P\_user。
2 在第一轮推理时,直接让LLM生成对应的推理过程跟结果。
LLM(P\_user) = [Thinking\_1, Answer\_1]
3 在后续迭代推理时,会将上一轮的推理结果也作为输入,生成当前轮的推理过程跟结果。直到达到预先设置好的轮次后结果,并以最后一轮的推理结果作为最终输出。
LLM(P\_user, Answer\_(n-1)) = [Thinking\_n, Answer\_n]
具体的prompt组织形式如下
Original question prompt
The assistant’s previous answer is: <answer> last round answer </answer>, and please re-answer.
归根到底,这是一种递归的refine操作,不断对前一轮的answer进行refine,生成更加合适的answer。同时由于没有用到上一轮的推理过程,所以有效地减少了认知惯性,避免受到之前错误思路的影响。通过这样的迭代方式,模型能够逐步挖掘问题的更多细节,修正可能出现的错误,进而提升最终答案的准确性。
3 实验
研究团队对 Multi-round Thinking 方法进行了广泛的实验验证,涉及多个模型,包括 QwQ-32B 和 DeepSeek-R1 等,并且在多个基准测试中展开测试,如 AIME 2024、MATH-500、GPQA-diamond 和 LiveCodeBench 等。
1.在 AIME 2024 数据集上,QwQ-32B 模型的准确率从第一轮的 80.3% 提升到了第二轮的 82.1%,DeepSeek-R1 模型也有类似的提升,从 79.7% 提高到 82.0%。这些数据直观地表明,Multi-round Thinking 方法确实能让模型在不同任务上表现得更加出色。无论是数学问题求解,还是其他复杂的自然语言处理任务,多轮推理都为模型提供了更深入思考和修正错误的机会,使得模型能够输出质量更高的答案。
2.对QwQ模型做进一步分析发现,随着thinking次数的增加,整体准确性也有明显的提升。
3.为了进一步分析thinking背后的秘密,研究人员统计了but, wait, maybe, therefore这四个词的出现频率(这几个词是犹豫跟果断的语言信号,追踪它们可以理解模型的置信度跟推理动态)。从图中可以发现第二轮时这次几个词频率的下降态势,显示
Think Twice会让模型在回复时会更加自信简洁。
4 讨论
这篇论文提出的 Multi-round Thinking 方法为提升 LLM 推理能力提供了一种简单而有效的途径。通过多轮迭代推理,模型能够不断完善答案,在多个基准测试中取得了令人瞩目的成绩。不过,这一方法也可能面临一些挑战,比如随着推理轮数增加,推理时间会相应延长,如何在提升性能和控制时间成本之间找到平衡,是未来需要进一步研究的方向。
看到Think Twice后很容易联想到曾经火出圈的Let's think step by step[Prompt learning系列之Let’s think step by step](https://mp.weixin.qq.com/s?__biz=Mzk0NzMwNjU5Nw==&mid=2247484112&idx=1&sn=f496fab0916fbf7e8e1a91f76bee0be6&scene=21#wechat_redirect)。 这两种方案都属于无需训练的推理技巧,都能显著提升模型的推理能力,提高最终回复的准确性。但是Think Twice是一种只要你愿意,可以无限循环下去的方案,并且大部分时候下一轮的回复质量都不会变差。就像你在勤练苦练一门技能,每次你会看到上一次的表现,然后下一次你就会做得更好,每次挥一剑,一剑更比一剑强。但是这种方式是有明显上限的,如何更加快速的找到推理轮次跟准确性的关系曲线是值得思考的事情,因为从实验结果可以看到随着推理轮次的增加,边际收益也在持续下降。
关于为什么不用到上一轮的推理过程,我觉得最大的考虑就是担心一旦某次推理过程出错,相应的错误思路会影响后续的推理,变得无法挽回。在基底模型足够强大的情况下,提供一个作为参考的answer已经是有价值了。
参考文献
1 Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking