一、前言
大语言模型(LLMs)如GPT-3、PaLM和ChatGPT的快速发展引发了人们对它们理解和推理世界能力的巨大兴趣。一些人认为这些模型甚至能够通过一种称为“自我纠正”的过程来完善和改进自己的推理。但是,LLMs真的能够纠正自己的错误和有缺陷的推理吗?
Google DeepMind和伊利诺伊大学的研究人员最近发表了一篇论文,详细研究了这个令人心动的可能性,评估了自我纠正是否可以增强当前一代LLMs的推理能力。让我们看看他们发现了什么。
二、深入探究自我纠正
自我纠正的核心在于LLM审查自己的回答,识别问题或错误,并相应地修改答案。本文重点关注“内在自我纠正”,即模型在没有任何外部反馈或帮助的情况下尝试修正错误。这种情境非常关键,因为在实际应用中,高质量的任务特定反馈通常不可用。
研究人员在包括数学单词问题、常识推理和开放领域问答数据集在内的各种推理任务上进行了广泛的实验。令人失望的是,结果显示当前的LLMs在自我纠正方面存在困难;实际上,在尝试纠正后,它们的表现通常会恶化。在一个小学数学单词问题数据集(GSM8K)上,庞大的GPT-3模型的准确率从76%下降到了75%。它并没有得到改善,反而稍微变差了!
分析揭示了原因——LLMs很少认识到其初始推理的缺陷。最好的情况是,它们不改变答案。但更令人担忧的是,它们甚至会将最初正确的回答改为不正确的回答。根本问题在于LLMs很难可靠地评估自己在这些任务上的推理和答案的正确性。任何花费了大量时间与ChatGPT交流的人都很熟悉它在正确时也会为“错误”道歉。
本文还研究了更复杂的自我纠正技术,包括多个LLM实例之间的批判和辩论。更复杂技术的结果是什么?本文研究了多智能体辩论,即多个LLM实例批判彼此的回答,作为潜在的自我纠正技术。这在GSM8K数学推理数据集上进行了测试。多智能体辩论方法使用了3个智能体和2轮辩论。在这种设置下,它在GSM8K上实现了83.2%的准确率。为了比较,本文还测试了一个更简单的自我一致性方法,即生成多个独立回答,并使用多数投票来选择最终答案。使用3个回答,自我一致性在GSM8K上实现了82.5%的准确率。使用6个回答,它达到了85.3%的准确率。因此,在等效数量的回答下,多智能体辩论的准确率只比自我一致性略好(83.2% vs 82.5%)。而随着回答数量的增加,自我一致性显著优于多智能体辩论。本文得出结论,观察到的改进不是由于“自我纠正”,而是由于跨多代获得的自我一致性。
总体而言,实证结果表明当前的LLMs缺乏强大的内在自我纠正推理能力。它们不能单独有意义地改善有缺陷的推理或避免无意识错误。
自我纠正的潜力和陷阱的细微洞见
尽管限制很明显,但这篇论文对于何时自我纠正仍然有益提供了深思熟虑的讨论。它强调不应完全排除自我纠正,而是应以现实的期望来对待。当目标是使LLM的回应与特定偏好相一致 - 如使其更安全或更礼貌 - 自我纠正显示出了潜力。与推理任务的关键区别在于:1)LLM可以更容易地判断回应是否符合标准;2)反馈提供了具体的改进指导。
作者还研究了预先提示和事后提示之间的差异。预先提示包括在初始提示中直接包含某些特定词语的编码要求。事后提示使用自我修正反馈来融入这些指令。虽然自我修正更加灵活,但只要可以事先指定标准,预先提示更加高效。最后,研究人员建议有希望的方向,如利用外部反馈来增强推理能力。来自人类、训练数据和工具的高质量反馈可能为LLMs提供监督,以批评和修改其错误的回答。
关于自我纠正真实能力的要点
总结一下,我认为这篇论文的主要要点包括:
- 自我纠正不应被夸大为解决LLM推理不足的灵丹妙药 - 当前存在显著限制。
- 自我纠正在LLM可以根据具体标准评估响应质量的任务上表现出最大的潜力。
- 对于推理任务,无法可靠评估正确性阻碍了内在的自我纠正。
- 可能需要采用外部指导的技巧来改进推理能力。
- 更注重提高初始提示,而不是依赖事后自我纠正。
- 自一致性(生成多个独立的响应)是一个强有力的基线。
- 来自人类、训练数据和工具的反馈仍然对于真正的推理改进至关重要。
我认为这篇论文有点令人沮丧,但这正是研究的本质。尽管在许多应用中具有潜力,但对于当前的LLMs来说,内在自我纠正似乎不足以增强推理能力。但也许随着模型的不断发展,自我纠正可能有一天会成为创建更准确、可靠和值得信赖的人工智能系统的重要工具。在那之前,我们必须密切关注AI发展的这一方面!
