https://arxiv.org/pdf/2402.10612.pdf
这篇文章介绍了一种名为Rowen的方法,旨在减轻大型语言模型(LLMs)在生成事实内容时的幻觉(hallucination)问题。幻觉是指LLMs在生成回答时产生的事实错误或无意义的内容。Rowen的核心思想是通过精心设计的检索增强过程(retrieval augmentation)来平衡LLMs内部参数知识与外部信息的整合,以提高生成回答的事实性。
Rowen可以分为三个主要阶段:
- 生成初始回答(Stage 1: Generating Initial Answer):
- 使用LLMs的Chain-of-Thought(CoT)推理能力来生成初始回答。CoT是一种让模型展示其推理过程的方法,通过这种方式,模型在回答之前会先生成一系列思考步骤。
- 生成CoT过程后,模型会基于这些思考步骤提供一个简洁的回答。如果这个回答没有检测到幻觉,那么它就被视为最终输出。
- 决定是否检索(Stage 2: Deciding Whether to Retrieve):
- 如果LLMs的初始回答可能存在幻觉,Rowen会激活一个多语言语义感知检测模块(multilingual semantic-aware detection module)。这个模块通过在不同语言中对同一问题生成语义等价的变体,并评估这些变体的回答在语义上的一致性。
- 如果在不同语言的回答中发现不一致性,这可能表明LLMs在内部推理时出现了问题,这时Rowen会触发检索增强过程来纠正模型输出。
- 检索增强生成(Stage 3: Retrieval Augmented Generation):
- 当检测到幻觉时,Rowen会从外部知识源(如网页)中检索相关信息,以帮助LLMs修正其推理链并纠正潜在的幻觉。
- 检索到的证据会被用来修正初始回答,生成最终的回答。这个过程确保了在必要时才进行检索,从而减少了不必要的资源消耗。
Rowen通过这种方式有效地结合了LLMs的内部参数知识和外部检索到的信息,减少了内部幻觉(由LLMs知识边界限制导致的错误)和外部幻觉(由不相关证据引入的错误)的发生。通过全面的实证分析,Rowen在检测和减轻LLMs输出中的幻觉内容方面超过了当前最先进的方法。