点击下方名片,关注「集智书童」公众号
本文主要解决了什么问题
高质量反馈数据依赖昂贵的专有模型 :当前的幻觉减少反馈学习方法(如RLAIF)严重依赖GPT-4V等专有模型生成反馈,难以在开源社区中普及。
开源模型反馈质量有限 :使用能力较弱的开源模型替代专有模型生成反馈会导致反馈质量下降,影响模型对齐效果。
推理时扩展性不足 :现有方法忽视了反馈在推理阶段的重要性,盲目扩展推理预算难以提升性能。
缺乏自对齐机制 :当前方法未充分挖掘开源多模态大语言模型(MLLM)通过自身反馈实现对齐的潜力。
本文的核心创新是什么
去混淆候选响应生成策略 :通过在相同条件下使用不同随机种子生成多个响应,去除文本风格等混淆因素,提升反馈数据质量。
分而治之的反馈标注方法 :将复杂响应拆解为多个原子声明进行评估,降低任务复杂度,使开源模型也能生成高质量反馈。
基于DPO对齐模型的自反馈机制 :利用对齐后的模型自身生成Token级Reward分数,并设计长度归一化策略以避免偏好短响应。
迭代反馈学习框架 :通过迭代生成反馈数据和模型训练,持续更新反馈分布,提升模型对齐效果。
反馈泛化能力探索 :验证了RLAIF-V生成的反馈可泛化到多个不同的MLLM,提升其可信度。
结果相较于以前的方法有哪些提升
幻觉率显著降低 :
- • RLAIF-V 7B将目标幻觉降低了80.7%,整体幻觉降低了33.7%。
- • RLAIF-V 12B在Object HalBench上降低了76.8%的目标幻觉,在MHumanEval上降低了32.4%的整体幻觉。
超越GPT-4V的表现 :
- • RLAIF-V 12B在多个基准测试(如MHumanEval、AMBER、RefoMB)中表现优于GPT-4V。
推理时扩展效果提升 :
- • 使用RLAIF-V的Reward机制进行Best-of-N选择,显著提升了模型生成内容的可信度。
反馈泛化能力强 :
- • RLAIF-V生成的反馈可用于训练多个不同架构的MLLM(如LLaVA、MiniCPM-V),有效减少幻觉。
局限性总结
反馈生成依赖高质量开源模型 :虽然RLAIF-V不依赖专有模型,但反馈质量仍受限于开源模型的推理能力,尤其在复杂任务中可能仍存在偏差。
长度归一化策略仍为简单方法 :尽管设计了长度归一化策略以缓解对短响应的偏好,但该方法仍较为基础,可能无法完全消除长度偏差。
训练成本较高 :每次迭代需生成大量候选响应并进行评估,数据收集和训练时间成本较高,限制了其在资源有限环境中的应用。
泛化性依赖任务类型 :虽然反馈具有泛化能力,但在特定任务(如逻辑推理)上的效果仍需进一步验证和优化。
导读
传统的幻觉减少反馈学习方法依赖于费力的手动标注或昂贵的专有模型。这使社区缺乏关于如何使用开源MLLM构建高质量反馈的基础知识。在这项工作中,作者引入了RLAIF-V,一个全新的框架,在完全开源的范式下对齐MLLM。RLAIF-V从两个角度最大限度地探索开源MLLM,包括为偏好学习生成高质量反馈数据以及为推理时扩展提供自反馈指导。在六个自动和人工评估基准上的大量实验表明,RLAIF-V显著提高了偏好学习和推理时的模型可信度。RLAIF-V 7B将目标幻觉降低了80.7%,整体幻觉降低了33.7%。值得注意的是,RLAIF-V 12B进一步揭示了开源MLLM的自对齐潜力,其中模型可以通过学习自身的反馈来实现超GPT-4V Level 的可信度。
- 引言
多模态大语言模型(MLLMs)的最新进展标志着人工智能研究的重要里程碑[4, 10, 33-35, 65]。这些模型在大规模多模态语料库上训练,拥有深厚的世界知识,在处理多样化的多模态任务方面展现出卓越的能力[27, 39, 43]。然而,人们普遍注意到MLLMs容易自信地生成与人类偏好相悖的错误内容[21, 56, 66, 79]。为了使MLLMs与人类偏好保持一致,人类反馈强化学习(RLHF)被广泛应用并取得了显著成果[56, 66]。然而,RLHF严重依赖于劳动密集型的人类标注,因此难以覆盖模型与人类偏好之间广泛的偏差。最近,使用标注模型收集的偏好作为人类偏好的替代,强化学习从人工智能反馈(RLAIF)显示出作为RLHF替代方案的潜力[24]。
然而,当前方法面临两大挑战:(1) 不可行的标注器要求。如图1左上角所示,现有的RLAIF方法依赖于昂贵的专有模型来从[28, 76, 80]中提取反馈。更关键的是,这种范式本质上将专有模型的能力蒸馏出来,仅作为暂时性解决方案来弥补性能差距。因此,社区缺乏关于如何使用同等能力的开源MLLM标注器构建高质量反馈的知识,如图1左下角所示。简单地将标注器模型从专有模型更换为能力较弱的开源模型,由于其有限的容量,会导致反馈质量不理想[6]。(2) 推理时扩展性有限。推理时扩展性已引起LLM社区的高度关注并取得显著成果[45, 54]。然而,最近的MLLM研究主要集中于偏好学习阶段以利用高质量反馈[66, 74, 78],而忽略了反馈在推理阶段的重要性。此外,盲目扩展推理计算预算几乎无法提升性能,因为准确的反馈指导对有效的推理时扩展性至关重要。
RLAIF-V通过两项关键创新来解决这些挑战:(1)为了生成高质量的反馈,作者提出了一种新颖的去混淆候选响应生成策略,以提高数据效率,并提出了一种分而治之的方法,以提高成对偏好准确率。去混淆策略通过在相同条件下从多个采样解码试验中生成候选响应,准确揭示了响应对中真实的可信度差异。因此,消除了混淆因素(如文本风格),反馈集中于响应的实质性内容。分而治之的方法将困难的响应评估任务分解为更简单的声明评估,从而大大简化了任务,并降低了标签模型的能力要求。(2)为了推理时间扩展指导,作者提出了一种基于与直接偏好优化[48](DPO)对齐的模型的新型自反馈方法。具体来说,作者利用对齐模型生成的 Reward 分数作为自身的反馈。然而,先前的研究表明,由于其目标公式[49],DPO对齐模型的直接反馈可能偏向于较短的响应。作者设计了一种长度归一化策略,以聚合每个响应的 Token 级分数,以抑制偏差。此外,作者还广泛探索了作者的RLAIF-V Reward 在推理时间扩展[45, 54]方面的潜力,并证明了单个 Reward 模型可以很好地泛化,以提高多个MLLM的可信度。
在六个基准测试上的全面实验表明,RLAIF-V能够在没有任何人工干预或专有模型的情况下显著提升模型可信度。利用LLaVA-NeXT 34B [35]的反馈,RLAIF-V 7B在Object HalBench [66]上显著降低了物体幻觉,降幅达80.7%,甚至超过了标注者模型。作者将极限推向一个没有更强模型的极端场景,将OmniLMM 12B [46]自身作为标注者进行对齐。实验结果显示,RLAIF-V 12B在Object HalBench上降低了76.8%的物体幻觉,在MHumanEval上降低了32.4%的整体幻觉,大幅超越了GPT-4V,并揭示了开源MLLM的自对齐潜力。
本工作的贡献可总结为四方面:(1)作者提出了RLAIF-V框架,该框架将大规模语言模型与开源反馈进行对齐。(2)作者提出了一种新的去混淆和分而治之的方法,利用开源模型生成人类水平质量的反馈。(3)作者提出了一种新的自反馈指导方法,用于推理时的扩展,并设计了一种简单的长度归一化策略,以解决对较短响应的偏差。(4)作者进行了全面的实验,以验证所提框架的有效性,在可信度方面取得了开源和专有大规模语言模型的最优性能。所有代码、数据和模型权重将公开以促进未来的研究。
- RLAIF-V
2.2. 反馈标注
在本节中,作者首先阐述了如何通过引入响应生成和反馈标注流程,从开源MLLM中收集高质量的AI反馈。接着,作者介绍了迭代反馈学习阶段以及推理时扩展的自反馈指导。RLAIF-V框架的概述如图2所示。
2.1. 响应生成
用于偏好学习的反馈以比较对的形式收集,其中每一对包括对相同输入
(包括图像和 Prompt )的偏好响应
和劣质响应
。在训练过程中,模型通过区分
和
之间的差异来学习偏好。然而,这些差异可能很复杂,并包含许多因素,不仅包括内容的意义,还包括文本风格,如特定词语的使用或文本结构,这使得学习变得更加困难。
为了揭示响应之间可信度的真实差异,作者提出了一种新颖的去混淆策略来生成候选响应。具体而言,作者要求模型通过使用不同的随机种子进行采样解码来生成
个候选响应
,其中输入
和解码参数保持不变。通过这种方式,
和
从相同的分布中采样,因此共享相似的文本风格和语言模式。在训练过程中,模型能够有效地集中于可信度的差异。在作者的实验中,作者发现去混淆策略可以显著提高学习效率(参见第3.4节)。
评估模型响应质量是一项具有挑战性的任务,即使是人类标注者也因完整响应的复杂性而难以胜任。现有将模型作为标注器的方法依赖于具有卓越指令遵循和任务解决能力的专有模型API,这导致了可扩展性问题。相比之下,作者采用分而治之的方法简化任务,以从开源MLLM中获取更可靠的结果。采用这种方法收集高质量反馈的细节描述如下:
分解。完整回复的复杂性使得基于现有的开源大语言模型[6]难以对回复质量进行整体评估。复杂性的一个重要原因是完整回复可能包含多个陈述和特定的文本结构,这会干扰对错误片段的识别。为了使这一复杂任务变得可解,作者将回复评估分解为原子声明评估,如图2所示。具体而言,作者 Prompt 大语言模型将回复
分解为可单独评估的原子声明
,通过提取事实、排除观点和主观陈述来实现。
征服。为了获取声明
(例如,“时钟大约显示11:20”)的可信度,作者首先将其转换为极性问题,如“时钟是否大约显示11:20?”,该问题只需用“是”或“否”回答,不会引入任何额外内容。对于每个原子极性问题,作者请求一个开源的多语言大语言模型生成同意和不同意的置信度,作为声明得分
,其中
是回答“是”或“yes”的概率,
是回答“否”或“no”的概率。较高的
分数表明相应的声明被标注模型认为更可信。通过这种方式收集的得分通常比直接 Query 完整响应的评估结果更准确,因为声明在结构和内容上都更简单。
结合。在获得每个声明的质量评估后,作者最终将它们结合为整个响应的得分。对于每个响应,作者用具有
的声明的数量表示为
,衡量标注模型识别出的错误声明的数量。作者使用
作为响应的最终得分
,其中较高的得分表示内容错误性较低。根据每个响应的得分,作者现在可以构建一个用于训练的偏好数据集。对于每个指令
,作者保留所有响应对
,其中
,并选择得分较高的响应
作为偏好响应。为了节省训练成本,作者对每个指令随机采样最多2对,作者发现这种过滤过程仅导致轻微的性能下降。为了防止潜在的长度偏差,作者在训练前丢弃
过短的响应对,以确保
和
的平均长度差异小于一个词。
2.3. 迭代反馈学习
DPO被广泛用于使MLLM与人类偏好保持一致。然而,原始DPO面临着分布偏移问题,即偏好数据在训练过程中保持静态,而模型输出分布不断变化[14]。因此,数据分布可能偏离预期的反馈分布,导致次优的对齐结果。
作者遵循[17]的方法进行模型迭代训练。具体而言,在每次迭代的开始,作者选择
条多模态指令,并利用去混淆策略,使用最新的指令模型
为每条指令生成
个候选回复。作者通过使用标注模型
和采用分而治之的方法,为每个回复分配可信度分数,并构建用于训练的比较对
。然后,作者使用
对
进行直接偏好优化训练,以获得
,该模型将作为下一次迭代的指令模型。通过这种方式,反馈分布可以以迭代的方式更新,从而提高学习效率。
2.4. 推理时缩放的自反馈
在经过多样化高质量反馈的迭代学习后,MLLM本身不仅是一个可信的政策模型,而且是一个通过DPO优化目标的 Reward 函数, Reward 被定义为:
Double subscripts: use braces to clarify
其中
是一个控制与基准参考策略
偏差的参数,
是响应 Token 序列,
是响应的长度,
是经过DPO训练后的模型。为简化公式,作者隐藏了 Prompt 条件
。已有研究表明,由于目标函数的设定,DPO对齐的 Reward
可能会偏向较短的响应 [49]。作者通过对所有 Token Level 的分数进行平均来解决这个问题,以得到最终的响应分数
。然后,作者使用归一化的 Reward 作为推理时的自反馈指导。具体来说,作者遵循 [54] 来基于同一 Prompt 的多个采样响应执行最佳N(BoN)选择。具体而言,作者从
个候选响应中选择得分最高的响应作为模型的预测。为增强候选响应的多样性,作者遵循现有工作 [54] 应用常用的核采样 [19] 进行解码。
- 实验
在本节中,作者通过开源反馈实证研究了RLAIF-V在通过开源反馈对MLLMs进行对齐方面的有效性。除了评估模型在可信度和有用性方面的性能外,作者还分析了不同组件的有效性、与其他方法的兼容性,以及使用RLAIF-V收集的反馈数据的泛化能力。
3.1. 实验设置
作者介绍了模型、训练数据、评估基准、 Baseline 以及其他实现细节。所有实验均基于LLaVA 1.5 7B [33]进行,除非另有说明。
模型。作者提出了两种将MLLMs与RLAIF-V框架对齐的设置。首先,作者使用LLaVA 1.5[33]作为指令模型,使用LLaVA-NeXT[35]作为标注模型,展示了开源反馈的有效性。其次,作者使用OmniLMM[46]作为指令模型和标注模型,代表了没有更强模型可用的极端场景。
训练数据。指令的多样性对于模型学习泛化偏好至关重要。在实践中,作者使用从MSCOCO [32]、ShareGPT-4V [7]、MovieNet [20]、Google Landmark v2 [61]、VQA v2 [15]、OKVQA [40]和TextVQA [53]等多样化数据集中收集的指令。此外,作者采用文献[66]中引入的图像描述 Prompt 来构建长形式图像描述指令。
评估。作者从两个角度评估模型,包括可信度反映幻觉程度,以及有用性反映一般能力。对于可信度,作者在五个基准上进行评估:
(1) Object HalBench [51] 是一个广泛采用的基准,用于评估详细图像描述中的常见目标幻觉。作者遵循 [66] 的方法,使用8个不同的 Prompt 来提高评估的稳定性。作者报告了响应 Level 的幻觉率(即幻觉响应的百分比)和提及 Level 的幻觉率(即幻觉目标的百分比)。
(2) MMHal-Bench [56] 评估响应 Level 的幻觉率和信息量。它要求 GPT-4 [44] 将模型输出与人类响应和物体标签进行比较以进行评估。
(3) MHumanEval [66] 包含从 Object HalBench (50) 和 MMHal-Bench (96) 收集的146个样本,以提供对长文本描述和短文本问题的更全面评估。作者仅标注响应 Level 的幻觉率以控制成本。
(4) AMBER [58] 是一个包含超过
个样本的多维度幻觉基准。作者使用了判别部分,并报告了准确率和 F1 指标。
上述可信度评估要么局限于常见的物体幻觉,这通常已被消除,要么受限于格式(例如,是/否选择)或人工标注。为了在任何格式下可靠且自动地评估多模态大语言模型(MLLM)的可信度,作者构建了一个新颖的可靠自由格式多模态基准(RefoMB),其中包含120张图像和360条指令,涵盖8项关键任务,如机械推理[38]和图像感知[2]。遵循[34],作者通过比较模型响应与GPT-4V响应在可信度和有用性方面的表现来评估MLLM的性能。基于评估评审,作者计算了可信度胜率和总体胜率。每条指令都配有一个详尽撰写的图像描述作为参考,实现了显著的
的人类一致性。本节报告了开发集(99条指令)的结果,以节省评估成本,作者在附录中提供了更多细节和测试集(261条指令)的结果。
为了提升实用性,作者采用MMStar [8],这是一个包含1500个挑战样本的综合基准,这些样本从6个流行的多模态基准 [23, 26, 36-38, 70] 中收集,涵盖了6个核心能力和18个详细轴。作者在该基准上报告了总体得分。
Baseline 模型。作者将RLAIF-V与不同类型的当前最佳 Baseline 模型进行比较,包括性能强劲的通用 Baseline 模型、使用反馈数据训练的 Baseline 模型、无需反馈数据减少幻觉的 Baseline 模型以及专有 Baseline 模型。
(1) 基础模型。作者采用LLaVA 1.5 [33]、Qwen-VL-Chat [4]、OmniLMM [46]、LLaVA-NeXT [35]、MiniGemini [31] 作为具有代表性的通用基础模型。
(2) 针对反馈学习的 Baseline 方法。RLHFV [66] 收集细粒度的纠正性人类反馈,并使用密集方向偏好优化来训练模型。Silkie [28] 利用 GPT-4V 来收集反馈。POVID [78] 和 AMP-MEG [74] 应用启发式规则来匹配在不同条件下生成的响应。
(3) 针对无反馈的幻觉减少而设计的 Baseline 方法。VCD [25] 对比基于原始和扭曲视觉输入的模型logits,以减少对统计偏差和多模态先验的过度依赖。OPERA [21] 在模型logits上引入惩罚项。Less-is-more [71] 提出一种选择性句子末尾(EOS)特殊 Token 监督损失和数据过滤策略。CCA-LLaVA [64] 通过应用一种新颖的同心因果注意力机制来缓解幻觉。
(4) 专有 Baseline 。作者还包含GPT-4V [43] 作为强有力的参考,以评估开源模型与专有模型之间的差距。
实现细节。作者使用Nous-Hermes-2-Yi-34B [3]版本的LLaVA-NeXT和OmniLMM [46]的无RLHF版本作为标签模型。对于每次迭代,作者使用DPO方法训练模型4个epoch,学习率为5e-7,beta为0.1,批处理大小为8。作者分别训练RLAIF-V 7B和RLAIF-V 12B共4次迭代,每次迭代使用
指令收集反馈。总的来说,7B和12B模型的数据收集分别耗时48小时和50小时,单独训练分别耗时6小时和8小时,使用一台8xA100 80G的机器。在bestof-N设置下,作者分别为RLAIF-V 7B和RLAIF-V 12B采样32个和16个候选响应,以控制评估成本。
3.2. 主要结果
主要实验结果如表1所示,从中作者可以观察到以下几点:(1) RLAIF-V在开源模型中的可信度方面达到了当前最佳水平,甚至超越了GPT4V等专有模型。该框架显著降低了LLaVA 1.5和OmniLMM在Object HalBench上的目标幻觉率,相对降低了80.7%和76.8%。在整体幻觉率方面,RLAIF-V 12B在MHumanEval上达到了35.6%,大幅超越了GPT-4V。幻觉率的降低在MMHal-Bench、AMBER和RefoMB等多个基准测试中均保持一致。(2) RLAIF-V在响应有用性方面表现良好,其在MMStar上的结果相较于基础模型有所提升。这表明RLAIF-V能够在不牺牲其他任务性能的前提下,增强MLLM的可信度。(3) 以OmniLMM作为指令模型和标注模型,RLAIF-V 12B在多个基准测试上显著降低了幻觉率,并实现了相当的有用性。值得注意的是,RLAIF-V 12B在Object HalBench、MHumanEval、AMBER和RefoMB上的可信度大幅超越了GPT-4V。这些结果表明了实现前沿MLLMego校准的可行路径。(4) 自反馈引导通过最佳N选择在多个基准测试上提升了RLAIF-V 7B和RLAIF-V 12B的可信度,证明了RLAIF-V在推理时的 Reward 机制的有效性。
3.3. 消融实验
为探究RLAIF-V中不同组件的贡献,作者进行了消融研究。
响应生成方法的消融实验。为了量化去混淆候选响应生成策略的优势,作者基于RLHF-V数据集[66]进行实验。作者比较了在三种设置下训练的模型性能:(1) RLHF-V,模型直接与人类反馈数据进行对齐;(2) RLAIF-V,作者基于RLHF-V数据集中原始的多模态指令,使用RLAIF-V框架从LLaVA-NeXT收集高质量的反馈;(3) RLAIF-V w/o deconfounding,作者将去混淆策略下生成的首选响应替换为原始的人类标注。
从表2的实验结果中,作者观察到使用作者的去混淆响应训练的模型在两个任务上均取得了最佳性能。虽然通过用高质量的标注响应替换首选响应能够提高反馈精度和响应质量,但表现出显著的性能损失。作者假设这一操作向训练数据中引入了更多非鲁棒性的浅层模式,从而损害了学习效率。此外,RLAIF-V性能甚至大幅超越了基于人工标注纠正反馈的训练。在分析RLHF-V数据集的构成后,作者发现它仅包含有限数量的模型[66],这些模型与LLaVA 1.5 7B在幻觉分布相似性上有限。因此,该数据集的有效性显著降低。作者认为这一现象进一步凸显了RLAIF-V框架的重要性,该框架能够高效地为任何多模态大语言模型生成高质量的反馈数据。关于幻觉分布和RLHF-V数据集构成的更多细节,作者列在附录D中。
分治策略的影响。作者将作者的分治策略与直接ego Reward [69]进行比较,仅替换响应评估过程的实现。具体来说,ego Reward 要求标注者模型使用一个包含多个标准的长期 Prompt 来生成每个候选响应的整体质量分数。作者通过评估评估者同意
的
生成响应对的比率来评估人类的一致性。根据表3中的结果,作者观察到仅要求开源模型生成响应的整体评估会产生不令人满意的结果,这是由于反馈质量差。相比之下,作者的分治策略方法显著提高了反馈质量,并在判别和生成任务上的整体性能上取得了显著提升。此外,作者还将RLAIF-V反馈数据与VL-Feedback[28]进行了比较,后者收集了来自GPT-4V的高质量反馈。结果表明,RLAIF-V通过采用新颖的分治策略实现了更高的数据质量,并在使用相同数量的数据进行训练时取得了更好的性能。
3.4. 分析
作者对框架进行了分析,考虑了以下研究问题:(1) RLAIF-V是否与其他反馈来源兼容?(2) 使用RLAIF-V收集的针对某一模型的反馈数据能否用于增强其他MLLM的可信度?(3) RLAIF-V在推理时扩展方面的 Reward 机制如何工作?
RLAIF-V与现有的反馈收集方法互补。除了使用模型作为标注器来收集反馈外,多项现有工作基于启发式规则或人工标注来生成反馈。作者探索了将RLAIF-V与其他反馈来源结合的可能性。图3中的结果表明,从HA-DPO [76]启发式收集的反馈以及从RLHF-V人工标注的反馈能够进一步提升可信度,这表明RLAIF-V与其他类型的反馈互补。
RLAIF-V能够生成具有泛化性的高质量反馈。作者使用在RLAIF-V 12B第一次迭代训练过程中收集到的反馈来训练不同的模型。具体而言,作者使用直接偏好优化方法训练了LLaVA 1.5 7B [33]、LLaVA 1.5 13B [33]、MiniCPM-V [46]和MiniCPM-V 2 [46],并在图4中报告了可信度提升情况。作者观察到,使用RLAIF-V框架从OmniLMM(作为指令模型和标注模型)收集的数据能够有效减少其他MLLM在不同基准上的幻觉现象。值得注意的是,与生成候选响应的OmniLMM相比,这种改进效果可能更为显著。结果表明,RLAIF-V的反馈能够泛化以提升不同MLLM的可信度。
RLAIF-V Reward 在推理时持续提升MLLM的可信度。作者探索了RLAIF-V 12B Reward 对不同开源MLLM的有效性。如图5所示,RLAIF-V Reward 始终如一地提升了LLaVA 1.5 7B和Qwen-VL-Chat的生成可信度。作者将此改进与使用RLAIF-V 12B模型的困惑度(PPL)或OmniLMM的两个 Baseline 进行比较,发现RLAIF-V Reward 取得了显著更好的结果。作者还分析了最佳N选响应与简单采样响应的平均长度,并证明简单的长度归一化方法有效解决了偏好较短响应的偏差,这种偏差可能导致显著的信息损失。具体而言,在使用RLAIF-V 12B Reward 进行LLaVA 1.5 7B最佳64选设置时,平均长度差异计数从-7.7(不使用长度归一化)增加到+3.9。
- 相关工作
在本节中,作者介绍了最相关的背景工作,并建议读者参考附录以进行更详细的文献综述。
从反馈中学习。从反馈中学习是开发High-Level大语言模型(LLMs)[9, 57, 68]和多模态大语言模型(MLLMs)[28, 56, 66, 78]的核心技术之一,它使模型与人类偏好保持一致。近端策略优化(PPO)[52]被认为是通过在模型响应的成对比较上训练 Reward 模型来直接使模型与人类偏好保持一致的主要技术。Rafael等人[48]提出了直接偏好优化,以稳定PPO的训练,并最近被社区广泛采用。然而,大多数多模态反馈学习方法仅利用DPO的简单性和训练稳定性,而忽略了DPO实际上训练了一个最优 Reward 模型这一重要事实。因此,这些方法在没有探索连续 Reward 有效性的情况下,得到了次优结果。
MLLMs的反馈收集。反馈质量是模型与人类偏好对齐的最重要因素之一。早期工作主要通过人工标注者收集高质量的反馈,与广泛存在的对齐问题相比,这种方式成本高昂且有限[16, 56, 66]。为此,从AI中收集反馈可以避免人工干预,为引导超智能模型提供了一种有前景的方法[9]。然而,现有方法仅从GPT-4V等专有模型中为MLLMs蒸馏反馈,这些方法依赖于专有模型相对于使用反馈来改进自身的学生模型的优越性[28]。并发HSA-DPO[63]要求GPT-4[44]和GPT4V[43]检测6k图像描述中的幻觉。FGAIF[22]要求ChatGPT将响应拆分为子句,并将它们分类为与目标存在、属性或关系相关。这些方法仍然依赖于强大的专有模型,并且仅针对图像描述任务中的与目标相关的三种幻觉的MLLMs幻觉进行处理。另一方面,RLAIF-V在完全开源的环境下,通过在多种任务(例如,视觉问答[40]、场景文本理解[53]和图像描述[32])上提供反馈来增强MLLMs。HA-DPO[76]、POVID[78]、AMP[74]和BPO[47]通过扭曲图像、编辑模型响应或将性能不同的模型配对来启发式构建比较对。
无反馈的幻觉减少。幻觉减少作为最突出的错位问题之一 [5, 30, 50, 79],除了通过反馈学习外,许多其他方法也显示出针对幻觉的良好效果。FOHE [59] 利用GPT-3.5 [42] 重写图像描述,以实现更好的细粒度模态对齐,从而减少幻觉。一些工作在解码过程中进一步探索图像中的更多信息 [11, 12, 75, 80]。HallE-Switch [73] 和 Less-is-more [71] 通过仅解码自信的物体来控制幻觉率。VCD [25] 和 ICD [60] 通过对比模型输出分布与扭曲分布来减轻幻觉。[18] 提出通过让模型解码更少的 "\n" 来减少幻觉,因为该 Token 后的幻觉率更高。[62] 设计了一个基于逻辑闭环的框架,以ChatGPT [42] 检测和减轻模型响应中的幻觉。
- 结论
与人类偏好对齐以减少MLLM幻觉是一个关键目标。在这项工作中,作者提出了RLAIF-V,一个通过开源AI反馈增强MLLM可信度的新框架。综合实验结果表明,RLAIF-V在生成和判别可信度方面均达到了最先进水平。作者提出了一种去混淆采样和分而治之策略,以提高反馈的效率和质量。通过将模型与这种高质量的反馈对齐,可以在不牺牲其他任务性能的情况下显著提高可信度。此外,作者提出了新的自反馈指导方法,用于推理时扩展,使用对齐后的模型本身以及一个简单的长度归一化策略来应对对较短响应的偏见。作者还证明了通过RLAIF-V框架生成的反馈可以泛化到不同的MLLM。未来,作者将探索从模型中收集更复杂的反馈,以提升逻辑推理和复杂任务解决能力。
参考
[1]. RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness