"三思而后行" | AI推理新突破,Affordance-R1让大模型泛化提升20.6%

大模型向量数据库机器学习

点击下方名片,关注「集智书童」公众号


picture.image

精简阅读版本

本文主要解决了什么问题

    1. 现有可供性(affordance)模型往往忽视不同物体间共享的可供性,缺乏思维链(CoT)推理能力,限制了它们的领域外(OOD)泛化能力和显式推理能力。
    1. 现有方法无法主动推理复杂且隐含的用户意图,无法解释为什么某个物体具有某种可供性能力,缺乏推理过程的透明度。
    1. 现有数据集在复杂可供性推理方面存在不足,过于简单,缺乏现实世界的上下文复杂性,并且专门为训练视觉分割模型而设计,不适用于多模态语言模型(MLLM)的指令微调。
    1. 现有的多模态大语言模型(MLLMs)缺乏执行精细视觉任务所需的细粒度感知能力,特别是在可供性级别上的理解。

本文的核心创新是什么

    1. 提出了Affordance-R1,这是第一个将认知CoT指导的组相对策略优化(GRPO)集成在强化学习范式中的统一可供性grounding框架。
    1. 设计了一个复杂的可供性函数,包含格式、感知和认知Reward,以有效地指导优化方向。具体包括:
  • • 格式Reward:包含思考Reward、重思Reward和回答Reward
  • • 感知Reward:包括IoU Reward、L1 Reward和框数Reward
  • • 可供性识别Reward:使用word2vec模型计算可供性文本相似度
    1. 构建了一个高质量的以可供性为中心的推理数据集ReasonAff,用于支持MLLM的指令微调,该数据集包含细粒度的可供性Mask和基于推理的隐式指令。
    1. 采用两阶段策略:第一阶段使用基于规则的强化学习GRPO而不使用SFT来增强模型的内在推理能力;第二阶段从Affordance-R1中提取输出边界框和点,作为分割模型的输入,生成细粒度的可供性Mask。

结果相较于以前的方法有哪些提升

    1. 在ReasonAff数据集上建立了新的SOTA,在所有评估指标(gIoU、cIoU、P@50和P@50:95)上均持续优于所有基线方法,性能提升在高精度指标P@50和P@50:95上尤为显著。
    1. 在领域外(OOD)数据集(AGD20K和UMD)上表现出卓越的泛化能力,在零样本评估中保持了显著的性能优势,展示了在未见过物体类型和视觉领域方面的强大泛化能力。
    1. 在网络图像(从EPICKITCHENS数据集和互联网上收集的厨房和家庭场景图片)上仍能保持强大的可供性推理能力,有效处理复杂场景。
    1. 通过消融实验验证了各个组件的有效性:
  • • 引入重思Reward可以迫使模型重新审视和检查问题与图像,在给出最终答案前进行三思,从而在基线之上取得改进。
  • • 使用可供性识别Reward可以帮助模型理解可供性的概念和一般可供性知识,取得更好的结果。
  • • 框编号Reward确保模型输出所有可能的可供性区域,避免忽略其他可能性。

局限性总结

    1. Affordance-R1依赖于SAM等分割模型来生成细粒度的可供性Mask,这可能影响最终的性能上限。
    1. 训练过程计算资源需求较高,需要4×A100 GPU服务器,训练时间约7小时。
    1. 虽然在零样本泛化方面表现出色,但在极端复杂或完全新颖的场景中可能仍有挑战。
    1. 论文主要关注静态图像中的可供性推理,对于动态视频或实时交互场景的应用可能需要进一步研究。
深入阅读版本

导读

可供性 grounding 专注于预测与机器人将要执行的动作相关联的物体特定区域。它在人机交互、人机交互、具身操作和具身感知等领域发挥着至关重要的作用。现有模型往往忽视不同物体间共享的可供性,因为它们缺乏思维链(Chain-of-Thought, CoT)推理能力,这限制了它们的领域外(out-of-domain, OOD)泛化能力和显式推理能力。为了应对这些挑战,作者提出了 Affordance-R1,这是第一个将认知 CoT 指导的组相对策略优化(Group Relative Policy Optimization, GRPO)集成在强化学习范式中的统一可供性 grounding 框架。具体而言,作者设计了一个复杂的可供性函数,该函数包含格式、感知和认知 Reward ,以有效地指导优化方向。此外,作者构建了一个高质量的以可供性为中心的推理数据集 ReasonAff,以支持训练。Affordance-R1 仅通过强化学习(GRPO)训练,且无需显式推理数据,实现了稳健的零样本泛化,并展现出涌现的测试时推理能力。综合实验表明,Affordance-R1优于现有方法,并表现出开放世界泛化能力。据作者所知,Affordance-R1 是首个将基于 GRPO 的强化学习与推理集成到可供性推理中的模型。

Affordance-R1和数据集代码已发布在 https://github.com/hqKing/Affordance-R1

1 引言

可供性是人类与具身Agent交互物理世界中各种物体的关键视角,反映了行动的可能性和方式。在自然语言中指定开放式、复杂且隐含的任务指令下,可供性基础旨在突出这些物体的可行动可能性,将视觉感知与机器人操作相连接。

近期在可供性学习领域取得了显著进展,例如从人-物交互(HOI)图像(Yang等人2023;Wang等人2025b;Yang等人2024;Luo等人2024;Wang等人2025a;Rai、Buettner和Kovashka 2024)中提取可供性知识,从人类视频中(Ma等人2025;Luo等人2023;Chen等人2023),以及3D感知建模方法,如物体和场景点云(Deng等人2021;Chu等人2025;Nguyen等人2023;Delitzas等人2024)和3D高斯喷溅(wei等人2025)。然而,这些方法无法主动推理复杂且隐含的用户意图。现实世界的物理交互通常要求模型理解人类意图并推理:哪些物体可以提供这种可供性?为什么这种物体可以提供这种可供性?可供性区域在哪里?具体而言,给定一个厨房场景和问题“如何重新加热食物?”,模型必须深入推理以识别烤箱可以加热食物并需要“可打开”的可供性。这种缺乏可供性推理在现实应用中造成了差距。一些研究(Yu等人2025;Qian等人2024)利用了多模态语言模型(MLLM)的推理能力来辅助可供性定位,但它们仅提供最终的可供性区域,而缺乏推理过程——它们无法解释为什么某个物体具有这种能力。为解决这一局限性,强化学习通过 Reward 反馈实现逐步推理,为模型理解答案和推理过程提供了有前景的解决方案。近期进展(OpenAI 2024;Guo等人2025;Liu等人2025a;Shen等人2025;Liu等人2025b;Huang等人2025)通过可验证的 Reward 机制展示了这一能力。然而,这些模型主要关注物体 Level 的推理,无法处理需要细粒度分析的具身感知任务,如可供性推理。

为填补这一空白,作者提出了Affordance-R1,一个增强具身 grounding 模型推理能力的强化学习框架。作者采用GRPO在不依赖监督训练的情况下微调MLLMs,探索其ego进化以发展推理能力的潜力,而非依赖显式标注过程。为紧密连接推理与具身 grounding,作者从认知和感知角度设计了 Reward 机制:感知 Reward 和具身识别 Reward 。受“三思而后行”启发,作者添加了反思 Reward 以帮助模型验证其推理过程,解决当前具身模型透明度问题。此外,box-num Reward 确保模型输出所有可能的具身区域。通过这些整合的 Reward 机制,Affordance-R1在感知和认知层面实现了全面推理。

为了促进推理能力的发展,现有的数据集在复杂可供性推理方面存在不足。它们过于简单,缺乏现实世界的上下文复杂性,并且专门为训练视觉分割模型而设计,因此不适用于MLLM指令微调。为了解决这些局限性,作者构建了ReasonAff,这是一个高质量的数据集,包含细粒度的可供性 Mask 和基于推理的隐式指令,旨在促进对可供性的深度理解,并专门为MLLM训练而设计。作者利用GPT-4o(Achiam等人,2023)来构建隐式指令,通过向其提供与可供性相关的HOI图像和原始指令,帮助 Agent 更好地理解“可供性”,并缓解幻觉问题。

通过作者强化学习框架与推理导向数据集的协同作用,Affordance-R1在领域内和领域外数据上均表现出色,这对于实际应用至关重要。此外,Affordance-R1无需VQA训练数据即可保持强大的视觉问答能力。实验结果表明,Affordance-R1展现出强大的推理能力,相较于同等规模的模型,实现了更优越的泛化性能。

总之,作者的贡献如下:

  • • 作者介绍了Affordance-R1,它能够在给出最终答案的同时生成明确的推理过程。借助作者提出的包含格式、感知和可供性识别 Reward 的推理 Reward 机制,它实现了稳健的零样本泛化,并展现出涌现的测试时推理能力。
  • • 作者构建了一个高质量的外部行为数据集ReasonAff,用于基于多模态语言模型(MLLM)的指令微调,这对于具身感知和推理至关重要。
  • • 作者进行了广泛的实验,以验证作者的学习流程的有效性,并观察到相对于具有强大泛化能力 Baseline 的显著提升,这突显了Affordance-R1在实际应用中的有效性和适应性。

2 相关工作

2.1 供能学习

可供性这一概念由心理学家詹姆斯·吉布森(Gibson 1977)提出,揭示了具身Agent在动态、复杂和物理环境中如何与物体进行交互。许多研究行人在可供性学习方面做出了巨大努力。具体而言,一些工作利用可供性将感知与机器人操作和抓取联系起来。其他研究从感知的角度出发,致力于赋予机器人对物体可供性的理解,并探索了从演示中获取可供性知识的方法,例如从HOI图像、人类视频以及包含物体和场景点云和3DGS的3D感知建模方法。随着大语言模型(LLMs)的显著进展,其令人印象深刻的推理能力得到了展示,能够模拟人类思维。一些研究探索了如何将LLMs的内在推理能力迁移到可供性学习中。这些工作采用向LLMs词汇中引入特殊 Token 的策略,然后利用该特殊 Token 的嵌入进行可供性 grounding。然而,它们在泛化方面仍然存在不足,在遇到OOD数据时表现不佳,因为它们仅建立了可供性区域与特殊 Token 之间的映射,而无法掌握通用的可供性知识。为解决这一问题,作者利用GRPO(Shao et al. 2024b)算法对多模态大语言模型进行后训练处理,使模型能够像人类一样思考和推理,以执行可供性感知。

2.2 多模态大语言模型

多模态语言模型(MLLMs,Yang等人2025;Achiam等人2023)已取得显著进展,在视觉理解、生成和多模态推理等多个方面实现了类人甚至超越人类的智能。然而,在许多实际应用(如分割和定位)中,这些模型缺乏执行精细视觉任务所需的细粒度感知能力。为解决这一问题,相关研究(Wang等人2024;Lan等人2024;Wu等人2024)通过将空间坐标编码为token,实现了图像内特定区域的定位,提升了模型对视觉数据中精确区域进行推理的能力。此外,OpenAI o1(OpenAI 2024)引入了推理时扩展机制,通过扩展思维链(Chain-of-Thought,CoT)推理过程,显著增强了其多模态推理性能。DeepSeek-R1(Guo等人2025)进一步利用GRPO(Shao等人2024b)算法提升推理能力,仅通过数千步强化学习训练即可实现优异性能。近期多项研究(Shen等人2025;Liu等人2025a;Huang等人2025;Liu等人2025b;Song等人2025;Ouyang等人2025;Zhou等人2025;Pan等人2025;Zhang等人2025;Feng等人2025)将这一成功拓展至细粒度视觉任务。然而,这些研究主要关注高 Level 物体推理,并未考虑细粒度部件级(尤其是可供性级)的理解。

针对这一局限性,本文旨在通过使MLLMs能够在情境敏感场景中通过推理来解释和与物体交互,赋予其通用性功能感知能力。

3 数据集

以往的以可供性为中心的数据集在支持复杂可供性推理方面存在不足。此外,这些数据集是专门为训练视觉分割模型(例如SAM(Ravi等人,2024年))而设计的,因此难以无缝集成到多模态大语言模型(MLLMs)的指令微调中。结果,在这些数据集上训练的模型倾向于依赖感知 grounding 而非深入推理。这阻碍了它们获取可泛化的可供性知识,严重削弱了它们的泛化能力。

picture.image

为更好地提升MLLMs的 affordance grounding 能力并改善其泛化性能,作者构建了高质量数据集 ReasonAff,该数据集可用于 MLLM 指令微调。具体而言,ReasonAff 基于Instruct-Part (Wan et al. 2025) 构建。如图2(b)所示,作者对 Instruct-Part 数据集中的指令进行了重写,因为作者发现这些指令过于直接和简单,且存在大量结构一致和完全相同的句子,这可能限制模型的推理能力。作者利用 GPT-4o (Achiam et al. 2023) 对指令进行重写,通过提供与 affordance 相关的 HOI 图像和原始指令来缓解幻觉问题,避免指令重复以增强多样性。具体来说,对于给定的 affordance 二值 Mask ,作者通过提取最左侧、最顶部、最右侧和最底部像素坐标来确定其边界框

。此外,作者计算 Mask 的质心作为点坐标

。作者在表1中展示了 ReasonAff 与先前数据集的比较,更多数据集细节在附录中提供。

picture.image

如图3所示,作者展示了原始Instruct-Part Affordance相关指令与作者的推理型指令之间的不同推理输出(高亮区域)。与之前的指令相比,基于推理的隐式指令能更好地提升模型的推理能力,使模型通过推理过程学习更通用的affordance知识,并提高其泛化能力,如表2所示的实验结果进行了证明。在基于推理的ReasonAff数据集上训练的模型在OOD数据集上表现出更好的性能和泛化能力。

picture.image

4 供认框架R1

4.1 概述

作者概述了所提出的AffordanceR1方法。作者解决的任务是基于推理的视觉可供性定位问题,其中模型需要在物体上根据隐式和复杂的指令定位功能性区域。形式上,给定文本指令

和目标图像

,模型

被期望输出可供性区域

,定义为

。Affordance-R1包含两个阶段,如图4所示。在第一阶段,作者直接采用基于规则的强化学习GRPO(Shao等人,2024b)而不使用SFT来增强模型的内在推理能力。此外,作者引入了一个精心设计的可供性 Reward ,包含格式、感知和识别组件,以鼓励模型在提供最终答案之前对图像进行思考和重新思考。在第二阶段,作者从Affordance-R1中提取输出边界框和点,这些点随后被用作最先进分割模型的 Prompt ,以生成细粒度的可供性 Mask 。

picture.image

4.2 架构

遵循Seg-Zero(Liu等人,2025a),Affordance-R1采用包含推理模型和分割模型的两阶段策略。整体架构如图4所示。具体而言,给定图像I和High-Level文本指令

,Affordance-R1

生成可解释的推理过程,并随后生成与

对应的预期输出。模型输出以结构化格式表示,从中提取边界框

和点

,作为SAM(Kirillov等人,2023)等分割模型的输入。该过程可表示如下:

随后,分割模型

使用提取的边界框

和点

预测可供性 Mask

4.3 群组相对策略优化(GRPO)

与PPO(Schulman等人,2017年)等强化学习算法不同,后者需要额外的评价模型来估计策略性能,GRPO(Shao等人,2024b)直接比较候选响应组,从而无需独立的评价网络。给定一个问题

,GRPO(Shao等人,2024b)从策略

中采样

个候选响应

,并使用 Reward 函数

评估每个响应

,该函数量化了在给定问题上下文中候选响应的质量。为确定这些响应的相对质量,GRPO(Shao等人,2024b)通过计算其均值和标准差来归一化 Reward ,并随后推导出优势为:

其中

表示候选回复

相对于组内其他采样回复的优势。GRPO (Shao et al. 2024b) 通过优化策略

来鼓励模型生成具有更高优势的回复,其目标函数如下:

Reward 函数。如图4所示,作者设计了一个复杂的可供性 Reward 系统,包含格式、感知和识别 Reward ,以更好地指导可供性推理的优化。

格式化 Reward 。作者使用格式化 Reward 来确保模型的响应严格遵循所需的格式。

它可以分为三个部分:1)思考 Reward :为了迫使模型在回答之前进行深入思考,作者添加了格式

思考过程在这里

来约束模型;2)重思 Reward :受谚语“三思而后行”的启发,作者添加了重思 Reward

rethink

重思过程在这里

来迫使模型评估自身的思考过程,这双重检查了推理过程的正确性;3)回答 Reward :

最终答案在这里

感知 Reward 。为了帮助模型定位可供性区域,作者利用感知 Reward ,主要包括:1)IoU Reward :作者计算输出边界框与真实边界框之间的IoU(IoU)。如果

, Reward 为1;否则, Reward 为0;2)L1 Reward :作者计算输出边界框与真实边界框(包括点)之间的L1距离。如果L1距离

, Reward 为1;否则, Reward 为0;3)框数 Reward :作者引入框数 Reward ,以确保模型输出所有可能的可供性区域。

可供性识别 Reward 。正如古老智慧所言,“要知道它是什么,也要知道为什么它是这样”,可供性推理不仅需要感知,还需要识别。具体而言,作者使用word2vec模型来计算可供性文本相似度。如果相似度

, Reward 为1;否则, Reward 为0。

5 实验

本节对所提出的框架Affordance-R1进行全面评估。作者首先描述实验设置,包括数据集、 Baseline 方法、评估指标和实现细节。接下来,作者展示实验结果的定量分析。此外,作者进行消融研究,以验证Affordance-R1各组件的有效性。

5.1 实验设置

数据集和领域外数据集。如第3节所述,作者基于Instruct-Part(Wan等人,2025)数据集构建了一个高质量的数据集ReasonAff。作者在该数据集上训练模型,并为了评估模型的泛化能力,作者进行了实验以评估其在领域外(OOD)场景下的性能。具体而言,作者利用UMD Part Affordance数据集(Myers等人,2015)和AGD20K(Luo等人,2022)的子集作为作者的领域外基准,用于评估 affordance 任务。对于UMD Part Affordance数据集(Myers等人,2015),为了更好地评估不同模型的零样本性能,作者选择了所有类别的所有目标。由于每三帧中有一帧是手动标注的,作者从这些标注帧中采样十分之一作为测试集,最终得到1922张测试图像。对于AGD20K(Luo等人,2022)数据集,作者使用Seen分区中的测试集进行零样本评估,该测试集包含1710个目标-affordance对。

Baseline 方法。为了进行全面的比较,作者评估了Affordance-R1与多个代表性 Baseline 方法,包括开集分割方法,如VLPart(Sun等人,2023年)、OVSeg(Liang等人,2023年)和SAN(Xu等人,2023年);以及强大的开源多模态大语言模型,如LISA(Lai等人,2024年)、SAM4MLLM(Chen等人,2024年)、AffordanceLLM(Qian等人,2024年)、Qwen2.5-VL(Bai等人,2025年)、InternVL3(Zhu等人,2025年)、Seg-Zero(Liu等人,2025a)和Vision Reasoner(Liu等人,2025b),以比较它们的可供性推理能力与Affordance-R1。

评估指标与实现细节。遵循Instruct-Part,作者采用标准指标gIoU、cIoU、Precision @ 5 0 (P @ 5 0) 和 Precision @ 5 0 : 9 5 (P @ 5 0 : 9 5)。作者使用Qwen2.5-VL-7B (Bai et al. 2025) 和 SAM2- Large (Ravi et al. 2024) 作为默认配置。Affordance-R1 在使用DeepSpeed库的4 × A100 GPU服务器上进行训练。训练过程中,作者采用总批大小为8,每步训练采样数为8。初始学习率设置为1e-6,权重衰减为0.01,KL损失系数设置为5e-3。整个训练过程大约持续7小时。

5.2 定量分析

作者进行了广泛的实验,全面评估了Affordance-R1的 affordance 推理能力,包括领域内和领域外数据集。

ReasonAff上的结果。如表3所示,Affordance-R1在作者的ReasonAff基准测试中建立了新的SOTA,在所有评估指标上均持续优于所有 Baseline 方法。性能提升在高精度指标

上尤为显著,突显了其高质量和准确性。作者在图5中展示了部分定性比较结果。更多结果可参见附录。

picture.image

picture.image

作者将这种优异性能直接归因于作者的新型框架。与依赖监督微调的传统方法不同,Affordance-R1利用GRPO(Shao等人,2024b)来解锁MLLM的内在推理能力。这种方法特别适用于ReasonAff所提出的挑战,后者要求对隐式、复杂和现实世界的上下文指令进行深度推理。作者成功的核心在于精心设计的可供性 Reward 函数。具体而言,格式 Reward 鼓励思考和再思考过程,迫使模型在给出答案前构建连贯的推理链并进行ego纠正。在感知和可供性识别 Reward 的指导下,这种迭代优化过程使Affordance-R1能够分解复杂问题,并将抽象指令准确 Anchor 定到视觉证据上,这是其他 Baseline 模型所欠缺的能力。

在领域外数据集上的结果。为了评估Affordance-R1的泛化能力,作者在AGD20K(Luo等人,2022)和UMD(Myers等人,2015)数据集上进行了零样本评估。表5和表4总结了评估结果,揭示Affordance-R1保持了显著的性能优势,展示了在未见过物体类型和视觉领域方面的卓越泛化能力。这种强大的泛化能力是Affordance-R1论的直接成果。通过舍弃传统的监督微调(SFT),转而采用GRPO(Shao等人,2024b),Affordance-R1学习了一种稳健且可泛化的可供性推理策略,而不仅仅是记忆训练数据中的模式。在全面 Reward 信号的指导下进行的强化学习过程,教会了模型基于推理识别功能区域的基本原理。因此,这种学习到的策略对领域特定的视觉特征不敏感,并能有效地应用于OOD数据集中呈现的新场景。相比之下,竞争模型表现出更显著的性能下降,这表明它们对训练分布存在一定程度的过拟合,以及对底层可供性概念的掌握较弱。这证实了Affordance-R1学习到了更基础且可迁移的物体可供性理解。

picture.image

picture.image

网络图像的可视化结果。为了评估Affordance-R1的泛化能力,作者从EPICKITCHENS数据集(Damen et al. 2018)和互联网上收集了一些厨房和家庭场景图片。如图6所示,Affordance-R1仍然能够保持强大的可供性推理能力,并有效处理复杂场景。更多结果请参见附录。

picture.image

5.3 消融实验结果

作者进行了多种消融研究,以评估不同组件对Affordance-R1Affordance-R1性能的影响,包括所提出的重新思考 Reward 、可供性识别 Reward 和Box-Num Reward 。

重新思考 Reward 。正如古老智慧所言:“行动前三思”。表6的结果表明,引入重新思考 Reward 可以迫使模型重新审视和检查问题与图像,在给出最终答案之前进行三思,从而在 Baseline 之上取得了改进。

picture.image

可供性识别 Reward 。俗话说,“要知道是什么,还要知道为什么”,可供性推理不仅要求模型知道可供性区域在哪里,还要知道这个物体提供何种可供性。表6展示了使用和不使用可供性识别 Reward 的性能比较。当使用可供性识别 Reward 进行训练时,模型取得了更好的结果,这意味着可供性识别 Reward 可以帮助模型理解可供性的概念和一般可供性知识。

框编号 Reward 。如表6所示,作者进行了消融实验以研究框编号 Reward 的影响。作者发现,如果没有这个 Reward 函数,模型倾向于输出单一的 affordance推理答案,并忽略其他可能性,从而导致性能下降。

6 结论与未来工作

在本文中,作者介绍了首个以可供性为中心的推理模型Affordance-R1以及高质量的可供性为中心的推理数据集ReasonAff,这些可以集成到多模态大语言模型的指令微调训练过程中。借助作者提出的复杂可供性推理 Reward 函数,作者采用纯强化学习,特别是GRPO,对MLLM进行微调,无需有监督微调(SFT)。AffordanceR1通过整合LLM能力推动了可供性推理的发展,增强了模型处理复杂和现实世界环境的能力。它不仅在ReasonAff上达到了最先进的性能,还在领域外数据集上表现出卓越的泛化能力。对于未来的工作,作者将探索如何利用优秀的可供性推理能力。

参考

[1]. Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论