备注好友:方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
近期图形用户界面(GUI)Agent复制了R1-Zero范式,将在线强化学习(RL)与显式思维链推理相结合,在物体定位之前进行推理,从而实现了显著的性能提升。在本文中,作者首先对训练流程中的三个关键组件进行了广泛的分析实验:输入设计、输出评估和政策更新——每个组件都揭示了盲目应用通用强化学习而不适应GUI定位任务所带来的不同挑战。
输入设计:当前模板鼓励模型生成思维链推理,但更长的链意外地导致定位性能下降。输出评估:基于命中信号或框面积的 Reward 函数允许模型利用框尺寸,导致 Reward 攻击和定位质量差。政策更新:在线RL由于长度和样本难度的偏差倾向于过拟合简单样本,导致在更难的情况下优化不足。为解决这些问题,作者提出了三个针对性的解决方案。
首先,作者采用快速思考模板,鼓励直接生成答案,减少训练过程中的过度推理。
其次,作者将框尺寸约束纳入 Reward 函数,以缓解 Reward 攻击。
第三,通过调整长度归一化和添加难度感知缩放因子来修订RL目标,从而在难样本上实现更好的优化。作者的GUI-G1-3B在用Qwen2.5-VL-3BInstruct训练的17K公共样本上,在ScreenSpot上实现了90.3%的准确率,在ScreenSpot-Pro上实现了37.1%。
这超越了所有先前同等规模的模型,甚至超过了更大的UI-TARS-7B,在GUIAgent定位领域建立了新的最先进水平。项目代码库可在https: //github. com/Yuqi-Zhou/GUI-G1获取。
预印本
1 引言
DeepSeek-R1-Zero [11] 通过引入R1-Zero范式,革新了大语言模型(LLMs)的离线训练流程,该范式直接将强化学习(RL)应用于基础LLMs,无需以监督微调(SFT)作为中间步骤。受此方法启发,GUIAgent领域 [24, 27, 39] 的最新研究越来越多地采用RL,特别是GRPO算法 [33],以解决两个关键限制:(1) 监督微调需要大规模、高质量的标注数据集,导致高昂的计算成本;(2) 现有通过SFT训练的开源GUIAgent在领域外(OOD)场景中泛化能力通常较差 [5, 26]。
尽管强化学习(RL)近年来已成为训练GUIAgent的热门选择,但将性能提升完全归因于算法本身仍然是一项挑战。这些R1风格模型在多个维度上存在差异——包括 Backbone 架构、数据源和训练协议——这使得难以分离出在线RL的具体贡献。为了更好地分离RL的作用,作者专注于基础任务[10, 22],将其视为有效GUI交互的核心能力[23]。基于这些观察,本研究通过(1)将其算法贡献与其他系统级因素分离,以及(2)将基础任务作为强化目标,重新思考了RL在R1风格GUIAgent训练中的作用。
为此,作者将R1-Zero类似的训练流程分解为三个核心组件:输入设计、输出评估和政策更新。每个组件都揭示了盲目应用通用强化学习而不适应接地任务的独特挑战。首先,作者在3.1节观察到,最先进的R1风格模型InfiGUI-R1 [24]的接地性能随着推理的增加而下降,这表明推理模板可能不利于GUIAgent的接地。其次,作者在3.2节发现,基于命中信号或框面积的常用 Reward 函数会导致不同形式的 Reward 攻击:前者鼓励更小且更准确的框,而后者则倾向于更大的框以增加IoU(IoU)。最后,作者在3.3节确定了GRPO目标中的两个偏差:长度偏差[25]和难度偏差。长度偏差鼓励更长但错误的响应,正如之前观察到的,这进一步降低了接地性能。难度偏差对所有样本一视同仁,阻碍了模型从更具挑战性的样本中学习。这些偏差共同使得模型更难从困难样本中学习。
为解决上述问题,作者实施了以下改进。首先,作者引入了快速思考模板,鼓励策略在训练过程中直接生成答案。其次,为对抗在策略优化过程中倾向于不同尺寸框的常见 Reward 函数中的攻击行为,作者提出了一种基于框尺寸的 Reward 函数作为约束。最后,作者移除了原始GRPO目标中的长度归一化项,与[25]中的做法相同,并为每个样本的损失引入了难度系数,使模型能够为更具挑战性的样本接收更大的梯度。难度系数是根据相对框尺寸计算的,它作为定位任务中的 Agent 难度指标[17]。
基于上述解决方案,作者使用Qwen2.5-VL-3B-Instruct和一个小型(约17K)的 grounding 样本集训练llm-GUI-G1_2505GUI-G1-3B,在有限监督下(来自公开数据集如UI-BERT [3]和OS-Atlas [38])展现出优异性能。llm-GUI-G1_2505在GUI grounding基准测试中取得了新的SOTA性能,在ScreenSpot [7]上达到90.3%的准确率,在ScreenSpot-Pro [17]上达到37.1%。它超越了之前最佳的R1风格GUI Agent InfiGUI-R1 [24],同时所需数据量显著减少,输出token数量更少,训练阶段也更少。
综上所述,本文的贡献如下:
(1)作者识别出R1风格GUI Agent R1-Zero-Like训练流程中的三个挑战:由于grounding依赖于图像token,较长的推理会损害grounding;常见的 Reward 函数会导致尺寸敏感的 Reward 攻击;GRPO由于其目标会使得 Agent 偏向于更简单的示例。
(2)作者进一步分析和提出了三种解决方案:用于策略训练的快速思考模板、基于框尺寸的 Reward 来规范框尺寸,以及带有难度权重且无长度归一化的改进型GRPO。
(3)仅使用17K个完全开源的grounding样本进行训练,作者的GUI-G1-3B在测试时使用更少的token即达到了当前最佳性能。
2 R1-Zero-Like 训练范式用于GUI grounding
作者从如何训练多模态大语言模型(MLLMs)在定位任务中的训练方法开始解释。给定一个屏幕截图
和一个文本描述
,MLLM被训练以预测目标位置
,通常表示为一个边界框或一个点。遵循先前的工作[7],作者将定位问题表述为一个语言生成任务,其中MLLM生成一个包含预测位置以及其他元素(如图1中的推理过程或目标描述)的响应
。在作者的实现中,预测位置表示为一个边界框
,其中
和
分别表示水平和垂直坐标。该预测通过与真实边界框
进行评估。当通过GRPO等算法[33]应用强化学习时,首先使用一个模板来指导响应格式,模型生成
个候选响应
。每个响应随后通过一组基于规则的 Reward 函数进行评估,得到一个 Reward 集
。每个响应的相对优势
计算如下:
其中mean和std分别表示 Reward 的均值和标准差。最后,使用带有KL散度正则化的GRPO目标函数优化策略模型。
3 R1-Zero-Like训练如何影响GUI Agent 的定位?
作者首先旨在通过考察三个关键组成部分来理解R1-Zero类训练范式在GUIAgent中的接地任务:输入设计(模板)(第3.1节)、输出评估( Reward 函数)(第3.2节)以及策略更新(强化学习目标)(第3.3节)。最后,作者在第3.4节中介绍了llm-GUI-G1_2505GUI-G1,并在该节中总结并对比了llm-GUI-G1_2505与现有的R1风格Agent,以展示其在接地任务中的优势。
3.1 模板分析
近期R1风格的GUI Agent 越来越多地通过 Prompt 模型在行动前进行思考 [24, 27, 39],如图1所示。例如,InfiGUI-R1[24]使用了一个缓慢思考模板。尽管这种增强推理的 Agent 取得了优异性能,但尚不清楚这些收益是否真正源于推理过程本身。事实上,作者发现推理在GUI Agent 的接地任务中往往是不必要的。在进行深入分析之前,为了确保实验的一致性,作者形式化了模型的输入和输出。输入包括图像
和指令 Prompt
,而输出
由推理过程
和最终答案
组成,其中最终答案包含预测位置
。作者将推理token数量
定义为输出token,并将源自图像的token
定义为图像token。文本比例由
给出,其中
是指令token数量。
更长的推理会导致更差的 grounding 性能。虽然先前的工作,如 OpenAIo1 [29] 和 DeepSeek-R1 [11] 表明更长的推理链可以提高在数学和编程等 System-2 任务上的性能,但最近的研究 [18, 42] 发现引入中间推理步骤可能会损害图像分类和 GUI grounding 等任务的性能。基于这些观察,作者进一步发现更长的推理链在 ScreenSpot 数据集 [7] 上始终降低 grounding 准确性,如图2(左) 所示。这表明更长的链不仅是不必要的,而且在 GUI grounding 中可能会越来越有害,尤其是在要 grounding 的目标项是文本时。
定位受益于适当缩放的图像 Token ,而非缩放的文本推理。在图2(左中)中,作者观察到InfiGUI-R1-3B的定位性能随着图像 Token 数量的增加而提升。这一观察提出了一个核心问题:定位更依赖于图像 Token 还是文本 Token ?为探究这一问题,作者首先根据图像 Token 数量对测试样本进行划分,确保每个子集具有可比的视觉输入水平。在每个子集中,作者进一步根据文本比例将样本分为两类,并评估每种情况下的定位准确率。如图2(右)所示,较高的文本比例始终与较低的定位性能相关,表明丰富视觉内容比注入额外的文本推理更有效。
3.2 Reward 函数分析
DeepSeek-R1 [11] 中引入的基于规则的 Reward 函数,展示了基于精确匹配的简单而有效的方法。在定位任务中,当前R1风格的GUI Agent 的 Reward 函数主要分为基于命中(Hit-based)的 Reward [24, 27, 39] 和基于IoU(IoU-based)的 Reward [24],如表1所示。这里
是预测框的中心,计算方法为
基于命中的 Reward 检查预测框中心是否命中
,而基于IoU的 Reward 则测量
与
之间的IoU。尽管已有研究将
和
作为基于定位的强化学习(RL)的 Reward 信号,但这些目标如何共同影响训练动态仍不明确。为此,作者实现了这两种类型的 Reward 函数进行对比分析。详细的实验设置和评估指标可在附录C中找到。除非另有说明,后续所有分析均遵循相同设置。
单独优化
和
会导致冲突的 Reward 攻击行为。如图3(左)所示,优化
提高了准确率,但在后续训练中导致IoU下降。相反,优化
增强了重叠质量,但降低了准确率。这说明了GUI grounding中的 Reward 攻击现象,即模型以牺牲其他目标为代价过度拟合单一目标。这些指标捕捉了互补但竞争的方面:
侧重于正确识别目标框,而
衡量与真实标注的重叠程度。它们在单独优化时的冲突凸显了设计均衡 Reward 的挑战。
GRPO对不同尺寸框的样本选择偏差导致 Reward 攻击。为探究 Reward 攻击的成因,作者在图4(左)中可视化了两种具有预测边界框的情况。使用
训练的模型倾向于生成小于真实值的框,而
则导致显著更大的框。图3(右)定量验证了这一模式,其中在
下预测框的相对尺寸随训练增加,而在
下则减少。此外,如图4(右)所示,这些相反趋势的成因在于GRPO的样本选择如何与 Reward 函数相互作用:优化
鼓励模型选择能更好捕获核心目标区域的较小框,从而提升准确率;而优化
则倾向于生成与真实值重叠度更高的较大框,从而提高IoU。
通过正则化框尺寸帮助缓解 Reward 攻击。为解决 Reward 攻击问题,一种直接的方法是联合优化
和
。然而,如图3所示,训练过程可能仍会被两者中的某一个主导,导致平衡效果不佳。为缓解这一问题,作者在表1中引入新的 Reward 函数
。此处,
对其他项有类似定义。该 Reward 鼓励预测的边界框在尺寸上与真实值匹配。如图3所示,引入
进一步提升了准确率和IoU,预测框尺寸更贴近真实值。作者还尝试单独使用
,但模型未能生成正确格式的输出。作者推测这是因为
即使对基础薄弱的预测也分配非零 Reward ,导致优化集中在信息量不足的样本上。因此,
应与
和
结合使用,后者直接反映评估指标,并作为辅助约束。
3.3 对GRPO目标的分析
近期改进图形用户界面(GUI) Agent 的方法[24, 27, 39]采用了强化学习(RL)技术,例如DeepSeekMath提出的GRPO算法[33]。GRPO通过从旧策略
中为每个输入 Query q采样一组候选响应
来优化策略
,其中每个响应
的长度为
。策略根据每个 Token 计算出的归一化优势
进行更新,形成目标
。
其中
是响应中token的索引,
是一个超参数,用于控制与旧策略的最大允许偏差,并且
对输入进行裁剪以稳定训练。
在GUI grounding任务的设置中,公式2引入了两种偏差(另见图5):
响应长度偏差[25]:已有研究[25]指出,GRPO引入了长度偏差:在错误响应中,更长的响应更受青睐,而在正确响应中,较短的响应更受欢迎。这种现象源于将目标函数
除以某个值,当优势为正$( \hat { A } _ { i , t }
0 )$时,这会放大较短响应的每个token梯度,促使策略倾向于更简单的正确输出。相反,它还会鼓励生成不必要的长错误答案。如图6(左)所示,训练过程会逐渐导致错误响应变长、正确响应变短。这种趋势进一步损害性能,因为第3.1节表明,较长的输出会降低准确率。因此,在基础任务中,长度偏差尤其成问题:它不仅增加了token数量,还降低了整体质量。
问题难度偏差:已有研究[25]指出,将中心化结果 Reward 除以std
可能导致模型不成比例地关注更难或更容易的样本。然而,作者认为在策略更新时给更难的样本赋予更高权重是可取的。在基础任务中,目标相对框的大小可以作为任务难度的 Agent 指标[17]。基于这一直觉,作者将原始目标函数修改为
,其中
反映了问题q的难度。权重
基于相对框大小计算,较大的相对大小表示更容易的基础实例。详细的计算方法见附录C.3。将目标函数乘以
会给更难的样本分配更大的梯度,从而鼓励模型关注更具挑战性的实例。事实上,长度偏差也可以被视为一种难度偏差,因为它引导模型生成更长的错误响应,这加剧了从这类示例中学习的难度,并间接将焦点转向更简单的样本。
实验结果。作者实现了这两种改进,结果如表2所示。缓解长度和难度偏差始终提升了模型性能。图5(中间和右侧)进一步追踪了极端样本的比例,其中所有采样的响应要么全部正确,要么全部错误,贯穿整个训练过程。在中间图中,由于这些样本权重较低,llm-GUI-G1_2505在简单样本上最初落后于原始GRPO,但随着这些样本最终被学习,逐渐超越了原始GRPO。在右侧图中,llm-GUI-G1_2505在困难样本上保持了较低比例的极端情况,表明难度重新加权有助于从具有挑战性的实例中学习得更好。
3.4 GUI-G1:定制化RL视觉定位模型
基于上述分析,作者识别了现有 grounding 任务训练范式中的关键局限性。现在,作者总结所提出的改进方案,并与先前方法进行比较。
llm-GUI-G1_2505GUI-G1通过以下方式解决已识别的问题:
在3.1节中,思考会导致较差的定位性能:作者采用一个没有中间推理的模板,以防止策略在训练过程中生成长时间的思考。
和
在3.2节中导致不同类型的 Reward 攻击:作者将
和
结合作为 Reward 信号,并引入一个额外的
项来正则化预测框的大小,从而缓解由框大小不匹配引起的 Reward 攻击。
原始GRPO在3.3节中引入了长度和难度偏差:作者通过用常数Max_Tokens[25]替换
,并对GRPO目标
使用难度系数
来消除这些偏差。为了更清晰地展示差异,表3提供了GUI-G1与现有R1风格GUI Agent 在 grounding 任务中的结构化比较。
4 实验
在本节中,作者介绍了用于训练和评估作者提出的GUIG1-3BAgent的实验设置。作者概述了实现细节,描述了训练数据集和评估基准,并与最先进的方法进行了详细比较。
实现细节。llm-GUI-G1_2505基于Qwen2.5-VL-3B-Instruct构建,并使用VLM-R1框架[34]进行训练。 Reward 函数的形式为
,其中
设置为0.25,
设置为0.125。作者在4块NVIDIA H800 GPU上进行了为期3天的训练,全局批大小为32,学习率为
。未应用KL散度正则化。只需一个训练周期。
训练数据集与评估基准。作者构建了一个包含17K样本的 grounding 数据集,涵盖三个领域:移动端(源自 UI-BERT [3])、网络端(源自 OS-Atlas [38])和桌面端(源自 OS-Atlas,覆盖 Windows、Linux 和 MacOS)。训练数据集的更多细节在附录 D.1 中展示。为确保数据质量,每个样本使用 Qwen2.5-VL-3B-Instruct 进行八次 Prompt ,并丢弃那些始终给出正确或错误响应的样本 [6]。在评估方面,作者采用了 ScreenSpot [7] 和 ScreenSpot-Pro [17]。ScreenSpot 评估跨不同平台(包括移动端、网络端和桌面端)的 grounding 性能,而 ScreenSpot-Pro 则更侧重于具有高分辨率屏幕的桌面端复杂场景。
ScreenSpot上的性能比较。作者使用其在原始论文中报告的结果,将GUI-G1-3B与一系列最先进的开源和专有GUI Agent 进行比较。表4总结了ScreenSpot基准上的性能表现。GUI-G1-3B取得了最先进的结果,其性能优于专有系统如Gemini 2.0 [8]、通用模型如Qwen2.5系列 [4]、特定GUI的SFT模型如OS-Atlas [38]和UGround [10],以及R1风格的模型包括UI-R1 [27]、GUI-R1 [39]和InfiGUI-R1 [24]。此外,它还超越了更大的模型如OS-Atlas-7B [38]。尽管性能强大,llm-GUI-G1_2505仅在17K样本上训练,且无需中间推理步骤。此外,它通过生成显著更少的token实现了更高的推理效率(参见附录D.2,表7)。
ScreenSpot-Pro性能比较。如表5所示,GUI-G1-3B在具有挑战性的ScreenSpot-Pro基准测试中取得了具有竞争力的性能,整体平均得分为37.1%。它优于更大的UI-TARS-7B模型(35.7%),并且显著超越了表现最佳的基于R1的模型InfiGUI-R1-3B(35.7%)。尽管GUI-G1-3B和OS-Atlas-7B都使用了相同的训练数据集,但llm-GUI-G1_2505在OS子集上的表现更差(16.1%对比OS-Atlas-7B的16.8%),这表明其性能提升主要来自于激活预训练知识的后训练过程,而非特定任务数据。这证明了llm-GUI-G1_2505在现实场景中的鲁棒性和泛化能力。
5 相关工作
GUI Agent 的接地。接地是GUI Agent 研究的关键[37, 45],推动了数据收集和模型架构的进步。早期工作如VUT[20]和Spotlight[16]专注于使用基于BERT[9]的表示来对齐任务结构和模态(例如,屏幕截图、指令)。RUIG[43]使用强化学习将指令映射到UI坐标。随着多模态大语言模型(MLLM)的兴起,焦点转向跨平台微调预训练模型以实现更好的交互和适应GUI视觉。ShowUI[22]通过减少冗余 Token 优化了GUI图像处理,提高了效率。Ferret-UI 2[21]通过高分辨率编码和跨平台适应性增强了GUI图像理解。相比之下,Aria-UI[41]引入了一种多轮接地模型,具有顺序推理能力,实现了超越单次接地的动态多步交互。
最近,OS-Atlas[38]和UGround[10]通过创建大型开源数据集和训练能够处理分布外任务的模型,推动了该领域的发展,在GUI接地方面取得了最先进的结果。与这些依赖大型数据集和监督微调的方法不同,作者的工作探索了如何通过少量数据和类似R1-Zero的训练方法解锁MLLM在GUI任务上的接地能力。
R1-Zero类训练用于MLLMs。DeepSeek-R1-Zero [11] 引入了一种基于GRPO的离线训练框架,通过鼓励结构化输出来提升推理能力。该方法已被扩展至多模态模型,Vision-R1 [13]、MM-EUREKA [28] 和 VisualThinkerR1-Zero [44] 在视觉语言和多模态推理任务中展示了性能提升。LMM-R1 [31] 采用两阶段强化学习方法,以较低的计算成本取得了优异成果。然而,近期研究 [18] 挑战并表明,在多模态分类任务中,推理规避型模型可以优于基于推理的模型,这表明推理并非在所有任务中都具有普遍优势。在GUIAgent中,如UI-R1 [27]、GUI-R1 [39] 和 InfiGUI-R1 [24] 等研究证明了R1-Zero类训练在动作预测和基础定位方面的有效性。这些方法在GUI基础定位基准(ScreenSpot [7] 和 ScreenSpot-Pro [17])以及 AndroidControl 基准 [19] 上显著提升了性能。在本工作中,作者专注于GUIAgent中的基础定位任务,并探讨R1-Zero类训练在基础定位任务中的原始设置是否适用于GUI场景。
参考
[1]. GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents