Pose-RFT:首个混合动作强化微调MLLM,用HyGRPO超越SMPL回归实现3D人体姿态精准生成

大模型机器学习算法

picture.image

精简阅读版本

本文主要解决了什么问题

    1. 现有的针对姿态的多模态大语言模型(MLLMs)通常通过SMPL参数回归或token级预测等监督目标进行训练,难以建模3D姿态生成中固有的模糊性。
    1. 现有方法难以实现准确3D姿态生成所需的任务特定对齐,特别是在图像到姿态生成中的空间对齐和文本到姿态生成中的语义一致性方面。
    1. 大多数现有的强化微调(RFT)算法在纯离散的Token空间中运行,对于优化3D人体姿态生成所需的细粒度、连续输出具有固有的局限性。
    1. 在图像到姿态生成中,2D图像的深度和透视限制导致模糊性,通常对应于多个可能的3D姿态;在文本到姿态生成中,自然语言的模糊性和主观性导致有效姿态分布广泛。

本文的核心创新是什么

    1. 提出了Pose-RFT,这是首个专为在多模态大语言模型(MLLMs)中进行3D人体姿态生成而设计的强化微调框架。
    1. 开发了HyGRPO,一种混合动作强化学习算法,能够有效优化特定姿态多模态语言模型中的离散和连续输出,通过对采样响应进行组内Reward归一化来指导离散和连续动作的联合优化。
    1. 将3D人体姿态生成问题形式化为一个混合动作强化学习问题,联合优化离散语言预测和连续姿态生成,采用多元高斯分布参数化连续策略。
    1. 引入了四个可验证的任务特定Reward函数来指导策略优化:(i)用于图像到姿态生成的空间位置Reward;(ii)用于文本到姿态生成的语义对齐Reward;(iii)格式正确性Reward;(iv)文本嵌入相似度Reward。
    1. 引入了姿态感知编码器模块,通过在人体姿态估计任务上预训练的视觉Transformer来提取高分辨率、姿态敏感特征,增强多模态状态表示。

结果相较于以前的方法有哪些提升

    1. 在图像到姿态生成任务中,Pose-RFT在3DPW和Human3.6M数据集上显著优于其他姿态特定的MLLM,缩小了通用MLLM与任务特定姿态估计模型之间的性能差距。
    1. 在文本到姿态生成任务中,Pose-RFT在PoseScript-H2测试集上的大多数指标上实现了最佳性能,特别是在Recall@K分数方面,有效增强了模型捕捉细粒度文本-姿态对应关系的能力。
    1. 与仅优化离散动作空间中下一词预测的GRPO相比,HyGRPO在特定任务Reward函数的指导下,联合优化离散词元输出和连续3D姿态参数,在文本和图像条件下的姿态生成中具有更好的对齐效果。
    1. 强化微调在PoseScript和3DPW数据集上分别持续提升了文本到姿态和图像到姿态的生成性能,尤其在文本到姿态设置中取得了显著提升。
    1. 将3D人体姿态生成建模为概率分布(高斯策略)比标准的确定性回归基线在引入强化信号时取得了显著更好的性能,促进了更有效的Reward驱动学习。

局限性总结

    1. 姿态感知编码器对文本到姿态的语义Reward几乎没有什么益处,可能是由于额外的视觉token与文本输入的匹配度较低,限制了它们在跨模态理解中的贡献。
    1. 在图像到姿态任务中,强化微调带来的性能提升不如文本到姿态任务显著,表明模型在不同模态上的优化效果存在差异。
    1. 模型依赖于预训练的文本姿态检索模型来评估语义对齐,这可能影响模型在未见过的文本描述上的泛化能力。
    1. 论文未详细讨论模型在计算复杂度和推理速度方面的表现,这可能是在实际应用中的一个考虑因素。
深入阅读版本

导读

从图像或文本等多模态输入生成3D人体姿态需要模型能够捕捉丰富的空间和语义对应关系。虽然针对姿态的多模态大语言模型(MLLMs)在这一任务中展现出潜力,但它们通常通过SMPL参数回归或token级预测等监督目标进行训练,难以建模固有的模糊性,也难以实现准确3D姿态生成所需的任务特定对齐。为解决这些局限性,作者提出了Pose-RFT,一个专为MLLMs中的3D人体姿态生成设计的强化微调框架。作者将该任务形式化为一个混合动作强化学习问题,联合优化离散语言预测和连续姿态生成。为此,作者引入了HyGRPO,一种混合强化学习算法,通过对采样响应进行组内 Reward 归一化来指导离散和连续动作的联合优化。Pose-RFT进一步结合了任务特定的 Reward 函数,以引导优化朝着图像到姿态生成中的空间对齐和文本到姿态生成中的语义一致性方向发展。在多个姿态生成基准测试上的大量实验表明,Pose-RFT显著优于现有的针对姿态的MLLMs,验证了混合动作强化微调在3D姿态生成中的有效性。

1 引言

3D人体姿态生成领域的最新进展[10, 11, 18, 44]越来越关注解决从多模态输入(如图像和文本)理解和推理3D人体姿态的问题。在这些方法中,特定姿态的多模态大语言模型(MLLMs)[14, 27]已成为一个有前景的方向,通过配备专门的姿态解码器扩展通用语言模型,实现语言、视觉和3D姿态的联合推理。这些模型在图像到姿态和文本到姿态生成任务中均表现出强大的性能。

尽管取得了进展,当前的姿态特定多模态语言模型通常使用监督目标进行训练,例如SMPL [33]参数回归 [14] 或 token 级预测 [27]。虽然这些目标确保了与标注数据的连贯性,但它们不足以捕捉3D姿态生成中固有的模糊性以及任务特定的空间和语义对齐需求。在图像到姿态生成中,模糊性源于2D图像的深度和透视限制,这些限制通常对应于多个可能的3D姿态。对于文本到姿态生成,挑战进一步加剧,自然语言的模糊性和主观性导致有效姿态分布广泛。如图1所示,不同的3D姿态可能产生相似的重建损失(例如MSE),尽管它们表现出明显的语义差异。这突出了标准监督目标的局限性,并促使作者需要更好的反映语义对齐的 Reward 信号。

picture.image

这些挑战推动了强化学习(RL)的应用,强化学习提供了一种超越监督标签优化模型的原则性方法,以实现更符合空间和语义输出的模型。然而,大多数现有的强化微调(RFT)算法[1, 21, 32, 42, 26]在纯离散的 Token 空间中运行,并且主要设计用于语言级对齐。这类离散方法对于优化3D人体姿态生成所需的细粒度、连续输出具有固有的局限性。

为应对这些挑战,作者提出了Pose-RFT(见图2),这是一个专为MLLM中的3D人体姿态生成设计的强化微调框架。首先,作者将任务构建为一个混合动作空间强化学习问题,其中策略同时生成离散动作(例如,文本 Token )和连续动作(例如,3D姿态参数)。受混合RL领域先前工作[34, 13, 25]的启发,作者利用现有姿态特定MLLM的语言对齐多模态嵌入构建了一个统一的表示空间。连续动作通过一个多元高斯策略建模,该策略由一个输出均值和协方差的双重姿态头参数化。其次,作者引入了基于GRPO[41]构建的在线混合强化学习算法HyGRPO,该算法直接在原始混合动作空间中优化策略。对于每个输入,预训练的姿态特定MLLM生成多个混合响应(文本+姿态),在组内标准化 Reward 分数,并更新策略以优先选择具有更高 Reward 的响应。第三,作者提出了四个可验证的任务特定 Reward 函数来指导策略优化:(i)用于图像到姿态生成的空间位置 Reward ;(ii)用于文本到姿态生成的语义对齐 Reward ;(iii)格式正确性 Reward ;(iv)文本嵌入相似度 Reward 。通过使用多样化的输出和结构化反馈进行训练,HyGRPO鼓励模型生成空间准确且语义对齐的3D姿态。

picture.image

总之,作者的主要贡献如下:

    1. 作者提出了Pose-RFT,这是首个专为在多模态大语言模型(MLLMs)中进行3D人体姿态生成而设计的强化微调框架。
    1. 作者开发了HyGRPO,一种混合动作强化学习算法,能够有效优化特定姿态多模态语言模型中的离散和连续输出。
    1. 在多个姿态生成基准测试上的大量实验表明,Pose-RFT显著提升了现有特定姿态的MLLM性能,验证了混合动作强化微调在3D姿态生成方面的有效性。

2 相关工作

2.1 人体姿态生成

人体姿态生成涉及根据图像或文本生成3D人体姿态。对于图像到姿态生成,也称为姿态估计,现有方法通常分为基于优化和基于回归的方法。基于优化的方法[6, 36]通过迭代优化将投影的关节与检测到的2D关键点对齐来估计3D姿态参数。相比之下,基于回归的方法[22, 7, 12, 16]依赖于深度神经网络直接从输入图像预测3D姿态。文本到姿态生成旨在根据文本描述合成3D人体姿态,例如身体属性或动作[10, 44, 18]。尽管这些方法已显示出有前景的结果,但它们仍然局限于图像到姿态或文本到姿态生成,缺乏一个能够利用跨模态知识从视觉和文本输入中推理人体姿态的统一框架。

2.2 多模态大语言模型

多模态大语言模型(MLLMs)[1, 30, 24, 48, 9] 通过联合建模视觉输入和自然语言,在视觉语言理解任务中展现出强大的性能。这些模型在多模态推理、视觉定位和指令遵循方面表现出色,使其能够在多样化的应用场景中理解复杂的视觉内容。利用这些能力,近期研究已成功将MLLMs应用于以视觉为中心的下游任务,如图像分割[23, 4]、异常检测[17]和关键点定位[47],证明其具有超越纯语言领域的可迁移性。

为了将大型多模态语言模型(MLLMs)应用于下游任务,通常采用监督微调(SFT)和强化微调(RFT)等训练后策略。近期的研究如ChatPose [14] 和 UniPose [27] 将SFT应用于扩展MLLMs以生成3D姿态,利用其视觉语言推理能力。然而,这些方法完全依赖于SFT,并未结合基于强化的优化。RFT的缺失限制了模型进一步优化生成质量的能力,特别是在涉及模糊性和特定任务对齐的场景中。

2.3 强化学习

强化学习(RL)[43]是机器学习中的一个核心范式,其中Agent通过与环境交互并优化累积 Reward 来学习策略——即从观察结果到动作的映射。通过试错学习,Agent根据标量 Reward 形式的反馈来改进其策略。Q-learning[50]等经典算法已成功应用于机器人、自主控制以及游戏等领域。随着大语言模型[38, 45, 1]的兴起,带人类反馈的强化学习(RLHF)[3]已成为利用人类偏好数据微调模型的关键技术。RLHF借助近端策略优化(PPO)[40]和直接偏好优化(DPO)[39]等算法来指导模型行为,以提升响应生成中的对齐性、连贯性和有效性。

在多模态大语言模型的背景下,近期研究[56, 31, 53, 32, 52, 55, 42]探索了使用具有可验证 Reward 信号的强化学习来增强视觉推理。然而,强化学习在3D人体姿态生成中的应用仍处于探索阶段,这主要由于姿态回归的连续性,给原本为离散动作空间设计的强化学习方法带来了挑战。为解决其他领域的类似挑战,一些研究提出了混合离散-连续动作公式[34, 13, 25],为将强化学习应用于结构化连续任务(如3D姿态生成)提供了有前景的方向。

3 方法论

本节首先将3D人体姿态生成问题重新表述为混合动作空间下的强化学习问题。接着介绍了所提出的混合动作空间组相对策略优化(HyGRPO)算法,该算法联合优化离散语言和连续姿态输出。最后,描述了如何使用为3D人体姿态生成设计的任务特定 Reward 函数,通过HyGRPO对姿态特定的大语言模型(MLLM)进行微调。

3.1 强化学习中的3D姿态生成重述

作者在特定姿态的多模态大语言模型中,将3D人体姿态生成问题表述为一种混合动作强化学习问题。该模型在包含离散语言符号和连续3D姿态的混合动作空间中运行。整体策略定义为:

其中

表示多模态输入,

表示离散文本响应,

表示连续3D姿态参数。作者将联合分布

视为整体策略,该策略被分解为一个离散子策略

,用于建模文本响应的分布,以及一个连续子策略

,用于在输入 Query 和生成的语言响应的条件下建模3D姿态的分布。

为了参数化连续策略,作者采用一个定义在3D人体姿态空间上的多元高斯分布:

其中均值

和协方差

由一个基于多模态输入

和离散响应

条件的连续姿态头进行预测。这种概率性表述通过建模连续姿态向量上的条件分布,捕捉了3D人体姿态生成中固有的偶然不确定性。此外,可微多变量高斯函数的使用既支持训练过程中的随机采样,又能在连续姿态空间内实现基于梯度的有效优化。

受益于在MLLM预训练阶段建立的强大跨模态对齐,离散策略和连续策略均构建在共享的语言对齐多模态嵌入空间上。为进一步增强姿态理解,作者通过添加姿态感知编码器模块来增强原始的姿态特定MLLM,该模块丰富了多模态状态表示。具体而言,作者引入了在人体姿态估计任务上预训练的姿态特定视觉Transformer来提取高分辨率、姿态敏感特征。这些特征与语言对齐的多模态嵌入融合,生成更具有信息量和姿态相关性的状态空间,用于强化学习。姿态感知编码器和视觉融合策略的详细内容在附录A中提供。在优化过程中,每个策略头使用其对应的 Reward 信号进行更新,而共享主干部分接收组合梯度,从而实现离散和连续动作空间上的端到端训练。

3.2 HyGRPO:混合动作空间组相对策略优化

作者提出了混合动作空间组相对策略优化(HyGRPO),这是一种在线强化学习算法,旨在增强用于3D人体姿态生成的姿态特定多模态语言模型(MLLM)。利用在预训练过程中学习到的统一表示空间,HyGRPO直接在共享的语言对齐多模态嵌入空间中优化离散语言头和连续姿态头,从而促进文本输出和姿态输出之间的协调对齐。该算法有效弥合了离散 Token 预测和连续姿态生成之间的差距。

为了处理混合输出,HyGRPO模型对离散文本答案

和连续人类姿态

进行建模,这些输出基于输入问题

。对于数据集

中的每个训练样本

,作者采样

个输出候选

,并使用以下目标函数优化策略:

其中

是第

个采样输出的重要性权重,计算为当前策略与参考策略之间的比值:

作者将标准化优势

分解为对应于离散和连续动作的两个分量:

其中

衡量生成文本响应的质量,

评估预测姿态质量。为稳定训练,作者采用PPO [40] 中的裁剪重要性采样。最终 HyGRPO 训练目标为:

Missing \left or extra \right

其中

是生成候选组,

是具有姿态输出的候选。该目标为离散和连续头提供独立的优势信号,同时通过组合梯度更新共享主干网络,从而在混合动作空间中实现稳定且可泛化的训练(参见附录B中的推导过程)。

算法1描述了HyGRPO的伪代码。在每次迭代中,作者采样一批问题,从当前策略生成多个候选输出,使用特定任务的 Reward 模型计算两种类型的 Reward ,并使用HyGRPO目标更新策略。

3.3 增强基于姿态的特定MLLM模型

作者应用HyGRPO来优化针对混合动作输出的特定姿态多任务学习模型(MLLM),使用任务特定的 Reward 信号。如图2所示,对于数据集

中的每个问题

,策略模型

生成一组

个混合输出,每个输出包含一个离散文本答案和一个连续的3D姿态,即

。对于每个候选,作者计算针对不同姿态生成设置的精心设计的任务特定 Reward ,通过HyGRPO来指导策略更新。

图像到姿态生成中的关节位置 Reward 。在图像到姿态生成任务中,模型被期望根据输入图像输出SMPL姿态系数。为了鼓励空间精度, Reward 应当反映预测姿态与视觉输入的匹配程度。在3D人体姿态估计中广泛采用的一种指标是平均关节位置误差,它计算预测的3D关节位置与真实3D关节位置之间的平均欧几里得距离。基于此,作者定义 Reward 为关节误差的倒数,对更精确的空间匹配分配更高的分数:

文本到姿态生成中的语义对齐 Reward 。在文本到姿态生成任务中,模型被期望根据文本 Prompt 预测SMPL姿态系数。与强调关节级精度的图像到姿态生成不同,该任务着重于文本描述与生成姿态之间的High-Level语义对齐。

为了量化这种对齐,作者采用一个预训练的文本姿态检索模型,该模型将两个输入映射到一个共享的嵌入空间。具体来说,检索模型包含一个文本编码器

和一个姿态编码器

,它们各自将输入投影到共享的嵌入空间。语义对齐 Reward 定义为编码文本与生成姿态之间的相似度得分:

格式 Reward 。为了鼓励模型生成符合指定格式的响应,作者引入了一个格式 Reward ,记作

。例如,作者期望模型生成如下模板封装的输出: "这个人的SMPL姿态是

" 为了执行这一约束,作者应用正则表达式匹配来评估格式合规性。格式 Reward 定义为:

文本嵌入相似度 Reward 。为了在微调面向姿态中心任务的同时保留通用的问答能力,作者引入了一种文本 Reward 机制,该机制鼓励视觉语言问答任务中生成答案与真实答案之间的语义一致性。具体而言,作者使用BGE-M3编码器[8]分别计算模型生成答案和真实回答的密集嵌入。该 Reward 定义为预测答案与真实答案归一化嵌入之间的余弦相似度:

4 实验

4.1 实验设置

数据集。为了训练Pose-RFT,作者整合了四种类型的数据源以增强多模态理解: (1) 文本-姿态数据。作者使用了PoseScript数据集[10],该数据集提供自然语言描述与3D人体姿态的配对。这使模型能够学习语言与人体姿态之间的细粒度语义关联。 (2) 图像-姿态数据。遵循先前研究[16, 14, 27],作者采用了标准的人体姿态估计训练数据集,包括Human3.6M[20]、MPI-INF-3DHP[35]、COCO[29]和MPII[2]。在评估时,作者使用了3DPW[46]和Human3.6M测试集。 (3) 图像-文本数据。作者采用了在PoseEmbroider[11]中引入的BEDLAM-Script数据集,这是一个经过精心策划的多模态数据集,包含图像、3D姿态和文本描述,基于BEDLAM数据集[5]构建。 (4) VQA数据。对于视觉问答,作者使用了LLaVA-Instruct-150k数据集[30]。

指标。作者使用重建和检索指标在图像到姿态和文本到姿态任务上评估Pose-RFT。图像到姿态重建指标:作者报告了平均每关节位置误差(MPJPE)和Procrustes对齐的MPJPE(PA-MPJPE),它们分别测量预测关节位置和真实关节位置之间的平均欧几里得距离,有和没有Procrustes对齐。文本到姿态检索指标:遵循[14, 27],作者报告了文本到姿态(

)和姿态到文本(

)检索任务的召回率

,10,20),它们评估匹配姿态与其对应文本描述的准确性。

实现细节。作者采用LLaVA-1.5V-7B[30]作为视觉语言主干网络。对于姿态感知编码器,作者采用来自[16]的预训练视觉Transformer。强化微调遵循Visual-RFT[32]和VLM-R1[42]的设置。在预训练和微调过程中,CLIP编码器和姿态感知编码器保持冻结,而 Projector 和任务头进行更新。大语言模型使用LoRA[19]进行微调。更详细的实现细节在附录C中提供。

4.2 人体姿态生成任务上的比较

图像到姿态生成。对于图像到姿态生成任务,作者在3DPW [46] 和 Human3.6M [20] 数据集上,将 Pose-RFT 与传统姿态估计方法 [46, 54, 51, 16, 49, 15, 12] 以及基于 MLLM 的方法 [14, 27] 进行了比较。如表1所示,Pose-RFT 显著优于其他姿态特定的 MLLM,缩小了通用 MLLM 与任务特定姿态估计模型之间的性能差距。作者将这一改进主要归因于姿态感知编码器,该编码器捕获了更全面的姿态相关信息,有效增强了模型理解和生成人体姿态的能力。

picture.image

文本到姿态生成。对于文本到姿态生成任务,作者在PoseScript-H2测试集[10]上比较了Pose-RFT与现有的文本条件姿态生成模型[10, 14, 28, 27],该测试集包含1234对高质量的人类编写文本-姿态对。由于这些生成模型原生不支持检索,作者遵循先前的工作,从输入标题生成3D姿态,然后使用[10]提供的预训练文本到姿态检索模型评估结果,计算Recall@K分数作为生成质量的 Agent 指标。如表2所示,Pose-RFT在大多数指标上实现了最佳性能。作者主要归因于使用语义对齐 Reward 的强化微调,这有效地增强了模型捕捉细粒度文本-姿态对应关系的能力,并提高了生成质量。

picture.image

虽然现有的文本到姿态生成研究有限,但已有方法在PoseScript-H2基准上使用两种不同的检索协议评估其性能。为确保公平和全面的比较,作者报告了在两种协议下的结果:协议1(完整检索)遵循标准的单对单检索设置,其中每个 Query 对应测试集中单个目标。作者基于数据集配对,在完整测试集上计算Recall@K,将每个 Query 与其对应的真实姿态进行匹配。相比之下,协议2(随机采样)采用常用的随机采样下的Recall@K评估方法。对于每个 Query ,作者随机采样N=32个候选(包括真实姿态),重复检索过程R=10次以平均化方差。

4.3 消融实验与讨论

姿态感知编码器。作者评估了所提出的姿态感知编码器在整个训练过程中的有效性。如图4所示,与 Baseline 模型相比,姿态感知模型在3DPW数据集上获得了更高的关节位置 Reward 分数。这一结果表明,仅依赖CLIP编码器对于姿态估计任务来说并非最优。相反,通过引入一个在姿态估计任务上预训练的视觉Transformer,并采用token Level 的特征融合策略,姿态感知模型能够更有效地捕捉细粒度的姿态信息,从而显著提升了姿态准确性。然而,作者观察到姿态感知编码器对文本到姿态的语义 Reward 几乎没有带来益处,这可能是由于额外的视觉token与文本输入的匹配度较低,限制了它们在跨模态理解中的贡献。

picture.image

GRPO与HyGRPO对比。作者比较了GRPO和所提出的HyGRPO算法在特定姿态多任务语言模型强化微调方面的有效性。在该实验中,两种方法均应用于在多任务数据集上训练的模型。如图3所示,仅优化离散动作空间中下一词预测的GRPO对3D姿态生成质量提升微乎其微。相比之下,HyGRPO在特定任务 Reward 函数的指导下,联合优化离散词元输出和连续3D姿态参数。利用语义对齐和联合位置 Reward (两者均定量评估输出质量),HyGRPO在训练过程中 Reward 分数持续提升,表明其在文本和图像条件下的姿态生成中具有更好的对齐效果。

picture.image

强化微调。作者通过使用HyGRPO评估Pose-RFT在强化微调方面的有效性。从预训练的姿态特定MLLM开始,模型在多任务数据集上进行1,000步的微调。如图4所示,强化微调在PoseScript和3DPW数据集上分别持续提升了文本到姿态和图像到姿态的生成性能,尤其在文本到姿态设置中取得了显著提升。这些结果表明强化学习在增强语言、视觉和3D姿态表示之间对齐方面的有效性。此外,作者观察到文本到姿态任务的 Reward 提升远大于图像到姿态任务。作者归因于预训练文本姿态检索模型的强联合建模能力[10],该模型有效地指导文本条件下的姿态生成。

姿态生成中的分布建模为评估将3D人体姿态生成建模为概率分布的影响,作者进行了一项消融研究,比较作者的高斯策略与标准的确定性回归 Baseline 。如表3所示,在没有强化微调的情况下,分布头略逊于确定性对应部分。然而,当引入强化信号时,概率模型取得了显著更好的性能。这些结果表明,分布建模促进了更有效的 Reward 驱动学习,使模型能够更好地整合多模态输入中的语义和空间反馈,并生成更高质量的3D姿态。

picture.image

4.4 定性结果

如图5所示,作者展示了从一组固定的文本 Prompt 中生成的3D姿态的定性示例。对于每个 Prompt ,作者可视化在不同强化微调步骤下采样的姿态(从左到右)。这些结果说明了模型在生成与相应文本描述语义上对齐的姿态方面的逐步改进。

picture.image

5 结论

本文提出Pose-RFT,首个专为增强特定姿态多模态语言模型(MLLM)中的3D姿态生成而设计的强化微调框架。为应对离散-连续混合动作空间带来的挑战,作者引入混合动作空间组相对策略优化(HyGRPO),这是一种新型强化学习算法,可联合优化文本响应和3D姿态输出。通过结合能够捕捉空间精度和语义一致性的任务特定 Reward 函数,Pose-RFT有效提升了不同输入模态下的生成质量。在多个基准测试中的大量实验表明,Pose-RFT始终优于现有的特定姿态MLLM,验证了混合动作强化微调在3D姿态生成任务中的有效性。

参考

[1]. Pose-RFT: Enhancing MLLMs for 3D Pose Generation via Hybrid Action Reinforcement Fine-Tuning

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论