告别推理‘幻觉’!MLLMs  刷新SOTA:Pretext-GRPO自监督强化学习+双任务推理机制登顶6大榜单 !

大模型机器学习算法

备注好友:方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

Image

复杂视频推理仍然是多模态大语言模型(Multimodal Large Language Models, MLLMs)面临的重要挑战,因为当前基于 R1 的方法论往往侧重于从文本和图像任务中发展而来的以文本为中心的推理。

在视频任务中,这类策略通常未能充分利用丰富的视觉信息,导致可能出现捷径学习(shortcut learning)现象,并增加幻觉(hallucination)风险。为了促进更鲁棒、以视觉为中心的视频理解,作者首先在标准 R1 流水线中引入一种新颖的自监督强化学习 GRPO 算法(Pretext-GRPO),其中在对变换后的视觉输入正确解决预训练任务时给予正向 Reward ,从而促使模型非平凡地处理视觉信息。

基于 Pretext-GRPO 的有效性,作者进一步提出了 ViSS-R1 框架,该框架将基于预训练任务的自监督学习直接集成并简化至 MLLM 的 R1 后训练范式中。与仅依赖Sparse视觉线索的方法不同,llm-ViSS-R1_2511通过同时处理关于变换的预训练问题(pretext questions)和真实用户 Query ,迫使模型对变换后的视觉输入进行推理。

这要求模型识别出所应用的变换,并重建原始视频,以形成准确的最终答案。在六个广泛使用的视频推理与理解基准上的全面评估表明,作者的 Pretext-GRPO 与 ViSS-R1 在复杂视频推理任务中具有显著的有效性与优越性。作者的代码与模型将公开发布。

  1. 引言

除了基础的视频理解之外,复杂的视频推理在从视频内容中推理物体、关系、事件和因果关系方面提出了新的挑战 [61, 65, 68, 74]。继在大语言模型领域通过可验证 Reward 的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)[17, 29] 取得成功之后,近期研究 increasingly 趋向于激励多模态大模型(Multimodal Large Models)在视频推理任务中实现更深层次的理解与推理能力。

多模态大语言模型(Multimodal Large Language Models, MLLMs)在复杂图像 [22, 39, 41, 49, 62, 69] 和视频 [13, 34, 47, 55] 的推理能力方面取得了显著进展,其通过在文本-based Chain-of-Thought (CoT) 中揭示思维过程来实现。尽管已有这些早期进展,基于MLLMs的视频推理仍处于探索阶段,研究尚不充分。

picture.image

Image

受基于图像的多模态大语言模型(Multimodal Large Language Model, MLLM)推理的启发,近期的视频推理大多采用基于 R1 范式 [17, 52] 的相似框架。如图1(a) 所示,MLLM 首先通过思维链(Chain-of-Thought, CoT)进行监督微调(Supervised Fine-Tuning, SFT),随后利用强化学习(Reinforcement Learning, RL)算法(如 PPO [45]、GRPO [46])进行优化。为增强时间推理能力,研究者精心构建了高质量的视频特定 CoT 数据集用于 SFT 训练。而在 RL 优化阶段,方法上的进展主要局限于时间增强 [13] 或时间对齐 Reward 的引入 [34, 55]。

在现有的视频 R1 研究中,密集的视频信息主要被用作上下文证据,模型从中提取Sparse的线索以支持基于文本的推理。(作者在附录中包含一个示例实验。)尽管 Video CoT 数据集经过精心构建,但大量视频内容仍被未充分利用,因为视频通常包含远超文本所能传达的信息量。因此,模型可能通过聚焦于单帧或快照等捷径策略,而非进行深入、全面的视频推理 [66]。此外,当前方法论中以文本为中心的推理主导地位,往往忽视了丰富的视觉信息,从而增加了生成幻觉的风险 [21]。这引出了一个关键问题:作者如何从视觉中心视角促进多模态大模型(MLLM)的视频推理?

为此,作者提出了一种视频自监督强化学习框架,称为 ViSS-R1。为解决视频中视觉信息利用Sparse的问题,作者采用基于预训练任务的自监督学习(Self-Supervised Learning, SSL)来增强视频的视觉中心表征学习。SSL 在表征学习方面有着悠久的历史,例如在图像中利用旋转 [15]、块打乱 [11, 43] 和图像修复 [44] 等多种预训练任务;在视频中则包括 3D 旋转 [27]、片段打乱 [59] 和加速度建模 [2, 63] 等。预训练完成后,模型可迁移至特定下游任务进行微调。在现代 RLVR 后训练框架中,作者利用预训练 SSL 作为有效切入点,首先提取并理解视频内容,随后再进行目标导向的文本推理和 Query 特定推理。这一策略的动机在于,视觉中心的预训练任务能够自然地提供适合强化学习(RL)机制的 Reward 信号,而无需额外标注。

在本文中,作者提出了两种将自监督学习(SSL)引入基于视频的多模态大语言模型(MLLM)的方法:

1)基于SSL的预训练-GRPO(Pretext-GRPO)算法;

2)将预训练任务整合到MLLM的完整训练流程中。对于第一种方法,作者在标准强化学习(RL)训练之前引入一个独立的Pretext-GRPO阶段,旨在为RL策略模型提供一个良好的初始化(warm start),与传统的冷启动监督微调(SFT)形成对比(如图1(b)所示)。

在Pretext-GRPO中,视觉输入(包括混合图像和视频)会经过多种变换,随后用于训练策略模型以识别所应用的具体变换类型。该优化算法与原始GRPO相同,唯一区别在于真实标签对应于特定的变换类型。随后,在使用真实用户问题进行常规GRPO优化后,作者证明Pretext-GRPO在多个视频推理与理解基准测试中均带来了持续的性能提升。

在上述方法中,Pretext-GRPO 与标准的强化学习(Reinforcement Learning, RL)范式相解耦,这在实际训练中引入了额外的控制复杂性。因此,作者提出保留标准的 R1 框架,但改为强制多模态大语言模型(Multimodal Large Language Models, MLLMs)直接对变换后的视频进行推理(图1(c))。具体而言,模型同时接收预训练任务问题(pretext question)和用户的 Query 问题,这要求模型必须首先准确识别出所应用的变换,才能正确回答主要问题,从而隐式地恢复原始视频。这一整合设置在监督微调(Supervised Fine-Tuning, SFT)和强化学习(RL)两个阶段均保持一致:在 SFT 阶段,模型学习以预定义格式组织对两个问题的回答;在 RL 阶段,则同时接收两个不同的 Reward 信号进行联合优化。整个流程构成了作者提出的 ViSS-R1。

综上所述,作者的贡献有三方面:

• 作者提出了一种新颖的Pretext-GRPO RL算法,用于视觉中心的多模态大语言模型(MLLM)视频推理,该方法利用自监督视觉变换。这种无需标注的方法可无缝且高效地集成到现有的R1范式框架中。

• 作者构建了ViSS-R1框架,通过在监督微调(SFT)和强化学习(RL)阶段均训练MLLM直接处理变换后的输入,从而提升视频推理能力。

• 在多个视频推理与理解基准上的全面评估表明,llm-ViSS-R1_2511具有显著的有效性和优越性。

  1. 相关工作

2.1. 面向视频的多模态大语言模型

视频理解是一项基础且具有挑战性的任务,旨在有效管理、分析和解释复杂的视频内容 [50]。近年来,大规模视觉指令微调的进展催生了一系列强大的开源多模态大模型(Multimodal Large Language Models, MLLMs)[1, 7, 31, 37, 54, 72],显著提升了视频理解能力。通过专注于视频特有的时空感知,当前的视频 MLLMs [3, 6, 8, 26, 35, 36, 60, 67, 70] 在视频问答、视频字幕生成等通用任务上取得了显著进展。然而,在处理复杂的时空视频推理场景 [20, 61, 73] 时,这些模型仍显不足,主要表现为性能相对较低,且缺乏深层次的推理能力。

视频推理在推理视觉空间与时间智能中的物体、关系及因果性方面提出了新的挑战。受 OpenAI o1 [24] 和 DeepSeek-R1 [17] 通过强化学习(Reinforcement Learning, RL)提升大语言模型(Large Language Models, LLMs)推理能力的启发,众多研究 [10, 22, 41, 48, 62, 69] 采用 R1 框架来激励多模态大语言模型(Multimodal Large Language Models, MLLMs)的视觉推理能力。具体到视频任务,Video-R1 [13] 将 R1 的训练流程适配至视频领域,并引入打乱增强(shuffling augmentation)以提升时间推理性能。VideoRFT [55] 进一步引入语义一致性 Reward (semantic-consistency reward),以更好地对齐文本推理与视觉信息。鉴于视频具有明显的时间结构和丰富的内容,研究行人致力于设计并集成多种类型的时间相关 Reward [32, 34] 到原有系统中。尽管取得上述进展,当前的视频推理方法仍仅依赖Sparse的视觉线索进行以文本为中心的思考,导致大量密集的视频信息未被充分利用

。与以往工作不同,本文提出了一种新型自监督强化学习(self-supervised RL)算法,能够实现显式的视觉处理,从而通过利用更全面的视频信息,显著增强后续的深度视频推理能力。

2.2 自监督表示学习

以图像为中心的自监督学习(SSL)主要采用基于变换的预训练任务,例如拼图求解 [5, 43]、旋转角度预测 [15]、图像块定位 [11] 等,这些方法随后启发了类似的视频 SSL 任务,如 3D 旋转 [27] 和时空立方体拼图 [28]。此外,针对仅视觉视频模型以提取时空表征用于分类/识别任务,还提出了多种时间特异性任务,包括帧排序 [30, 42] 或片段排序 [59]、感知时间箭头 [57]、区分多种时间采样方式 [25, 40] 等。这些有效的设计促使作者将其引入当前的 RLVR 框架中,用于中间阶段的视觉中心化推理步骤。尽管对比学习算法 [4, 16, 18] 和基于重建的方法 [19, 51, 53] 已显著推动了大规模视觉基础模型的 SSL 发展,但其复杂的训练框架限制了其在标准 RL 设置中的直接应用。

两项并行工作,Jigsaw-R1 [56] 和 VisualJigsaw [58],通过在图像拼图(image jigsaw)任务上对多模态大语言模型(MLLM)进行后训练,探索了类似的自监督强化学习(RL)方法。相比之下,作者的研究更侧重于视频推理,并引入了超越单一拼图目标的更广泛预训练变换(pretext transformations)。此外,作者系统性地研究了视觉中心化自监督学习(visual-centric SSL)在当前 R1 框架中的简化且高效集成方式,突破了对预训练 RL 任务的简单组合。

  1. 方法

3.1. 视觉导向的预训练-GRPO

预备知识。近期旨在激励多模态大语言模型(MLLMs)推理能力的研究通常采用一种范式:首先进行监督微调(SFT)冷启动,随后通过强化学习(RL)进行优化。通过精心设计的长链思维(CoT),SFT阶段使模型能够学习特定 Token (tag tokens)的语义,并在生成最终给定一个训练图像或视频

,作者不使用其真实用户问题

进行 Pretext-GRPO。相反,采用一个手工设计的预训练问题

,以及相应的变换后视觉输入

,作为强化学习(RL)策略模型的输入。为了便于直接进行 Reward 分配,所有

均被设计为多项选择题(MCQs)。具体而言,对于图像,作者考虑三种类型的自监督变换(SSTs),使模型能够通过解决与空间相关任务来学习空间语义:

• Rotate [15]:图像随机旋转

,形成一个4选项的多选题(MCQ)。

• Flip:图像随机进行垂直翻转、水平翻转或不翻转,共形成3选项的多选题(MCQ)。

• Puzzle [11, 43]:图像沿水平和垂直轴均分为四个块,随后随机选择两个块并交换其位置,形成一个6选项的多选题(MCQ)。

类似地,对视频随机应用三个SST(Spatio-Temporal Shift,时空移位)以捕捉时空表征:

• 3D Rotate [27]:视频中的所有帧均以相同的度数随机旋转,生成一个4选项的多选题(MCQ)。

• Reverse [57]:视频以原始方向或反转方向呈现,形成一个二选一的多选题(MCQ)。

• Shuffle [59]:视频被划分为4个连续片段,其中2个片段被随机打乱顺序,生成一个6选项的多选题(MCQ)。

picture.image

Image

作者在图2(a)中展示了一个“Reverse”预训练问题的示例,这些问题的完整 Prompt (prompt)详见附录。

上述带有 MCQ 格式的 SSTs 提供了“免费”的监督信号,可在强化学习(RL)中解释为 Reward 。与原始 GRPO 类似,作者的 Pretext-GRPO 在预训练问题被正确回答时赋予 Reward 值 1,否则为 0。随后,基于预训练问题

和变换后的输入

,使用公式 (2) 中的 GRPO 目标函数更新策略模型

,即更新比值

。与冷启动 SFT 不同,后者通过词元级回归来记忆并模仿推理路径 [9],Pretext-GRPO 通过使策略模型在标准 RL 之前能够自主检查内部视觉内容和语义信息,为策略模型提供了良好的初始化(warm start)。Pretext-GRPO 的有效性在图2(b) 中得到验证,其在多个视频推理与理解基准测试中均表现出色(更多细节见

§

)。在 Pretext-GRPO 之后,将原始 GRPO 应用于真实用户问题和原始视觉输入(记为 Pretext-GRPO+),作者在所有基准测试中均观察到一致的性能提升。

3.2. 视觉融合的 ViSS-R1

picture.image

Image

通过引入独立的Pretext-GRPO阶段来启动强化学习(Reinforcement Learning, RL),有助于通过预热策略模型使其能够识别时空视觉变换,从而稳定标准RL训练。然而,将RL划分为两个独立阶段会引入额外的训练控制复杂性,因为这两个阶段优化的目标不同。为此,作者提出将自监督学习(Self-Supervised Learning, SSL)整合到单阶段RL流程中,直接基于变换后的图像/视频输入回答用户问题。因此,作者提出了ViSS-R1框架(见图3)。

使用变换 Token 的思维链(transform-tagged CoT)进行监督微调(SFT)。基础多模态大语言模型(MLLM)通常无法在结构化方式下同时回答两个问题,即使给出了明确指令也是如此。为了使单轮输出中的两个答案能够被有效区分,作者采用带有变换 Token 的思维链(transform-tagged CoTs)进行SFT,教导模型学习以预定义结构生成响应。在先前思维链构建的基础上,作者引入了一个额外的 <transform></transform $\mathcal{S}$ 标签,用于封装最终预测变换的结果。参照 Video-R1 [13],作者的真实思维链(ground-truth CoT rationales)通过蒸馏来自先进模型 Qwen2.5-VL-72B [1] 在随机变换图像和视频上的答案来重建(见第3.1节)。在SFT过程中,作者对每个输入应用与用于 Prompt 72B模型相同的变换,并使用最大似然估计(MLE)损失训练基础模型,如图3(右上角)所示。该过程使基础模型学会在不同的标签内分别推理并回答两个问题,这些标签对应后续强化学习(RL)阶段中的两个 Reward 。

基于变换输入的强化学习推理。给定经过变换的视觉输入

、一个预训练问题

以及一个真实的用户 Query

,作者的变换感知SFT模型需通过GRPO算法完成自监督任务(隐式地恢复输入)并回答真实问题。与原始GRPO相比,ViSS-R1的关键区别在于:在单次生成轮次中,会采样两种类型的响应(

表示变换识别结果,

表示用户问题的答案)。公式(2)中,新策略

与旧策略

之间的重要性采样比率可重写为:

  1. 实验

4.1 实验设置

基准测试与评估指标。遵循近期工作 [13, 55, 71],作者在三个通用视频推理基准测试上评估llm-ViSS-R1_2511,包括 VSI-Bench [61]、VideoMMMU [20] 和 MMVU [73],以及三个通用视频理解基准测试:MVBench [33]、TempCompass [38] 和 VideoMME [14](不含字幕)。对于 MMVU,仅使用多选题子集进行评估。作者报告上述所有任务的平均准确率(Acc)。

模型训练。作者采用 Qwen2.5-VL-7B [1] 作为基础模型,训练数据集来源于 VideoR1 [13](即 Video-R1-CoT-165k 和 Video-R1-260k)。为提高效率,作者在训练过程中从每段视频中采样 32 帧,并将每帧的最大分辨率限制为

。Pretext-GRPO 训练 500 步,随后进行 1K 步的 vanilla GRPO 训练,记为 Pretext

。在集成的 ViSS-R1 中,作者对 Qwen2.5-VL-7B 进行重 Prompt (reprompt),以实现对变换感知的 CoT(Chain-of-Thought)构建与 SFT(Supervised Fine-Tuning)训练。所有模型均在 8 块 NVIDIA A800(80G)GPU 上进行训练。作者的代码库基于 Open-R1 [12] 构建。

推理阶段。在推理时,作者同样采样 32 帧,并将分辨率提升至

以增强性能,遵循相关工作 [13, 55]。解码配置参考 Qwen2.5-VL 的演示设置,采用 top-

和 temperature

。在 ViSS-R1 的推理过程中,测试 Prompt 中的预设问题(pretext questions)被移除,模型需对未经变换的原始视频进行推理。

4.2. 与先前方法的比较

picture.image

Image

作者在表1中对先前方法进行了全面比较,涵盖专有模型(如 GPT4o [23])、开源多模态大语言模型(MLLMs,如 LLaMA-VID [35]、VILA-1.5 [36]、LLaVA-OneVision [31] 等)以及近期基于 R1 的模型(如 Video-R1 [13]、VideoRFT [55]、Temporal-RLT [32])。值得注意的是,作者提出的 Pretext-GRPO+ 和 ViSS-R1 方法在6个视频推理与理解基准中的4个上达到了最先进性能(VSI-Bench 上为 39.2%,VideoMMMU 上为 53.9%,TempCompass 上为 75.3%,VideoMME 上为 60.5%)。这些提升充分证明了作者自监督强化学习策略在激发 MLLM 视频推理能力方面的有效性。

此外,与初始 Baseline Qwen2.5-VL 相比,ViSS-R1 在推理类基准测试中实现了持续且显著的提升:在 VSI-Bench 上提升

,在 VideoMMMU 上提升

,在 MMVU 上提升

,凸显了后训练技术在激发视频推理能力方面的价值。相较于另一 Baseline Video-R1(因为作者使用了相同的图像和视频数据),Pretext-

在 VSI-Bench 上取得

的提升,在 VideoMMMU 上提升

;而 ViSS-R1 在 TempCompass 上实现

的提升,在 VideoMME 上提升

。对于小规模的 MMVU(约 600 个视频),性能可能对少数额外的正确或错误答案较为敏感。在 MVBench 上,VideoChat-R1 和 Temporal-RLT 的领先结果主要归因于其时间定位对齐能力。尽管如此,llm-ViSS-R1_2511在这些基准测试上仍表现出具有竞争力的性能。总体而言,优异的表现表明将自监督强化学习(self-supervised RL)整合到现有的 R1 基础方法中,在视觉中心任务中具有强大的潜力。

4.3 消融实验

picture.image

Image

训练数据。作者的集成 ViSS-R1 框架在 Video-R1 的混合图像与视频数据上进行训练,采用 6 种自监督变换。作者未对每种变换单独进行消融实验,因为所有前文本任务在先前文献中已被验证有效(§2.2),且其中多项已成功融入当前 R1 范式 [56, 58]。在表2 中,作者将训练数据源划分为仅图像(A.1)和仅视频(A.2),以分别评估基于图像的(旋转、翻转、拼图)与基于视频的(旋转、逆序、打乱)变换的有效性。结果表明,仅使用图像数据结合 2D 前文本任务即可在多数视频基准上取得合理性能,为基本的视频理解提供了充分的空间知识。与此同时,视频专用的 SSR1(A.2)始终优于其基于图像的对应方法,凸显了时空表征学习在视频领域推理与理解中的关键作用。

训练范式。作者首先在图2(b)中评估了Pretext-GRPO作为中间且独立的强化学习(RL)阶段的有效性,其中所有结果均以16帧为简化条件进行报告。尽管未使用真实问题,仅使用Pretext-GRPO便在推理基准测试中取得了显著成果,例如VideoMMMU(50.9%)和MMVU(65.3%),这支持了作者主要动机:在进行局部化回答之前,优先获取以视觉为中心的知识。Pretext-GRPO+进一步将原始GRPO与用户问题相结合,在更通用的视频理解任务上实现了性能的进一步提升与稳定。

此外,作者分析了ViSS-R1中顺序的SFT与RL训练范式,如表2所示。SFT仅(B.1)指仅在作者的transformer-reprompt CoT标注数据上进行监督微调(Supervised Fine-Tuning, SFT)训练。在此阶段,模型学习遵循特定指令并生成结构化响应;然而,其推理能力不明显,且可能存在过拟合问题。相比之下,仅RL(B.2)虽然省略了SFT初始化,但在大多数基准测试中仍展现出较强的推理能力。值得注意的是,仅RL模型在包含大量具有挑战性的回归类任务的VSI-Bench上表现显著较差(24.0%)。作者观察到,仅RL模型在生成此类任务的预测结果时难以生成格式良好的输出,这凸显了SFT冷启动的必要性。通过采用标准的R1范式(先SFT后RL),作者的ViSS-R1实现了稳健且可泛化的性能提升。

Reward 建模。在表2(C.1, C.2)中,作者对 Reward 设计的影响进行了消融实验,其中格式 Reward

固定为一个 Anchor 点,遵循先前文献 [13, 55] 的设定。如 Pretext-GRPO 所示,仅通过自监督变换识别进行强化学习,即可在 SFT 模型的基础上取得显著提升(C.1 vs. B.1),尤其是在 MMVU(64.5%)和 TempCompass(74.3%)上表现突出。此外,当与真实问题上的准确率 Reward

联合训练时(D),作者获得了全面增强且更优的模型 ViSS-R1。

picture.image

Image

缩放变换 Reward

。直观上,在 ViSS-R1 中联合优化时,预训练任务的重要性应低于真实问题。在此,作者分析变换 Reward

的影响,同时保持正确回答准确率 Reward

固定为 1.0(图4)。在所有对照组实验中,设置

时获得最高的平均得分

,并在 6 个视频基准中的 4 个上取得最佳结果。当提高

(例如增至 0.9)时,性能明显下降,因为模型在回答预训练问题和真实问题时获得相似的 Reward ,这削弱了其区分两者的能力,最终损害了模型的性能。

picture.image

Image

变换视频上的对比实验。作者在测试 Prompt 中使用预训练任务(pretext)问题和真实问题,对多种模型在变换视频上进行评估。真实问题的准确率如表3所示。正如预期,先前的R1模型(Video-R1和VideoRFT)由于视频序列被扰动以及域偏移(domain-shift)导致性能显著下降。llm-ViSS-R1_2511对多种视频增强操作表现出强大的鲁棒性,准确率下降极小。最后,对于llm-ViSS-R1_2511而言,在未变换视频(

)上的准确率优于在变换视频上的表现,这证明了预训练任务的有效性——在预训练任务中对变换视频的处理,促进了信息的有效聚合,并可迁移至未变换视频。

4.4 训练曲线

picture.image

Image

作者在图6中监控了强化学习(RL)过程中的关键配置动态。在ViSS-R1中,转换 Reward

在前100次迭代内迅速上升,随后趋于稳定,表明模型能够从监督微调(SFT)阶段快速获得预训练推理能力。与仅基于用户问题的原始GRPO相比,作者的准确率 Reward

明显较低(图6(b)),这是由于视觉变换引入了更高的任务难度。同时,随着任务难度的增加,所有生成结果均正确的比例(即所有生成结果都正确的组所占比例)相较于原始GRPO有所下降。较高的所有正确比例说明更多训练样本并未真正被学习(优势为0),这也解释了为何ViSS-R1能够超越先前的方法。此外,ViSS-R1生成的平均响应长度更长(图6(d),因为它在一次前向传播中解决了两个问题。完成长度最初下降,随后趋于稳定,反映出模型正在舍弃其SFT阶段的策略,并适应新的推理策略。

4.5. 定性结果

作者在图5中展示了定性结果。以往的Video-R1通常直接尝试解决问题并分析选项(多项选择题),往往未仔细回顾参考视频。然而,在此情境下,视觉推理对于正确推理至关重要。相比之下,作者的ViSSR1即使没有明确指令,也展现出先分析视频内容、再回答问题、最后通过核对可用选项验证答案的模式。该问题求解流程与作者最初的目标高度一致:实现以视觉为中心的推理。更多示例见附录。

  1. 结论

作者提出了一种基于预训练任务的自监督强化学习方法 Pretext-GRPO,以及将其集成到 R1 风格框架 ViSS-R1 中,以应对视觉中心的复杂视频推理任务。

通过利用无需标注的自监督学习(SSL)变换,Pretext-GRPO 能够在基于文本的回答之前对视觉内容进行充分的分析。集成后的 ViSS-R1 进一步简化了训练流程,并持续提升了整体视频推理性能。作者认为,将 SSL 机制融入多模态大语言模型(MLLMs)是未来智能多模态模型发展的一个有前景方向。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论