告别伪造幻想！HumanSAM用空间/外观/运动三分类破解深度伪造难题 - 文章 - 开发者社区

picture.image

精简阅读版本

本文主要解决了什么问题

1. 视频生成模型尤其是以人为中心的模型合成的视频对人类信息安全与真实性构成重大威胁，但现有伪造视频检测方法主要集中在二元分类（真/假）上，缺乏对伪造类型的细粒度理解。
1. 现有伪造视频检测方法存在可靠性和可解释性有限的问题，这对于实际应用至关重要。
1. 将二进制伪造视频分类扩展到多个细粒度类别面临挑战，包括如何定义既全面又互斥的细粒度伪造类型，以及缺乏能够反映此类明确分类的对应数据集。
1. 现有视频生成模型存在三个基本挑战：不自然的交互（材料响应缺陷和因果关系不一致）、物体外观不一致（影响身份保持、物体持续性和场景连贯性）和运动保真度问题（模型优先考虑视觉外观而非生物力学上合理的运动）。

本文的核心创新是什么

1. 提出了HumanSAM框架，将传统的二分类扩展为多分类任务，将以人为中心的伪造物分为三类：空间异常、外观异常和运动异常，以及真实视频。
1. 构建了首个公开基准数据集——以人为中心的伪造视频（HFV）数据集，通过引入自动标注和验证流程，包含人类空间异常、外观异常和运动异常三种伪造类型。
1. 提出了人类伪造表征（HFR），通过融合视频理解分支和空间深度分支来生成人类伪造物表征，更好地捕捉几何特征、语义和时空一致性。
1. 采用基于排序的置信度增强策略，在训练过程中引入三种先验分数，以学习更鲁棒的表征。

结果相较于以前的方法有哪些提升

1. 在多分类任务中，HumanSAM在检测以人为中心的伪造视频方面取得了SOTA性能，平均ACC指标比第二好的方法TimeSformer高出了5.8%，AUC指标比MM-Det高出了3.4%。
1. 在二分类任务中，HumanSAM也保持了SOTA性能，在具有挑战性的Kling数据集上达到90.3%的ACC和99.3%的AUC。
1. 通过消融研究证明，HumanSAM中的每个组件（视频理解分支、特征融合、深度模块、基于排序的置信度损失）都逐步提升了性能。
1. 在稳定性分析中，HumanSAM对常见的后处理操作（高斯模糊、JPEG压缩、调整大小等）表现出鲁棒性，细粒度分类的AUC下降幅度较小，且所有AUC均高于88.2%。

局限性总结

1. HFV数据集中少于2%的视频包含所有三种类型的异常，作者只能将其最显著的一种分配给确保可解释性和标签一致性，这可能无法完全捕捉复杂的伪造情况。
1. 尽管HumanSAM在多种视频生成模型上表现良好，但随着视频生成技术的不断进步，新的伪造类型可能会出现，需要持续更新和调整模型。
1. 论文中提到更多讨论和局限性详见补充材料，但提供的文本中没有包含这部分内容。

深入阅读版本

导读

大量由生成模型合成的视频，尤其是模拟逼真人类行为的以人为中心的模型，对人类信息安全与真实性构成重大威胁。尽管在二元伪造视频检测方面已取得进展，但伪造类型缺乏细粒度理解的问题，引发了关于可靠性和可解释性的担忧，这两者对于实际应用至关重要。为解决这一局限，作者提出了HumanSAM，一个基于视频生成模型基本挑战的新框架。具体而言，HumanSAM旨在将以人为中心的伪造物分为三类在生成内容中常见的典型伪造物：空间异常、外观异常和运动异常。为更好地捕捉几何特征、语义和时空一致性，作者提出通过融合视频理解和空间深度两个分支来生成人类伪造物表征。作者还采用基于排序的置信度增强策略，在训练过程中引入三种先验分数，以学习更鲁棒的表征。在训练和评估方面，作者构建了首个公开基准数据集——以人为中心的伪造视频（HFV）数据集，对所有类型的伪造物进行了仔细的半自动标注。在作者的实验中，与最先进的方法相比，HumanSAM在二元和多类伪造物分类方面均取得了令人满意的结果。

引言

视频生成模型，尤其是基于扩散的模型，正快速发展，生成的视频内容越来越难以与现实区分[5, 11, 19, 20, 27, 28, 44, 54]。然而，这种技术进步也带来了前所未有的社会风险，尤其是在生成以人为中心的伪造视频时，可能造成严重负面影响（例如，侵犯个人隐私、传播虚假信息）。生成的逼真视频模拟复杂的人类行为，使得有效区分生成视频和真实视频的需求比以往任何时候都更加紧迫。最近，人们在人脸伪造检测[12, 33, 41, 46]或二元分类[2, 36, 40, 48]方面做出了努力，但两者都存在可靠性和互操作性有限的问题。

为解决这一问题，一种可能的解决方案是将二进制伪造视频分类扩展到多个细粒度类别[7, 50, 60]。然而，该方案高度依赖于细粒度伪造类型的定义，而定义本身就是一个极具挑战性的问题，难以确保类别既全面又互斥，加之缺乏能够反映此类明确分类的对应数据集。这解释了为何即使在视频生成时代，也很少有关于细粒度伪造视频分类的研究。

近期研究识别出三个持续存在的挑战：(1) 不自然的交互，包括材料响应缺陷和因果关系不一致[5, 27]；(2) 物体外观不一致，影响身份保持、物体持续性和场景连贯性[37, 58]；(3) 运动保真度问题，模型优先考虑视觉外观而非生物力学上合理的运动[9, 20]。这些局限性在各类架构和尺度上持续存在，凸显了仅从视觉数据中学习因果-时间先验的根本性障碍。

在本工作中，基于广泛的观察和系统分析，并借鉴先前的研究成果[7]，作者提出人类中心伪造可以分为人类的外观和动作，以及人类与空间物体的交互。作者定义了三种人类中心异常类型——空间异常，源于不现实的几何交互（例如手穿过鼓）；外观异常，由帧间语义不一致引起（例如儿童变成成人）；以及动作异常，反映不自然或不一致的人类动作模式（例如异常的头体对齐方式），如图1所示。为促进该领域的研究，作者引入了首个人类中心伪造视频（HFV）数据集，该数据集专为多类伪造分类设计。

picture.image

受现有视频生成基准测试（例如VBench [15]和EvalCrafter [26]）的启发，作者通过应用预训练的视觉模型来加速HFV基准测试的构建流程，以帮助提前对三种类型的人类伪造进行评分。空间异常、外观异常和运动异常评分分别主要与深度估计、基础模型语义以及光流估计等视觉任务相关。然后，作者根据这些评分自动分配伪造类型标签，并经过仔细的人工验证以确保HFV数据集的正确性。

计算得到的先验分数也被应用于所提出的基于排序的置信度增强策略中，通过将自适应置信度分数引入损失函数，以增强模型对困难样本的敏感性并学习更鲁棒的表示。基于单目深度估计能够有效感知空间异常的观察结果，作者提出将视频理解基础模型与单目深度估计模型相结合，以生成人类伪造物的融合表示，从而实现跨四个类别（即人类空间、外观、运动异常和真实视频）的全面且鲁棒的分类。

通过上述工作，对所提出的数据集进行的广泛实验表明，HumanSAM在二元和多类伪造分类任务中均优于其他当前最优方法，这进一步验证了细粒度伪造类型的合理性。

主要贡献包括：

• 一种用于细粒度人类中心伪造视频分类的新型端到端框架，通过将传统的二分类扩展为多分类任务（即生成视频的三种类型和真实视频的一种类型）。
• 首个用于训练和评估多类别人类伪造的公开基准数据集HFV，通过引入自动标注和验证流程，包含人类空间异常、外观异常和运动异常三种伪造类型。
• 多种技术设计以确保伪造分类的准确性和鲁棒性，包括融合深度特征的分支融合设计，以及融合先验分数的基于排序的置信度增强策略。

相关工作

视频生成模型。视频生成技术发展迅速。早期的模型[14, 45]生成的视频较短且存在故障，而近期模型如MiniMax[28]、Gen-3[11]和Kling[19]能够生成高质量、时间上连贯且包含数百帧的视频。然而，仍存在三个基本挑战：(1)不自然的交互——模型在材料响应和因果关系方面存在困难。Wan2.1[44]通过高阶流匹配增强连贯性。(2)物体外观不一致——保持身份和结构连续性仍然困难。ConsisID[58]将分解后的频率信号注入DiT，而RepVideo[37]通过特征缓存和门控稳定中间表示。(3)运动保真度问题——确保合理运动仍然具有挑战性。HunyuanVideo[20]和StepVideo[27]采用3D全注意力机制以增强运动动态，而VideoJAM[9]利用自生成的噪声光流来提高运动质量。虽然现有方法专注于缓解这些缺陷，但本文采取不同方法——利用这些缺陷开发以人为中心的多类伪造检测器。超越二元分类，HumanSAM能够实现细粒度异常检测，从而提高整体伪造检测性能，优于先前工作[8, 31, 57]。

伪造检测。尽管视频生成技术取得了快速进展，但伪造检测仍处于探索不足的阶段。现有方法主要针对人脸伪造，未能捕捉现代视频生成模型引入的多样化伪影。这些方法可被归类为图像级检测和视频级检测。图像级方法使用基于CNN的分类器（如CNN-Det [46]）检测生成帧中的视觉伪影，或使用DDIM反演与重建 [48] 检测生成伪影，或检测模型特定的“指纹” [36]。Uni-FD [29] 进一步通过最近邻算法在CLIP-ViT特征空间中对图像进行分类。然而，这些方法缺乏时序建模，难以处理视频级一致性。视频级检测技术，如频域分析（例如F3Net [33]）、双流网络 [2, 38] 和多模态模型 [40]，提供了改进的时序分析，但仍然局限于二元分类。此外，这些模型大多需要预先提取特征，导致推理计算成本高昂，且尚未在先进的视频生成模型上进行系统评估。

相比之下，作者提出了一种以人为中心的多类伪造检测框架，该框架将生成的视频异常分为三类。这种更细粒度的分类增强了可解释性，并在传统二元方法的基础上改进了伪造检测。

视频理解。早期的视频理解模型依赖于帧级处理，通过DeepVideo [17]和双流网络[38]等架构独立地从每一帧中提取信息。这演变为直接捕捉时空特征的模型，包括C3D [43]、I3D [18]和TimeSformer [3]。随着Scaling Law [16]的出现，大规模视频理解模型[25, 47]以及深度感知基础框架如Depth Pro [4, 35, 53, 55, 56]取得了显著进展。外观和运动特征对于区分正常与异常视频模式[59]至关重要，但深度估计的不确定性会负面影响人体姿态估计[49]。此外，当前的视频理解模型在空间逻辑推理[52]方面仍面临挑战。

受这些见解的启发，作者提出了一种双分支框架，该框架将视频理解 Backbone 与单目深度估计相结合。这种混合表示不仅提高了真实内容与生成内容分类的性能，还实现了对生成异常进行细粒度分类，将其分为三种不同类型，从而增强了伪造检测的可解释性。

方法

在本工作中，作者将二分类伪造识别扩展到四分类，并构建了首个以人为中心的用于训练和评估的数据集。HFV的构建流程的详细说明以及相应伪标签的生成方法将在第3.2节介绍。此外，在第3.3节，作者描述了动态融合从视频理解 Backbone 网络和单目深度估计模型中提取的特征，以创建视频生成异常的鲁棒表示的过程。第3.4节介绍了通过伪标签排名增强损失函数作为置信度分数的方法。

3.1. 问题公式化

设

为一个由视频帧序列组成的视频输入，包含人类验证生成的标签

，其中

。

的值对应不同类型的异常：0 表示空间异常，1 表示外观异常，2 表示运动异常，3 表示真实人类动作视频。作者的目标是生成最终预测

，使其尽可能接近

。在作者的工作中，作者旨在学习一个人类伪造表征

，该表征将输入

映射到预测

。训练过程涉及最小化

与预测

之间的损失函数。为此，作者需要一组带标签的视频来学习从

到

的映射。作者在此工作中提供了此类标注，详细过程在 Sec. 3.2 中描述。

3.2. 以人为本伪造视频（HFV）数据集 3.2.1. 数据集构成

为应对这一新任务，作者构建了一个全面的以人为中心的伪造视频（HFV）数据集，该数据集包含由九种最先进的视频生成模型生成的伪造人类动作视频：MiniMax[28]、Gen-3[11]、Vchitect-2.0（VEnhancer）[13]、Kling[19]、CogVideoX5B[54]、Vchitect-2.0-2B[1]、CogVideoX-2B[54]、Pika[21]和Gen-2[10]。值得注意的是，作者观察到不同时期发布的模型在性能上存在显著差异，较新的模型通常能生成更逼真的视频质量并提升整体时间一致性。然而，以往的检测方法并未考虑这些差异，也未明确解决合成数据集的质量问题[2, 40]。

对于HFV，作者根据VBench基准评估[15]选择了排名靠前的视频生成模型，并从这些模型中筛选出专门描绘人类动作的视频作为合成人类动作样本。HFV中的真实人类动作样本来源于Kinetics-400（K400）数据集[18]。表1概述了HFV数据集的组成，详细列出了九个生成模型的合成视频特征（分辨率≥2 2 4×2 2 4，帧数，时长和帧率）以及选定的K400视频。为确保多样性，HFV包含约20种背景类型和80类人类活动，在代表性和当前生成模型的局限性之间取得平衡。

picture.image

3.2.2. 人类伪造类型

基于广泛的观察和受近期研究成果[7, 24, 51]的启发，作者识别出在生成以人为中心的视频中存在三种主要类型的异常，这使得简单的二元分类变得不足，突显了进一步探索多类分类的必要性。此外，这三种异常类别可以通过一些现有的视频生成基准[15, 26]中的评分机制进行评估。

空间异常。这种异常源于错误的空间逻辑，导致不自然的交互，例如手穿过物体或物体尺寸不一致。为了量化空间扭曲，作者利用从单目深度图生成的深度扭曲误差，这些深度图使用SOTA Depth Pro [4]生成。具体来说，作者通过比较相邻帧深度图之间的光流图来计算扭曲误差[22, 23, 32, 42]，并利用RAFT [42]进行光流估计。该过程测量预测深度与观测深度之间的偏差，为空间异常检测提供了一种稳健的度量标准。图3是一个典型的空间异常示例。

picture.image

外观异常。这种异常涉及角色或物体在帧之间无法保持一致的外观（例如，一个年轻女孩逐渐转变为成年女性，或剪刀在旋转时无法保持稳定形状）。为了评估外观一致性，作者使用了预训练的CLIP模型[34]用于背景一致性，以及DINOv2[30]用于主体一致性。

运动异常。此类异常描述了不自然或不连贯的运动模式，例如人体躯干旋转360度。作者使用基于光流的扭曲误差度量[22, 23, 32, 42]评估运动异常，并采用相同的方法量化不自然的运动。

这些类别和评分机制为生成视频评估中的更细致、可解释的分类提供了基础。有关评分标准和三种类型异常的更多示例，请参阅补充材料。

每个视频通过所使用的评分机制分别获得了三个不同的异常分数。在从特定生成模型中选择数据进行训练和验证时，作者根据每个异常分数对视频进行降序排名。每个视频在三种类型的异常上都获得了排名，排名较低表示相应的异常表现不明显。作者根据每个视频排名最高的异常类型为其分配异常标签。例如，如果一个视频的最高排名分数出现在外观异常，则将其 Token 为外观异常。

对于每个视频

，其异常分数包含三个组成部分：空间异常

、外观异常

和运动异常

。随后，为每个视频计算三个相应的异常排名

、

和

，其中排名越高表示异常程度越严重。

对于

，在

中选取最高秩，并将实际秩中最小的数字作为视频的标签，记为

。其定义如下：

其中

分别对应空间、外观和运动异常。

例如，如果

并且

，则

，这意味着视频被分配了“外观异常”标签。数据集标签生成的过程如图2所示。尽管HFV数据集中少于2%的视频包含所有三种类型的异常，但作者将其最显著的一种分配给确保可解释性和标签一致性。

picture.image

3.2.3. 数据集划分

对于每个异常类别，作者再次进行内部排名，并保持上述相同的排名规则。排名最前的20%具有最明显的异常，结合人工审查，被选为验证集，而剩余的80%则用作训练集。

3.3. 人类伪造表示

为了更好地捕捉视频生成中的异常特征，作者提出了一种新颖的人类伪造表征（Human Forgery Representation, HFR），如图4所示。该表征充分利用了大规模视觉 Backbone 模型在提取外观、运动一致性和空间深度特征方面的优势。HFR由两个特征提取分支组成：视频理解分支和空间深度分支，分别提取时空一致性和空间深度一致性特征，并整合形成完整的异常特征表征。

picture.image

视频理解分支。视频理解分支基于InternVideo2 [47]模型，该模型采用视频编码器结构结合注意力池化层，能够高效地从视频中提取时空一致性特征。设输入视频表示为一个包含

帧的张量

，其中每帧表示为

。经过视频编码器处理后，输入视频的特征被转换为时空一致性特征矩阵

，其中

表示编码器特征维度。CLS Token 从整个特征中聚合全局信息，作者在从

中提取该 Token 的同时，对剩余特征在

维度上进行平均池化，以获得初始时空特征

。此外，

通过注意力池化层进行处理，该层通过平均池化生成全局 Query ，并使用原始特征作为 Key和Value 应用交叉注意力，从而得到增强的时空一致性特征

。最后，作者将

与

进行拼接，得到视频理解分支的输出特征：

空间深度分支。空间深度分支基于单目深度估计模型Depth Pro[4]的编码器结构，该结构由一个块编码器（Patch Encoder）和一个图像编码器（Image Encoder）组成，用于从视频中提取深度一致性特征。设输入视频为

，作者选择第一帧

和中间帧

输入到联合编码器中。编码后，输出特征图是

，通过对它进行平均池化，作者得到深度特征向量：

动态融合策略。为在特征空间中对齐视频理解分支和空间深度分支的特征向量，作者对视频理解分支的输出

应用线性变换，以匹配其维度与深度特征

。最终，使用可学习参数

对这两个特征进行加权融合，以获得人伪造表示

。该表示随后通过线性投影层（即PROJ）投影到最终预测标量值

上。该过程的综合方程为：

此处，

学习特征之间的权重比例，确保融合特征

在被投影到标量预测

之前包含外观、运动和空间深度特征

3.4. 基于排序的置信度增强

流程描述。在本方法中，为引导模型更加关注具有更高置信度的样本（即排名更高且异常更明显的样本），作者设计了一种基于排名的置信度增强机制。具体而言，作者对每个样本的排名进行归一化，并将其作为附加信息用于对损失进行加权。该机制通过一个函数映射，将排名信息转换为置信度权重，并利用其调整损失函数的效果。

数学公式化。对于每个异常类别中的每个样本，其中每个样本的损失值为

A，排名为

（较低的数值排名表示更高的排名）。公式化的步骤如下：

排名归一化：设

为样本

的排名，并假设排名范围从 1 到

（对应于异常类别中的样本总数）。作者按以下方式对排名进行归一化：

其中

，表示样本

的归一化排序值。置信系数计算：使用

值计算置信系数

，其中较高的

值对应较低的置信度（较高的惩罚权重）。作者使用函数

对排序进行映射。

ᵢ

因此，当

接近0时，

接近1；当

接近1时，

相对较大。加权损失函数：将

应用于每个样本的损失

以获得

加权损失加权

总损失：最终总损失是批次中所有样本的加权损失的均值（

是批次中样本的总数）：

解释。这种基于排序的置信度增强机制通过调整损失权重，使模型在训练过程中更加关注具有更高排序的样本，因为这些样本具有更高的置信度。因此，该方法有效地引导模型优先学习高置信度样本的特征，从而提高模型的ACC。

实验

4.1. 实验设置

在实验中，作者使用HFV数据集进行评估。在训练过程中，作者总共选择了1000个视频，其中包括720个以人为中心的伪造视频，来自CogVideoX2B[54]，其中包含221个具有外观异常的视频，224个具有空间异常的视频，以及275个具有运动异常的视频。此外，作者还从K400数据集[18]中选择了280个真实的人类动作视频，以形成训练集。对于这三种异常类别，作者根据异常评分选择了前20%的视频，并进行了人工审核以确认异常的显著性。这些样本用于形成验证集。对于真实视频，作者随机选择了20%用于验证，其余用于训练。此外，作者从K400数据集中随机抽取了530个真实视频，并将它们与来自其他八个生成模型的伪造视频结合起来，创建了八个评估数据集。更多训练细节请参见补充材料。

为确保公平比较，作者将HumanSAM与6种最近期的检测方法进行了基准测试。CNNDet [46] 采用CNN分类器进行伪造检测，而F3Net [33] 利用频域特征。

DIRE [48] 利用基于DDIM [39] 的重建技术检测扩散生成的图像，而Uni-FD [29] 则利用CLIP [34] 特征空间进行分类。在视频级检测方面，TimeSformer [3] 模型通过自注意力机制建模时空关系，而MM-Det [40] 通过MLLM提取多模态特征，并使用VQVAE重建内容。作者使用多类ACC和AUC评估性能。

4.2. 与现有检测器的比较

为了将现有检测器升级为多类检测器，作者采用了以下修改策略：对于配备线性层的检测器，作者将线性层中的输出端口数量调整为4。此外，作者将所有修改后的检测器的损失函数标准化为多类交叉熵损失。

如表2所示，在多分类任务中，作者提出的HumanSAM在检测以人为中心的伪造视频方面取得了SOTA性能。平均而言，它在ACC指标上比第二好的方法TimeSformer[3]高出了5.8%，在AUC指标上比MM-Det[40]高出了3.4%。具体来说，基于预训练CLIP特征的方法，如Uni-FD[29]，在某些类型的扩散生成内容（例如CogVideoX-5B、Vchitect-2.0-2B）上表现良好。然而，它们在处理生成高质量、时空一致性强的视频模型（例如MiniMax[28]、Gen-3[11]）时表现不佳。

picture.image

F3Net[33]在该多分类实验中表现最差，表明仅依赖频域信息进行多分类具有挑战性。DIRE[48]采用扩散模型重建进行分类，在大多数扩散模型上表现出稳定性能，但未能取得更优结果。CNNDet[46]作为更简单的分类器，在微调后取得与基于CLIP的方法相当的结果，突显了作者提出的数据库的重要性。

总体而言，HumanSAM利用了结合视频基础模型提供的时空一致性特征和单目深度估计提供的空间深度特征的表示，从而实现了更强的性能和更高的鲁棒性。在HFV数据集上，HumanSAM在所有指标上均取得了最佳结果。

实验结果表明，作者提出的HFR具有更强的鲁棒性。它不仅优于仅依赖帧级特征的检测方法，而且超越了简单结合外观和运动特征的方法，或仅依赖视频帧序列时空信息的方法。这是因为HFR更深入地挖掘了视频内容的表征潜力。

4.3. 消融研究

根据表3中的消融分析，HumanSAM中的每个组件逐步提升了性能。仅使用InternVideo2 [47]主干网络提供了一个低基准，实现了平均ACC为63.3%和AUC为87.4%。整合融合了

和

特征的Cat模块，改进了特征表示，将ACC提升至65.6%和AUC提升至86.3%。引入深度模块[4]进一步提升了分类性能，特别是在Kling和CogVideoX-5B数据集上，达到了69.2%的ACC和87.8%的AUC。最后，添加基于排序的置信度损失进一步优化了分类置信度，实现了最高的整体性能，ACC为69.8%和AUC为88.0%。这些结果表明，每个模块都对提升不同数据集上的准确性和鲁棒性做出了贡献。

4.4. 泛化二分类实验

为验证HumanSAM的有效性，作者进行了通用二分类实验（真实与伪造对比），同时保持SOTA性能。值得注意的是，HumanSAM在具有挑战性的Kling数据集上也能达到90.3%的ACC和99.3%的AUC。TimeSformer[3]是一种基于自注意力机制的视频理解模型，能够有效捕捉外观和运动特征，在多个数据集上表现出色。同时，MMDet[40]通过VQVAE重建增强空间伪影，在Gen[10, 11]和Vchitect-2.0[1, 13]系列数据集上表现优异，其中外观保真度是主要目标。此外，作者通过合并三个异常类别进行了标签映射实验，观察到性能较差的方法从这种重构中受益，从而提升了二分类性能。详细结果请参见补充材料中的表4和表1。补充材料中还提供了包括混淆矩阵、F1分数、基于注意力的定位以及跨数据集泛化等广泛的定量分析。

picture.image

4.5. 稳定性分析

为分析HumanSAM的有效性，作者对CogVideoX5B数据集进行了常见的后处理操作，包括高斯模糊

（

）、JPEG压缩（C）（

）、调整大小

（比例

）以及所有操作的混合（

）。如表5所示，细粒度分类的AUC分别下降了

、

和

，且所有AUC均高于

，表明该方法对未知的扰动具有鲁棒性。

picture.image

结论

在本工作中，作者将二分类视频伪造识别任务扩展到多分类。为此，作者提出了HumanSAM，该模型能够将以人为中心视频伪造分为三大类：外观异常、运动异常和空间异常。作者提出了包括双分支融合和基于排序的置信度增强策略等技术设计，以获得更好的鲁棒性能。此外，作者还构建了首个包含这四类视频的基准数据集，以促进该任务的研究。大量实验表明，HumanSAM在二分类和多分类识别任务中均表现出优异的准确性和鲁棒性，突显了其在可解释和细粒度视频伪造检测中的重要价值。更多讨论和局限性详见补充材料。

参考

[1]. HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly