点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
本研究致力于解决未修剪的以ego为中心的视频中物体"拿起"和"释放"(OTR)的在线检测问题。这项任务由于存在严重的标签不平衡、时间上Sparse的正向标注以及需要精确的时间预测而具有挑战性。
此外,方法需要在实际在线环境中具有计算效率才能部署。为了应对这些挑战,作者提出了基于Mamba架构的Mamba-OTR模型。Mamba-OTR旨在在推理过程中利用时间递归,同时在短视频片段上进行训练。
为了解决标签不平衡问题,作者的训练流程结合了Focal Loss和一种新的正则化方案,使模型预测与评估指标保持一致。在EPIC-KITCHENS-100上的大量实验、与基于Transformer方法的比较以及不同训练和测试方案的评价表明,Mamba-OTR在准确性和效率方面均优于其他方法。
这些发现尤其明显,特别是在评估全视频或高帧率序列时,即使为了计算便利性而使用短视频片段进行训练。所提出的Mamba-OTR在滑动窗口模式下实现了45.48的显著mp-mAP,在 Stream 模式下为43.35,而普通的Transformer为20.32,普通的Mamba为25.16,从而为OTR提供了一个强有力的基准。
unsetunset1 引言unsetunset
配备摄像头的可穿戴设备能够从第一人称视角捕获视觉信息,从而支持个性化、情境感知的辅助技术,以辅助用户日常活动[10]。此类系统的关键要求是能够检测细粒度、原子级动作,例如物体的拿起和放下——这对于下游任务如意图预测、物体交互跟踪和异常检测至关重要。A. Catinello等人
在目标导向的人类行为检测过程中,为了应对这一挑战,动作识别算法必须以在线方式处理 Stream 视频数据,同时通过每次动作实例发出单一且明确的预测来保持时间连贯性。作者将此任务称为“在线取放检测”(OTR)。先前研究探索了多种策略,包括检测动作的起始帧[12]和识别接触帧[11]。然而,最新研究表明,预测动作的结束帧能够获得更优的性能,因为它减少了由部分观察和过早预测引起的的不确定性[3],同时预测引入了轻微的延迟,这对大多数应用来说是可接受的。图1说明了这一设置,最初在[3]中讨论。尽管这种形式化具有优势,OTR仍然面临多重挑战,显著包括正负样本(取放动作的最后一帧与其他任何帧)之间极端的类别不平衡、抑制多重检测的需求,以及要求在线和计算效率高,以支持在现实场景中的部署。
作者提出了一种基于Mamba架构[8]的新方法。yinqing-Mamba-OTR_2507在训练过程中使用Focal Loss,并结合了定制的正则化技术,使模型的行为与评估指标保持一致,从而鼓励精确且时间上一致性的预测。作者在EPIC-KITCHENS-100数据集上评估了yinqing-Mamba-OTR_2507,专注于获取和释放动词,并在各种架构配置下进行了广泛的实验。所提出的Mamba-OTR与基于Transformer和Mamba的模型的不同方法进行了比较,展示了每种引入的优化的优势。作者的结果表明,尽管任务仍然具有挑战性,但采用适当的训练策略时,它变得显著更容易处理。此外,作者展示了Mamba的固有递归特性能够在短片段上高效训练,同时允许对全长视频进行推理。这种训练与推理的解耦导致了推理速度的显著提升,并增强了预测性能。作者的优化Mamba-OTR模型实现了51.76的mp-mAP和0.14秒的平均推理时间,而标准Transformer模块的mp-mAP为20.32,推理时间为0.28秒。
综上所述,作者的主要贡献如下:
1)一种结合正则化策略的训练流程,用于解决OTR的严重标注不平衡问题;
2)与现有的基于Transformer和Mamba的方法进行全面基准测试;
3)Mamba-OTR模型,该模型是支持该领域研究的强 Baseline 。作者计划开源作者的代码。
unsetunset2 相关工作unsetunset
在线动作起始/结束检测所考虑的OTR问题与先前旨在以在线方式检测动作起始或结束帧的研究密切相关。在线动作起始检测任务(ODAS)[12]旨在识别动作在 Stream 环境中的确切起始时刻,强调低延迟和时序精度。一些方法通过使用第三人称视频和3D卷积网络[12]、基于LSTM的强化学习模型[6]以及弱监督[7]来应对这一挑战。最近,针对OTR特别设计的准在线策略通过引入短缓冲窗口[11]放宽了严格的因果性。虽然评估和设置相似,但在线动作结束检测任务(ODAE)[3]提出预测动作结束的帧,利用动作的全部时序范围并减少早期预测中的模糊性。对于涉及实时监控的应用,终点预测为下游任务提供了足够清晰的信号。
在本工作中,作者考虑在[3]中提出的ODAE公式来处理OTR问题,鉴于其减少的歧义性和实际相关性。
在线视频处理中的深度学习架构研究旨在平衡检测的时间精度与计算效率。基于Transformer的模型,如OadTR [13]、TeSTra [12]或LSTR [15]已被提出。特别是,这两种较新的方法采用了双内存机制来整合短期和长期时间依赖性,但它们有限的扩展性在实时应用中构成了挑战。为解决这些局限性,基于循环神经网络 [1,14] 或Mamba [4,8] 架构的替代架构已被提出。这些后继模型使用选择性状态空间以线性时间进行序列建模,与Transformer相比,它们提供了具有竞争力的或更优的性能,同时在时间和空间上降低了计算复杂度。
在本工作中,作者采用Mamba架构,因为它能够并行化训练并在推理时以递归方式运行,使其特别适合高效的在线视频处理。
类别不平衡类别不平衡是深度学习中的一个持续挑战,特别是在目标检测领域,背景区域数量远多于前景目标。Focal Loss[9]等解决方案优先考虑困难样本,而类别平衡损失[5]和LDAM损失[2]通过重新加权边距调整来修正倾斜的标签分布。尽管这些方法是为基于图像的任务开发的,但它们也适用于时间问题,如动作检测,其中背景帧占主导地位,而相关动作持续时间较短。
在本文中,作者证明了自适应不平衡感知损失对于提升在线动作检测的性能至关重要。
unsetunset3 问题定义与评估指标unsetunset
根据文献[3]中的工作,作者将OTR定义为:利用截至时间
观测到的视频帧,识别当前帧是否 Token 着拍摄或释放动作的结束。每个真实标签动作被定义为
,其中
是动作类别,
是结束时间戳。预测结果表示为元组
,包括预测类别
、预测时间戳
和置信度分数
。为了评估yinqing-Mamba-OTR_2507,作者采用文献[12]中引入的点级平均精度(p-mAP)指标。当预测动作
满足以下条件时,将其与真实标签动作
匹配:1) 预测和真实标签动作类别一致(
);2) 时间偏移量
小于或等于阈值
。匹配过程基于置信度分数降序贪婪执行。每个预测和每个真实标签最多只能匹配一次。匹配的预测被计为真阳性;未匹配的预测为假阳性,未匹配的真实标签动作为假阴性。Take/Release mAP基于这些真阳性和假阳性,并考虑置信度分数
进行计算。为了考虑不同时间精度水平,作者报告了平均点级mAP(mp-mAP),通过在1到10秒的时间阈值
范围内(以1秒间隔)平均p-mAP值进行计算。
unsetunset4 架构与技术unsetunset
所提出的Mamba-OTR是通过将精简化的Mamba架构与Focal Loss以及不同的正则化技术相结合而获得的。为了进行比较,作者评估了所提出的技术对基于Transformer和基于Mamba架构的影响。在下文中,作者首先描述基础架构,然后提供有关训练损失和所提出正则化技术的详细信息。
4.1 基础架构
所有基础架构以从输入帧中提取的视觉特征作为输入,并为每帧输出一个动作预测。可能的动作包括"拿起"、"释放"或"背景"。基于此输出,作者从每个视频中提取
元组。
TeSTra 作者将TeSTra架构[16]视为一种基于Transformer的在线视频处理优化模型,属于当前最先进的模型。TeSTra采用双内存结构,其中编码器从过去的观察中构建长期记忆,然后通过解码器中的交叉注意力机制将长期记忆与短期记忆融合,以生成帧级预测。见图2(a)。
Transformer 作者还考虑了TeSTra的一个简化版本,该版本去除了长期记忆模块,仅保留了在短时窗口上的自注意力机制。这导致了一个标准的Transformer模块以滑动窗口的方式在视频上运行。作者基于TeSTra的代码进行训练,从而利用其数据加载和预处理流程。见图2(b)。
作者最终将Mamba[8]架构作为基础模型进行考虑。该架构线性地摄入从帧中提取的投影视觉特征,并堆叠多个Mamba层,随后接一个分类头。参见图2(c)。
4.2 训练损失与正则化技术
作者使用以下损失函数来训练yinqing-Mamba-OTR_2507:
表示在特定数据集示例
下,针对模型输出计算得到的Focal Loss,其中
为所用模型,
为正则化项。
Focal Loss[9]最初为目标检测引入,是一种广泛用于解决类别不平衡问题的技术,通过降低简单样本的权重,将学习重点集中在困难且被错误分类的样本上。在作者的案例中,当每个动作仅由数千个负样本中的一个正样本表示时,这种不平衡尤为严重。作者证明Focal Loss在引导模型专注于这些精确端点方面起着关键作用,而不是从可能具有误导性的早期帧中学习,从而过度拟合多数类。
正则化项
的设计旨在减少在相同的真实标签“采取”或“释放”动作周围的冗余检测,同时保持模型置信度。具体而言,作者提出了三种不同的方法来实现这种正则化,如下所述:熵最小化、滑动窗口正则化和固定窗口正则化。
熵最小化熵最小化提供了一种促进Sparse性的简单方法,通过鼓励自信的预测并抑制不确定的预测来实现。损失定义为:
其中
表示第
帧的预测概率。虽然这种方法在减少多个低置信度输出方面有效,但它缺乏对预测在时间上的集中位置的控制。
滑动窗口为了优化预测分布,作者采用滑动窗口方法。给定窗口大小
,损失函数将每个窗口内的预测值进行求和:
其中
代表输出向量中的每一帧。
这鼓励模型对每个真实情况输出一个高置信度的预测,通过抑制每个片段内的过度激活,如图3(a)所示。然而,由于该方法平等对待背景和与动作相关的帧,它可能会惩罚非动作区域。
固定窗口为了直接解决多个预测围绕真实值实例的问题,作者通过将窗口仅集中在真实值帧上来改进滑动窗口方法。作者不再在整个序列上应用惩罚,而是在每个真实值实例周围定义一个大小为
的固定窗口,并最小化该区域内的预测值之和:
其中
表示真实动作结束帧的集合(见图3 (b))。
unsetunset5 实验unsetunset
在本节中,作者考虑在[3]中引入的数据集,该数据集是EPIC-KITCHENS-100的一个精选子集,仅包含两个动作类别:取(例如"get"、"fetch")和释放(例如"put"、"leave-on")。实验旨在评估导致最终Mamba-OTR架构定义的不同设计选择。由于实验设置范围广泛,结果逐步呈现,仅保留表现最佳的设置。所有模型均使用来自[12]的High-Level特征进行训练,采样频率为4 fps,并使用mp-mAP指标进行评估,数值以百分比形式报告。
5.1 Baseline 性能和使用Focal Loss的效果
下方展示了使用Focal Loss训练的相同模型结果。结果表明所有模型均显著提升,其中Mamba-OTR表现最佳(25.1641.01)。这些发现证实了Focal Loss在处理该任务中出现的极端类别不平衡问题上的关键作用。作者在后续所有实验中均采用Focal Loss进行训练。
5.2 Mamba层数和训练过程中的输入帧数
为后续实验的目的,作者将使用20帧模型进行后续实验。
值得注意的是,虽然Transformer架构在处理较长的序列时存在挑战,但对于具有递归特性的Mamba模型来说,这要自然得多。然而,作者在训练时将输入大小限制在20帧(5秒)内,同时作者将展示在推理时扩展此窗口所带来的好处,利用Mamba架构的泛化能力。
5.3 正则化
由于点级mAP指标将每个真实实例与时间上最近的预测关联起来,并对其邻域内的所有其他预测进行惩罚,理想模型的行為是针对每个真实事件生成一个单一的、高置信度的预测。作者引入的正则化技术旨在通过引导损失函数适当地惩罚多个邻近预测来鼓励这种行為在训练过程中。在所有实验中,作者使用了正则化权重。
5.4 测试时对更长的输入序列的扩展
在训练时将输入序列限制为20帧(5秒)可以实现受控的规范化学习,从而获得最佳结果。然而,在测试时以短块处理视频对于Mamba等循环架构而言并不实用,这会导致推理速度缓慢,因为需要在每个块中重置模型的隐藏状态,或者更糟糕的是,在考虑滑动窗口方案时需要多次重新处理同一帧。在本节中,作者展示了Mamba-OTR虽然是在固定长度的块上训练的,但在推理时可以泛化到更长的序列,实现更快的处理速度,甚至性能得到提升。相反,基于Transformer的架构不具备这种能力,这可能是由于它们通过位置编码显式地建模时间关系所致。
5.5 定性结果
为进一步展示Mamba-OTR在此任务中的影响,作者在图4中进行了定性的比较,评估了未使用Focal Loss的Mamba、使用Focal Loss的Mamba以及作者提出的带有正则化的Mamba-OTR在两个难度相当的视频示例上的表现。如图所示,未使用Focal Loss训练的模型产生了大量预测,且与真实值没有任何明显的相关性。
相比之下,使用Focal Loss的Mamba和Mamba-OTR都表现出改进,后者显示出显著的优越性。具体来说,在图4的顶部示例中,Mamba-OTR从视频开始到中点始终为每个真实事件生成一个单一且定位良好的预测,而其他模型并未观察到这一特性。在图4的底部示例中,也观察到类似的趋势:使用Focal Loss的Mamba在视频中间部分产生了密集的预测簇,而Mamba-OTR成功将其压缩为单一取预测。
unsetunset6 结论unsetunset
作者提出了Mamba-OTR,一个基于Mamba的模型,用于在第一人称视频中在线检测抓取和释放动作。
通过结合Focal Loss与固定窗口正则化方法,yinqing-Mamba-OTR_2507有效应对了类别不平衡带来的挑战,并与惩罚同一真实值周围多次预测的特定评估指标保持一致。
通过广泛的实验,作者证明Mamba-OTR在准确率方面达到了最先进性能,且在特征提取器上几乎没有额外开销,能够实时处理全长度视频。
点击上方卡片,关注「AI视界引擎」公众号