EAST 革新动作分割 | 端到端Transformer+Adapter设计，显式建模让模型登顶多项基准 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

导读

现有的动作分割方法使用的是通过不同于动作分割任务训练的方法提取的预计算帧特征。此外，最近的方法通常使用缺乏对动作片段显式建模的深度帧级表示。为了解决这些不足，作者引入了第一个端到端动作分割解决方案——端到端动作分割Transformer（EAST）。作者的主要贡献包括：

（1）一种简单高效的 Adapter 设计，用于有效的 Backbone 网络微调；

（2）一种基于检测的分割框架，用于利用最初在粗略下采样视频中预测的动作 Proposal ，以对所有帧进行 Token ；

（3）一种基于动作 Proposal 的新数据增强方法，用于鲁棒训练。

EAST在标准基准测试中实现了最先进的性能，包括GTEA、50Salads、Breakfast和Assembly-101。模型和相应的代码将予以发布。

引言

动作分割是一个基本的视觉问题，它涉及将未剪辑视频的帧标注为相应的动作类别。

该问题提出了许多挑战，包括帧级标注的高成本、动作边界固有的模糊性以及处理视频的显著计算需求。

近期的方法通常通过使用预计算的帧特征来解决这些挑战，例如I3D [6] 或 TSM [22]。这些特征被认为是不理想的 [8]，因为它们是由训练于与动作分割不同的视觉任务的其它方法提取的。此外，内存和计算限制导致大多数近期方法集中于深度帧级表示 [9, 24, 38]，这些表示缺乏对动作实例的显式建模（尽管有少数例外 [26, 36]，这些例外增加了复杂性）。因此，它们忽略了帧和动作表示的上下文整合，这在传统框架中曾经是至关重要的 [1, 5, 15, 28, 30]。最后，由于动作分割的数据集比其他任务（例如动作识别）的数据集小得多，先前的工作求助于数据增强和自监督学习 [2, 19, 27]。然而，这些方法通常仅增强局部帧特征，而不增强动作实例。

为了解决这些不足，作者设计了端到端动作分割Transformer（EAST）并做出了以下三个关键贡献，如图1所示。

picture.image

首先，作者通过在大型 Backbone 网络中引入轻量级的Contract-Expand Adapter（CEA） Adapter ，实现了EAST的端到端训练的高效性。CEA通过在深度卷积周围进行特征压缩和扩展来降低复杂性。这使得 Backbone 网络能够进行高效的微调，以提取适用于动作分割的多尺度帧特征，而不是其他视觉任务。据作者所知，EAST是第一个端到端动作分割器。

其次，与大多数在多个阶段对帧级标签进行细化但未考虑动作实例时间间隔的近期方法不同，EAST通过检测进行动作分割。这提供了两个关键优势：效率——通过在粗略下采样视频中检测动作 Proposal ，而不是所有帧——以及通过关于检测到的动作实例的显式推理来提高帧级分类。如图1所示，EAST包括：（i）一个检测器，它预测粗略采样帧上的动作 Proposal ；（ii）一个聚合器，它将 Proposal 组合起来，以预测原始（未采样）帧速率下每帧的类别分布；以及（iii）一个用于最终帧级标签的细化模块。通过将时间采样帧视为动作 Query ，EAST可以高效且准确地预测下采样输入上的动作边界。值得注意的是，时间下采样不会影响真实值或评估，因为作者的边界回归是相对于视频中的时间戳指定的。这些边界检测被映射到原始全帧速率，并作为对所有帧最终动作分割的有用约束。

第三，作者提出了一种基于 Proposal 的数据增强方法来提升EAST的训练效果。在训练过程中，作者的实验表明，高置信度动作 Proposal 通常与真实情况吻合。然而，训练数据和测试数据之间的领域差距增加了EAST在测试视频中生成的动作 Proposal 的不确定性。为了提高鲁棒性，作者通过方便地将基于 Proposal 的数据增强集成到端到端训练中，在更高的不确定性条件下训练EAST。EAST随机移除最自信的 Proposal 子集，并将剩余的高不确定性 Proposal 传递给聚合器，以学习对最终帧标注更可靠的动作 Proposal 集成。与现有数据增强技术（如掩蔽、打乱或操纵视频帧）不同，EAST直接作用于动作 Proposal 。

在这些贡献的基础上，EAST在标准基准测试中实现了最先进的性能，包括GTEA、50Salads、Breakfast和Assembly-101数据集。EAST在所有指标上均优于现有方法。

相关工作

本节对与高效训练密切相关的工作进行了详细回顾。尽管端到端训练具有已知优势，但内存和计算限制往往使其不切实际。参数高效微调（PEFT）方法，如 Adapter [12]、LoRA[14]和前缀调整[21]，通过减少可训练参数的数量来应对这些限制。然而，PEFT在视频理解，尤其是动作分割方面的潜力仍 largely 未被探索。AdaTAD[25]引入了用于动作检测的时间信息 Adapter （TIA），使用深度卷积（DwConv）[13]来增强时间推理。虽然TIA在标准 Adapter [12]的基础上提高了性能，但也增加了复杂性和减缓了收敛速度。为了解决这个问题，作者提出了收缩-扩展 Adapter （CEA），该 Adapter 专门用于动作分割。CEA在DWConv周围应用特征压缩和扩展。这减少了 Adapter 内的计算负担，实现了TIA的性能提升和标准 Adapter 的益处——降低复杂性和加快收敛速度。

时间动作分割问题已被多阶段帧级网络如MS-TCN[9]、ASFormer[38]和DiffAct[24]所解决。然而，这些方法缺乏明确的行为实例表示，并需要后处理，这阻碍了端到端训练。近期的方法（UVAST[4]、FACT[26]、BaFormer[36]）在帧级 Token 的同时使用 Query Token 来建模动作，但代价是显著增加了复杂性。

重要的是，大多数最近的方法在所有帧上以输入帧率进行操作，并且不使用动作边界来约束帧级标注[9, 38]。这限制了它们处理下采样视频的能力，这对于高效的长视频端到端训练是一个关键要求。相比之下，作者对多尺度帧特征进行有效的动作边界回归，随后通过“自上而下”的方式整合动作 Proposal ，以进行最终的帧级分类。这使得EAST即使在下采样输入的情况下也能保持有竞争力的性能，与需要完整、未采样的视频序列的方法相比，显著降低了模型和计算复杂度[9, 38]。

测试时后处理与数据增强。为了提高性能，一些方法采用后处理，例如，例如Viterbi解码[4]。然而，Viterbi解码计算成本高，且与端到端训练不兼容。为了在相对较小的动作分割数据集上实现鲁棒的训练，先前的研究使用了数据增强[2, 24]，这些方法要么过于简单——例如特征 Mask [24]——要么过于复杂——例如基于强化学习的序列生成[2]。后者在端到端框架中优化起来会非常困难。相比之下，作者引入了一种新的数据增强方法，通过操纵动作 Proposal 来在更高的不确定性条件下强制执行EAST训练，无缝地集成到作者的端到端训练中。据作者所知，这是第一个将基于 Proposal 的数据增强应用于动作分割的工作。

EAST的规格

EAST由 Backbone 网络、检测器、集成器和细化模块组成，如图1所示。给定一个未裁剪的RGB视频，

作为输入， Backbone 网络接收一个下采样序列，

，其中

和

分别是帧的高度和宽度，

是粗略采样帧的数量，

。帧以经验优化的均匀速率进行采样，以促进高效的端到端训练。 Backbone 网络的输出传递给检测器进行预测：（i）初始帧标签，

，其中

是

中第

帧的时间戳，

，其中

表示动作 Proposal 的数量，

和

分别表示第

个动作 Proposal 在

中的预测起始和结束时间戳，

是预测的类别分布，

，其中

是动作类别集合，包括背景类别。对于

中采样的每个帧，检测器对未采样的

中的动作边界时间戳进行回归，而不是它们的帧索引。这允许根据可用的内存和计算资源使用可变的下采样帧率。

EAST的集成器以

中的动作建议作为输入，并将它们组合起来预测未采样

中每个帧的类别分布。然后，这些预测通过多个阶段的标准时间卷积网络（TCN）[9]逐步细化，以对所有

帧进行最终的帧级分类，

。

作者的端到端训练采用了所提出的新数据增强方法，其中在生成

之前，通过随机移除最自信的 Proposal 子集来对

进行损坏。在以下内容中，作者将提供对EAST的更详细说明。

3.1 合约-扩展 Adapter

在训练过程中，EAST对预训练的视频基础模型在给定的动作分割数据集上进行微调。作为 Backbone 网络，作者使用在相关视觉任务上预训练的ViT-G [39]。为了在内存和计算限制内实现高效的端到端训练，作者设计了一种轻量级的收缩-扩展 Adapter （CEA），并将其集成到ViT-G中。基于最近的特征自适应方法 [12, 25]，作者在 Backbone 网络的层之间插入CEA。如图2所示，CAE通过残差对前一层特征

进行自适应，从而得到进一步传递到下一层的自适应特征

。

picture.image

图2展示了CEA与先前方法的关键差异。标准 Adapter [12]由下采样和上采样层以及非线性激活组成。然而，标准 Adapter 没有明确地建模时间上下文，因此不适合用于动作分割。时间交互 Adapter （TIA）[25]引入了时间深度卷积层（DWConv）以聚合时间上下文。TIA首先将形状为

的给定输入特征重新塑形为

，然后独立地对每个空间位置

应用相同的DWConv。这导致计算成本很高，使得TIA很难整合到作者的端到端训练中。为了满足作者的内存和计算限制，作者采用以下更简单的 Adapter 设计。

作者的核心思想是在 Adapter 内部直接使用空间平均池化，以减少共享相同深度可分离卷积（DWConv）的空间位置数量

。这基于这样一个假设：在 Backbone 网络微调过程中，空间上下文相对于时间上下文对特征适应的重要性较低。与TIA相比，作者的空间平均池化显著减少了数据流和计算复杂度。在将DWConv应用于几个池化后的空间位置

之后，得到的结果特征随后被适当地复制到其他

位置，在传递给下一个 Backbone 层之前，对增强特征进行空间上采样。

architecture

正如作者的结果所示，作者的合约-扩展策略不仅减少了GFLOPs，还提高了收敛速度和整体性能。将空间池化层放置在 Adapter 的下采样和上采样层之外会降低性能和收敛速度，突出了将其整合到 Adapter 核心结构中的重要性。

中国电子学会（CEA）的运营包括以下内容：

其中，

和

分别是输入和输出特征，

和

是中间特征，如图2所示。

和

是投影权重，

是中间全连接层的权重，

是深度卷积，

是可学习的标量，

是GELU激活函数[11]。

在微调过程中，仅训练插入到 Backbone 层之间的CEA模块，而 Backbone 层保持冻结状态。CEA具有3个时间核大小和4个通道下采样比，其参数仅占 Backbone 层的4.7%。CEA的GFLOPs几乎与标准 Adapter 相同。与标准 Adapter 相比，CEA额外增加了0.04的GFLOPs，而TIA额外增加了5.8 GFLOPs。

3.2 低帧率动作检测

在考虑时间上下文对于动作分割有益这一观点被广泛认可的同时，记忆和时间复杂度限制通常限制了可以分析的视频长度。因此，时间降采样似乎是一种管理计算资源的关键策略，尤其是对于作者端到端训练而言。然而，最先进（SOTA）的动作分割模型在应用于低帧率（FPS）输入时，通常难以保持在高帧率下实现的高精度。

为了实现具有时间下采样的高效端到端训练，作者采用了一种基于检测的分割框架，与现有最佳方法（SOTA）不同。在粗略采样的帧上预测动作 Proposal ，然后在原始高帧率下进行逐帧分类。受 Anchor-Free 框检测器（例如FCOS [33] 和 ActionFormer [40]）的启发，作者将每个采样帧视为其对应动作 Proposal 的 Query 。这从低帧率输入中生成高质量的动作 Proposal 。与依赖于独立帧和动作分支 [26] 或可学习 Query [4] 的SOTA方法相比，EAST通过直接从采样帧中预测动作实例，显著简化了训练过程。

首先，作者将 Backbone 网络输出

输入到一个Transformer编码器中，该编码器生成一个多尺度特征金字塔

，以捕获长距离时间依赖性。该编码器由一个浅层卷积投影和一个具有多头自注意力的Transformer网络组成，通过步长深度卷积的降采样在不同的时间尺度上运行。Transformer编码器的输出被传递到一个具有分类和回归头的卷积解码器中。分类头在

的

个金字塔层上使用1D卷积来预测每个帧的类别分布，

，

，其中

是包括背景类在内的动作类别集合，

，且

。同时，对于每个帧

，回归头在

的层之间进行卷积，以预测动作实例的开始和结束时间戳的偏移量

和

。因此，每个帧

生成相应的动作 Proposal ，其开始和结束时间戳估计为

和

。

总之，EAsT的动作检测器执行结构化预测

，该预测被映射到初始帧标签

，即

，以及一组

个动作 Proposal

，

。

3.3 高帧率聚合与细化

在从下采样后的

生成动作 Proposal

后，它们被组合起来估计未采样

中所有帧的类别分布

。为此，

中的每个帧

会聚集所有 Proposal 的类别分布

，这些 Proposal 的时间间隔覆盖了第

个帧的时间戳，即

。

𝟙

“

”表示比例关系，但需考虑归一化常数，“

𝟙

”是一个二元指示函数，且满足

。所有帧的聚合类别分布

被输入到一个3阶段的时序卷积网络（TCN）[9]中进行最终的帧分类

。在MS-TCN [9]和ASFormer [38]中也使用了类似的细化策略。式（2）中动作 Proposal 的聚合有助于提高

中帧标签的时间平滑性，相对于初始预测

。

3.4 训练损失函数

在训练过程中，对

中采样帧的预测

和

，在

的范围内，会产生损失

，其定义为

𝟙

表示Focal Loss [23]；

是真实类别；

是一个加权超参数；

𝟙

是一个二元指示器，如果第 i 个帧被分类为背景，则等于 0，否则等于 1；

是被分类为动作的采样帧的总数，计算公式如下：

𝟙

是回归的 DIoU 损失 [41]；

表示第 n 个真实动作实例与第 i 个动作 Proposal 的预测区间

最接近的时间间隔。请注意，回归损失仅应用于被分类为动作的动作 Proposal ，不包括背景。

最终帧分类

使用交叉熵损失和光滑度损失进行监督，如[9]中所述。

3.5 基于 Proposal 的数据增强

本节介绍了一种基于 Proposal 的新数据增强方法，该方法无缝集成到作者的端到端训练中。该方法强制在聚合和TCN模块的输入上保持高不确定性，反映了测试期间可能出现的条件。由于内存和复杂性的限制，将现有的数据增强方法（如操作或生成帧序列）集成到端到端训练中具有挑战性。相比之下，EAST既高效又有效，因为它在视频帧上操作的建议比帧要少得多。

EAST随机从

中移除

个最自信的动作 Proposal ，从而得到

。在实验中，作者选择

，因为现有动作分割数据集的视频通常包含最多30个动作实例。 Proposal 的置信度

被估计为其最大类别得分

。这降低了传递给聚合模块的剩余 Proposal 在

中的平均置信度，在这些 Proposal 中，它们在增加的不确定性下“竞争”，以将它们的类别分布分配到(2)中的帧。值得注意的是，由于随机移除，

可能仍然包含来自

的一些得分最高的 Proposal ，这有助于预测

。应用多次随机 Proposal 移除以生成多个版本的

，从而进行数据增强。

结果

数据集。为了评估，作者使用了GTEA [10]、50Salads [32]、Breakfast [17]和Assembly101 [29]数据集。

• GTEA [10] 包含28个以自我为中心的视频，标注了11个动作类别。视频时长约为1分钟，包含约19个动作实例。
• 50Salads [32] 是一个包含50个沙拉制作顶视图视频的集合，共有17个动作类别。这些视频的平均长度为6分钟，每段视频大约包含20个动作实例。
• 早餐[17]包含1712个视频，展示了48个从第三人称视角的早餐准备动作。这些视频的平均时长为2分钟，但时长可能存在显著差异。
• Assembly101 [29] 包含4321个视频和基于11个动词和61个物体的202个动作类别。该数据集展示了人们组装和拆卸101个玩具的过程。视频平均包含24个动作实例，持续时间为7.1分钟。

与先前工作一致，作者在50Salads上执行五折交叉验证，在GTEA和Breakfast上执行四折交叉验证，使用标准分割[4, 20, 37, 38]。对于Assembly101，作者使用[29]中指定的官方训练和验证分割。

指标。与SOTA动作分割方法类似，作者使用帧级分类准确率（Acc）、编辑得分（Edit）和F1分数（

）来评估重叠阈值分别为

、

和

的情况[18]。编辑得分衡量预测动作序列与真实动作序列之间的相似度。F1分数评估动作实例的定位。作者还报告了在交并比（IoU）阈值为

时的平均精度（AP），以及由EAST检测器预测的动作 Proposal 的平均平均精度（mAP）。

实现细节。EAST采用PyTorch 2.0.1和MMAction2 [7]在H100 GPU上实现。EAST包括 Backbone 网络、检测器、聚合器和TCN。 Backbone 网络是VideoMAEv2 [35]结合ViT-G [39]，按照[35]中的方法进行预训练。 Backbone 网络的参数被冻结在预训练值上，并通过放置在VideoMAEv2的ViT-G块之间的CEA Adapter 进行微调， Adapter 的学习率设置为2e-4。 Adapter 的投影层权重和

分别初始化为0和1。

在训练过程中，视频片段被随机裁剪成768帧。帧采样率（FPS）被视为经过经验优化的超参数，已在表8中进行测试。作者使用了以下FPS：GTEA为3，50salads为1，Breakfast为3，Assembly101为6。使用16个非重叠时间窗口（步长=16帧）和160x160的空间分辨率提取 Backbone 网络帧特征

。对于超过768帧的视频推理，采用0.25重叠滑动窗口方法。预测的动作边界时间戳直接以秒为单位回归。然后，将这些时间戳乘以FPS以生成高FPS帧级预测，确保与先前工作的一致性以便比较。EAST分两个阶段进行训练以实现稳定收敛。首先，在GTEA上对 Backbone 网络和检测器进行端到端训练300个epoch，在50Salads上150个epoch，在Breakfast上30个epoch，在Assembly101上15个epoch。随后，使用作者的数据增强方法对整个EAST进行50个epoch的训练。与[24, 26]中类似，根据平均指标在验证集上执行模型选择。

picture.image

4.1 特征与训练效率

在本节中，作者将在两个最大的数据集Breakfast和Assembly101上对比EAST与SOTA，以评估其：帧特征表示和训练效率。为了比较，作者选择了SOTA代表：FACT [26]、LTContext [3]、ASFormer [38]和MSTCN [9]。

SOTA方法使用预计算的I3D特征[6]用于Breakfast，以及TSM特征[22]用于Assembly101。为确保SOTA方法和EAST在帧特征上的一致性，作者使用预训练有VideoMAEv2[35]的ViT-G主干网络提取了所有方法的MAEv2帧特征，包括作者自己的方法。表1显示，当使用预计算的MAEv2特征时，SOTA方法在Breakfast上提高了性能，而使用MAEv2特征的LTContext在Assembly101上未能实现这一点。在两个数据集上，使用相同预训练的ViT-G进行端到端训练的EAST都实现了更优的性能。

picture.image

为了评估训练效率，在表3中，作者使用NVIDIA H100 GPU比较了SOTA方法和EAST在Breakfast数据集上的每轮训练时间、总训练时间和GPU内存使用情况。请注意，在此比较中，SOTA方法不包括帧特征提取所需的时间，而作者将它包括在内，因为它是EAST的一个组成部分。表3显示，尽管EAST直接处理RGB帧，但其总训练时间与LTContext（最快的基于特征的Transformer模型）相当，而LTContext依赖于预计算的特性。此外，EAST的训练在仅30个epoch时就显著收敛，而LTContext则需要五倍多的epoch。这突出了EAST在端到端训练中的效率。表3还显示，性能更高的模型通常消耗更多的内存，EAST使用的内存大约是FACT的两倍。考虑到ViT-G Backbone 网络提取每帧特征需要6GB内存，作者的内存使用效率与SOTA相比非常高。这种效率归因于作者的基于检测的分割框架，它使作者能够在输入端以较低的帧采样率工作，而SOTA则不能（参见补充材料中的结果）。

picture.image

4.2 CEA Adapter 和 Backbone 网络

本节评估了所提出的CEA Adapter 在微调主干网络时的表现，并与不同的主干网络进行了比较。作者分析了其对EAST检测器性能的影响，因为其输出（即动作 Proposal ）的准确性对于后续聚合和细化模块的有效性至关重要。为了评估这一点，作者报告了不同IoU阈值下的平均精度和mAP。

Adapter 。表4比较了EAST检测器在GTEA和Breakfast数据集上使用不同 Adapter 对ViT-G Backbone 网络进行微调时的性能，包括标准 Adapter [12]、TIA[25]以及作者提出的CEA。

picture.image

作者还进行了一项消融研究，其中ViT在训练过程中保持冻结状态，没有任何基于 Adapter 的微调。在这种情况下，EAST有效地使用从使用VideoMAEv2[35]预训练的ViTG Backbone 网络中提取的预计算MAEv2帧特征进行操作。作者的CEA在所有指标上均取得了最佳性能。

picture.image

关于计算效率，表5显示，作者的CEA比标准 Adapter 仅多0.04 GFLOPs，而TIA则需要额外的5.8 GFLOPs，这表明CEA相比TIA具有显著更低的计算成本。

picture.image

图3展示了在不同 Adapter 放置在 Backbone 网络中时，在Breakfast数据集上mAP与训练轮数的关系图，显示CEA在每个训练轮次中都能持续实现最佳的mAP。

Backbone 网络. 表6比较了EAST检测器在早餐场景下使用不同ViT Backbone 网络时的性能，从最小的ViT-S到最大的ViT-G，这些网络都是在VideoMAE [34]和VideoMAEv2 [35]上预训练的。ViT-G是在未标注的混合数据集[35]上预训练的，而其他ViT变体是在Kinetics-400数据集[42]上预训练的。表6显示，使用ViT-G的EAST在所有指标上均优于其他替代方案。因此，作者选择ViT-G作为作者的默认 Backbone 网络，并设置其输出微调帧特征

的维度为1408。相比之下，先前的工作使用了预计算的I3D [6]或TSM [22]特征，其维度为2048。

picture.image

4.3 聚合器与对帧率的敏感性

表7报告了EAST的聚合和细化模块在GTEA和Breakfast数据集上的动作分割性能。还包括了消融实验，其中作者将聚合器和TCN模块替换为MS-TCN [9]和ASFormer [38]的细化阶段，或者完全省略EAST检测器输出的细化。结果表明，EAST的聚合和细化在两个数据集的所有指标上均提供了最佳的分割性能。

picture.image

表8评估了EAST在Breakfast视频上对降采样率的敏感性。EAST在低帧率下保持SOTA性能，随着帧率的增加，性能得到提升，但受限于内存和计算资源。

4.4 与SOTA的比较

表9-12比较了EAST与SOTA在四个数据集上的表现。EAST在所有数据集上均优于先前的工作，在所有指标上均实现了显著提升。在Assembly101数据集上，EAST在准确率上比先前方法高出7.2分，在Edit分数上高出9.5分。此外，EAST在GTEA、50Salads、Breakfast和Assembly101数据集上分别实现了F1@50分数的7.0、3.6、5.2和10.2个百分点的提升。

picture.image

在保持与先前工作相当的每轮处理时间的同时，EAST显著减少了达到收敛所需的训练轮数。在Breakfast数据集上，EAST在30轮内收敛，而FACT [26] 需要150轮，DiffAct [24] 需要1000轮。在Assembly101数据集上，EAST的收敛轮数与上述类似。

EAST仅需12个epoch，而LTContext[3]和C2F-TCN[31]分别需要120和200个epoch。

4.5 定性结果

图4比较了EAST分割结果与GTEA、Breakfast和Assembly101样本视频中真实标签和SOTA方法的分割结果。在GTEA的顶部示例视频中，EAST成功检测到了所有动作，而其他方法至少漏掉了一个动作。在Breakfast的中间示例视频中，SOTA方法表现出不同程度的漏检动作、虚假预测或过度分割。相比之下，EAST提供了与真实标签高度一致的优质分割。最后，在Assembly101的底部视频中，EAST未能检测到一个短暂的动作实例，并且错误地过早地识别了动作边界——这两个都是难以通过视觉检查辨别的模糊边缘情况。

picture.image

结论

作者引入了EAST——首个完全端到端可训练的动作分割器。EAST通过检测进行分割，这允许对输入视频进行时间下采样，显著降低计算成本。EAST以低帧率采样的RGB帧作为大规模 Backbone 网络的输入。 Backbone 使用收缩-扩展 Adapter （CAE）进行微调。CAE通过利用空间池化，特别有效地降低了端到端训练的计算成本。 Backbone 特征传递给检测器以预测动作 Proposal ，然后对这些 Proposal 进行聚合和细化，以在原始未采样的帧率下产生最终的逐帧 Token 。作者还指定了一种基于 Proposal 的新型数据增强方法，该方法在训练期间增加了检测器输出的不确定性，有效地模拟了测试时间条件。

在GTEA、50Salads、Breakfast和Assembly101数据集上，EAST在所有指标上都优于先前的工作，即使在 Backbone 网络提取帧特征这一额外步骤下，也保持了可比的处理时间。作者进行了一项全面的消融研究，以评估EAST在各种配置下的性能。其他结果将在补充材料中展示。代码和模型将公开发布。

参考

[1]. End-to-End Action Segmentation Transformer

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image