点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
为了应对现有视频理解方法(如CNNs和Transformer)中的高计算成本和长程依赖挑战,本工作以一种创新的方式将RWKV引入视频领域。作者提出了一种名为LSTM CrossRWKV(LCR)的框架,用于空间-时间表示学习,以解决视频理解任务。
具体来说,提出的线性复杂性LCR包含了一种新颖的Cross RWKV门,以促进当前帧边缘信息和过去特征之间的交互,通过边缘特征增强主题关注,并全局聚合跨帧特征。LCR通过增强的LSTM循环执行机制存储视频处理中的长期记忆。通过利用Cross RWKV门和循环执行,LCR有效地捕获了空间和时间特征。此外,边缘信息作为LSTM的遗忘门,指导长期记忆管理。
Tube masking策略减少了食物中的冗余信息,降低了过拟合。
这些优势使得LSTM CrossRWKV在视频理解方面树立了新标杆,提供了可扩展和高效的解决方案,用于全面的视频分析。
1 Introduction
视频理解的日益重要性得到了短视频平台的迅速崛起的强化。该领域的核心目标是有效地捕捉时空特征。然而,视频往往包含大量冗余信息,这给有效处理带来了挑战。大多数现有方法依赖于3D-CNNs或基于Transformer的架构来提取时空特征,通过局部卷积或长程自注意力机制实现。这些方法需要大量计算资源,导致其可扩展性和实际部署的局限性。
最近,传统RNN模型和状态空间模型(SSMs)由于能够捕捉长期信息而保持线性时间复杂度,而受到了广泛关注。Mamba[7]通过引入时间变化的参数并采用硬件感知的算法,增强了SSMs,从而实现了高度高效的训练和推理。RWKV[8, 9]改进了线性注意力机制,解决了RNNs的并行性挑战,并实现了与Transformer相当的RNN-like时间复杂度和性能。LSTM[10]通过引入指数门控和增强的内存结构,克服了传统LSTM的局限性。
这些模型在自然语言处理领域的成功,激发了它们在视觉领域的应用,如Vision Mamba[11]和Vision RWKV[12]。然而,这些模型在捕捉长视频序列的时空动态方面仍然存在困难。
受此启发,作者设计了LSTM-Cross RWKV(LCR),这是一个专门针对视频理解的模型。为了进一步增强时间数据表示,作者使用了LSTM[13]来捕捉长时间序列信息。CrossRWKV将过去的时间信息与当前帧的边缘 Prompt 数据相结合,提供了一种线性复杂度的动态时空上下文建模方法。通过利用边缘 Prompt ,模型在视频序列中显著减少了冗余信息,从而实现了更高效和准确的视频理解。
作者的贡献如下:
- 作者提出了一种名为LSTM-CrossRWKV的视频理解任务中处理视频序列的框架,这是一种创新性的循环单元,将LSTM架构与Cross RWKV模块相结合,能够有效地提取时空表示。
- 作者将一种新颖的CrossRWKV引入到LSTM-CrossRWKV单元中,通过接收向量保留过去和当前的时间信息,而关 Key和Value 组件则包含当前帧的边缘信息。
- 作者在Kinetics-400,Sometingsometing-V2和Jester数据集上评估了所提出模型的有效性。实验结果表明,LSTM-CrossRWKV在三个数据集上实现了出色的性能。
2 Related Work
卷积神经网络(CNNs) 卷积神经网络(CNNs)在计算机视觉任务上表现出惊人的性能,基于CNN的方法既包括2D CNN ,也包括3D卷积。在视频理解任务中,将CNN与RNN结合可以有效地捕捉空间-时间关系的细微之处,从而提高预测的准确性。ConvLSTM[22]通过在传统LSTM中使用卷积操作取代全连接层,可以更好地捕获输入中的空间特征。PredRNN[23]使得不同LSTM层的记忆状态可以水平方向和垂直方向传递信息,而PredRNN++[24]则解决了深度RNN模型中梯度消失的问题。E3D-LSTM[25]通过3D卷积增强了ST-LSTM的记忆容量,而MIM模型则通过双重递归单元重新设计了遗忘门,以更好地处理非平稳信息的学习。CrevNet[26]引入了一种可逆的CNN解码复杂时空模式的基础架构,而PhyDNet[27]则利用CNN模拟偏差集成先验物理知识,以提高预测的质量。总之,这些模型展示了多种增强捕捉时空依赖关系的方法,并取得了显著的结果。然而,传统的卷积方法往往过于注重局部信息,往往在视频数据中忽视了更广泛的时空依赖关系。
Transformer
Transformer 最初是针对自然语言处理提出的,并在自然语言处理领域取得了显著的成功,从而使其在计算机视觉领域得到探索。视觉 Transformer(ViT)[30] 证明了纯 Transformer 架构在图像分类任务上可以表现出色。端到端模型 DERT[31] 通过集成卷积操作进一步提升了这一性能,用于目标检测。 Swin Transformer[32] 凭借其创新的移位窗口策略和分层结构,在各种任务上取得了显著的性能提升。
在以上基础上,SwinLSTM[33] 创新性地将 Swin Transformer 与 LSTM 相结合,建立了用于空间-时间预测的坚固基准。ViViT[34] 通过使用两个 Transformer 编码器分别提取空间和时间特征来解决这个问题。RViT[35] 结合了 RNNs 和 ViT 的优势,利用帧流处理技术节省了 GPU 内存。
Timesformer[36] 引入了分治空间-时间注意力,以在提高结果的同时有效地降低计算复杂性。尽管取得了这些进展,但许多现有的基于 Transformer 的方法在处理高分辨率或长时间视频时仍存在困难,因为原注意力机制的时间复杂度为平方,因此后续方法主要关注降低注意力机制的时间复杂度以提高效率。
Longformer[37] 通过引入具有 O(n) 复杂度的注意力机制,结合局部上下文自注意力和特定任务的全局注意,实现了对长序列的处理。VTN[38] 利用 2D 空间特征提取模型和基于时间注意的编码器构建了用于视频理解的的高效架构。MViT[39] 提出了具有特定空间-时间分辨率的 Head 池化注意力,有效地减少了输入序列长度并取得了令人鼓舞的结果。
XciT[40] 通过使用 Q 和 K 的协方差矩阵将传统注意力计算的二次复杂度降低到线性复杂度。
根据上述研究,作者旨在将LSTM与Cross RWKV相结合。通过利用当前帧的边缘信息作为 Prompt ,作者可以有效地将其集成到网络中,从而减少冗余信息的影响。Cross RWKV将被用于合并过去的时间信息和当前帧的边缘信息,从而增强模型对相关主题信息的关注。所提出的LSTMRWKV网络专门针对视频理解任务设计。
3 LSTM-Based RWKV
过去的研究主要围绕卷积神经网络(CNN)和 Transformer (ViT)进行空间-时间特征提取,但二次线性复杂度阻碍了算法的有效运行。为了解决这个问题,作者提出了一种基于视觉 Transformer 卷积(ViT)和长短时记忆(LSTM)的LSTM-CrossRWKV模型。作者的LSTM有效地捕获了视频中的空间-时间特征。通过一种独特的门控机制,该机制作为 Prompt 信息引导模型的注意力,利用边缘信息。通过使用Cross RWKV门聚合过去和当前帧的边缘信息,作者的模型智能地集成多模态信息。这种方法提高了任务准确性和鲁棒性。
在本小节中,作者首先讨论LSTM-CrossRWKV预处理阶段的每个帧的patch嵌入。然后,作者将介绍特定设计的Cross RWKV门。接着,作者将进一步讨论LCR单元的处理 Pipeline ,然后是Edge Prompt学习。最后,作者将呈现整个框架。
LSTM-CrossRWKV
在预处理阶段,作者使用3D卷积(即,11616)将输入视频分成L个非重叠的空间-时间块,其中=(==且=)。接下来,输入到以下LSTM-Cross RWKV编码器的序列是
在作者的工作中, 是一个可学习的嵌入函数(一个 3D 卷积层)。 是一个可学习的分类 Token ,它附加到特征序列的最后维度。在特征聚合之后, 包含全局信息,然后通过归一化和一个线性层用于分类任务进行处理。作者引入了 可学习的旋转位置编码,以更好地捕捉视频帧之间的相对位置信息。然后, Token 经过 L LSTM-CrossRWKV 块处理,最后层 [CLS] Token 的表示经过归一化和一个线性层用于分类处理。
Cross RWKV Gate
在给定当前视频帧 和相应的边缘图像 ,以及来自LSTM的隐藏状态 和细胞状态 后,输入首先通过因果卷积进行聚合。在每个层中,输入首先经过空间混合模块,该模块作为全局注意力机制。在这里,当前图像和边缘信息都发生偏移,并通过三个并行线性层进行处理,产生一个矩阵,
这里,K 和 V 被用来通过线性复杂度的双向注意力机制计算交叉注意力结果。
在论文中,LN 表示 LayerNorm,它单独作用于 个头。值得注意的是, 是由 得到的,其中 是头可训练参数。
随后,这些 Token 被传递到通道混合模块进行通道级的融合。与空间混合类似,和也是以类似的方式获得的:
在此, 是经过激活函数后的 的线性投影,输出 也受到在输出投影之前由门控机制 控制的。
同时,残差连接[20]从 Token 层延伸到每个正则化层,以确保深度网络中的训练梯度不会消失。图3显示了注意力门的一个示意图。
Edge Prompt Learning
当前帧 受到 Canny 算子的边缘提取,两个阈值采用 Otsu 方法自适应确定。
其中Z表示零嵌入函数(零初始化的卷积层),由于零卷积层的权重和偏置参数都初始化为零。边缘信息通过LSTM的遗忘门更新细胞状态,以降低背景噪声的影响。
LCR Unit
如图2a所示,单个LCR单元的概述图。首先,和通过双曲卷积层和CrossRWKV门进行处理。接下来,通过输入门、遗忘门和输出门,作者可以得到,和。最后,作者将和连接到线性层进行分类。LCR单元包含三个关键方程。
σ 表示激活函数 ,LN 表示 LayerNorm。
LSTM-CrossRWKV Framework
现有方法通常处理一帧帧。例如,3D-ResNet和TimeSformer需要相对较长的视频序列进行推理和训练。相比之下,作者的方法逐帧处理视频帧;作者使用管状遮挡策略消除视频中的冗余信息;作者通过利用LSTM的遗忘门和Cross RWKV为增强网络对主体的关注度并减少噪声对网络的影响。
4 Experiments and Results
Implement Details
数据集 为了评估所提出的算法,作者使用了三个公开的基准数据集,用于评估人类动作识别任务,包括:
- Kinetics-400 (K400)[1; 41](约24万个训练视频和约2万个验证视频,来自400个人类动作类别)
- Jester[42](12万个训练视频,来自27个人类手势)
- Something-Something V2(SSv2)[43](约168900个训练视频和约24700个验证视频,来自174个人类动作类别)
对于Kinetics-400数据集,作者首先将每个视频重新缩放到256x256,然后从全长视频中提取一个片段。这个片段随机裁剪到224x224,并水平翻转。由于作者的架构基于Vision RWKV(VRWKV),作者在Kinetics-400实验中使用ImageNet-1K预训练的VRWKV模型进行初始化。SSv2数据集的预处理 Pipeline 相同。在Jester数据集中,视频长度可能不足以采样32帧,作者通过随机复制帧来填充视频。所有帧都缩放到112x112像素,没有其他变换,并在Jester数据集上从头训练模型。训练过程采用标签平滑交叉熵损失。
Top-1和Top-5准确率(%)用于评估每个验证数据集。此外,作者还包括单视推理的总模型参数、计算成本(FLOPs)和内存消耗。值得注意的是,作者使用官方代码如果有的话)来验证其他方法。作者设计了各种模型设置来评估作者的框架在不同条件下的性能。每个数据集的详细配置请参阅表1。
对于Kinetics-400和Something-Something V2数据集,作者遵循[39]中概述的流程,从每个视频中均匀采样T个随机帧。局部地,作者将较短的一边放大到256像素,并从224 224大小的三个裁剪中选择,以覆盖更长的空间轴。在时间上,作者将长视频均匀划分为N个片段,并在评估的最后三分之一帧的平均得分。每个测试样本的分数是从这些3 N预测的平均值中得到的,其中最高分数被用作最终预测。在作者的工作中,每个预测都被视为单个“视图”。
对于Jester数据集,作者填充较短的视频,并随机选择长度相同的长视频(T)。在空间上,作者将每个帧重置为112 112像素,不进行其他变换,并从最后10个帧的最高预测得分中选择作为最终预测。请注意,对于LCR-XL(64 3 3)推理时间在表2中报告的,作者使用了3个时间片段和3个空间裁剪,总共9个视图。
Performance Evaluation
表4显示了作者在Jester数据集上与纯方法相比的性能对比。正如结果所显示的,作者的最佳方法在较少的参数(5.14M)和Flops(0.022Tflops)下,可以达到90.83%的Top-1精度,而TimeSformer和最佳CNN模型分别为89.94%(2.37%下降)和90.75%(1.56%下降),参数分别为46.6M和4.8M,Flops分别为1.568G和1.346G。需要注意的是,所有模型都从零开始训练。
5 Conclusion
在这项工作中,作者提出了LCR用于视频理解任务。具体来说,LCR单元中使用线性复杂度CrossRWKV门,使得边缘信息和过去时间信息得以集成,从而提高对主题的关注度。
边缘信息被作为线索输入到LCR单元的遗忘门,帮助网络期望背景特征。通过使用通道 Mask 策略,作者减少了视频中的冗余信息干扰。这种设计降低了空间复杂度和计算复杂度。
作者还在各种公共基准数据集上评估了作者的方法。结果表明,在较少的GPU内存下,可以在视频动作识别任务上实现出色的性能。
[0]. Video RWKV:Video Action Recognition based RWKV.
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」