EW-SGDM 与 Kernel U-Net 的结合，破解时间序列预测中的深度模型时间复杂度难题！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

训练深度模型进行时间序列预测是一项关键任务，具有固有的时间复杂度挑战。

尽管当前方法通常确保线性时间复杂度，但作者对时间冗余性的观察表明，高层特征的学习速度比低层特征慢98.44%。

为了解决这个问题，作者提出了一种新的指数加权随机梯度下降算法，旨在在深度学习模型中实现常数时间复杂度。作者证明了这种学习方法的理论复杂度是常数。

将这种方法应用于合成数据集上的Kernel U-Net（K-U-Net）进行评估，显示了复杂度的显著降低，同时提高了测试集的准确性。

1 Introduction

训练深度模型进行时间序列预测的任务在广泛的应用领域都至关重要，从气象学到智能城市管理（Nie等，2023）。这些模型在复杂模式的学习和基于历史数据对未来事件进行准确预测方面发挥着关键作用。然而，在开发此类模型时，一个显著的挑战是管理训练过程中的固有时间复杂性。传统的做法通常在一个确保线性时间复杂度的框架内操作。然而，通过仔细分析U-Net的训练，作者观察到在低级训练过程中涉及的数据的98%可以被认为是冗余的。这种冗余不仅消耗计算资源，而且不必要的延长了训练时间，影响了模型开发的效率。

为了应对这个问题，作者的研究引入了一种名为指数加权随机梯度下降并具有动量（EW-SGDM）的新颖算法，该算法专门设计为将时间复杂度从线性降低到常数。这种创新方法通过在学习过程中忽略冗余数据来最优地集中计算资源，从而提高效率。作者通过实证方法证明了该方法的时间复杂度的下界可以达到常数 Level ，展示了在保持强大模型训练的同时，可以降低多少计算开销的理论极限。

作者在时序预测任务中应用了核U-Net（You等，2024）。这种架构通过分离卷积操作和核操作来实现自定义核函数的接受，因此可以方便地对各种类型的U-Net进行复杂性减少。通过一系列跨多个时序预测数据集的测试，评估了算法EW-SGDM在核U-Net上的有效性。这些评估结果表明，核U-Net在降低计算复杂度的同时，保持了可比的准确度水平。

作者总结本文的贡献如下：

针对复杂性减少的EW-SGDM算法介绍：作者提出了一种新颖的指数加权随机梯度下降加动量（EW-SGDM）算法，将深度模型训练的时间复杂度从线性降低到常数。
"与 Kernel U-Net架构的集成"：作者将EW-SGDM适应到 Kernel U-Net架构，这是一种将图像块处理和 Kernel 操作分离的架构，使其适用于各种U-Net变体。
经验证，在多个时间序列预测基准上进行广泛实验：在多个时间序列预测基准上的广泛实验表明，具有EW-SGDM Kernel 的核U-Net不仅显著降低了计算复杂性，而且保持了高精度水平，证明了其有效性。

这些贡献共同推进了时间序列预测领域，解决了训练U型模型中的关键低效问题。

2 Method

在本节中，作者首先定义了时间序列预测的范围和基本概念，即基于之前观察到的时间数据序列预测未来值。接下来，作者解释了各种模型下的学习复杂度和计算复杂度。第2.3节介绍了U-Net中低级核的时序冗余性，即时间序列中可能存在大量重复数据，这些数据并不提供新的信息。第2.4节提出了一个名为指数加权梯度动量（EW-SGDM）的算法。这种方法为核函数的高层参数分配权重。第2.5节分析了学习核的复杂性并确认了常数复杂性。

Preliminary

让作者用表示多变量时间序列数据集，其中第一维表示采样时间，第二维表示特征大小。令为记忆长度或观察窗口大小，那么（或简写为）是所有特征长度为的切片，它包含系统在时刻的历史信息。

在时间序列预测的背景下，数据集由一系列特性和未来系列组成。令表示时间步长的特征，为回溯窗口的长度。给定历史数据系列的长度为，时间序列预测任务就是预测未来个时间步长的值。然后作者可以定义基本时间序列预测问题：

picture.image

是一个函数，它根据一系列，预测未来个时间步长的值。

Computation Complexity and Learning Complexity

在这部分，作者定义了计算复杂度、预测长度、参数更新次数，最后是学习复杂度（表1）2.1。

picture.image 计算复杂度计算输入或输出长度上的迭代次数。线性矩阵（NLinear）（Zeng等人，2023）包含一个大小为的矩阵，因此其计算复杂度为。ARMA和ARIMA中的参数是长度为的向量，因此其计算复杂度为。Pyraformer（Liu等人，2022）逐层处理序列，因此底层层的计算复杂度为。PatchTST（Nie等人，2023）包含一个复杂度为的 Transformer 层，但其线性矩阵展开层增加了复杂度至，其中是 Patch 大小。

《核U-Net_ (K-U-Net)》 (于等，2024年), 是一种统一的U形架构，将核操作和贴片操作分离，为时间序列预测提供了灵活性和提高的计算效率。该架构保留了U-Net的 essential 编码器-解码器结构，其中编码器将输入时间序列压缩为潜在向量，解码器对称地重构时间序列。如果从第二层开始应用四阶复杂度的核，则核U-Net保证了线性复杂度。

预测长度是根据输出长度计算的。一般来说，一步预测模型如ARMA、ARIMA和Pyrafromer预测的长度为O(1)。多步预测模型如线性矩阵、PatchTST和K-U-Net预测的长度为O(T)。

参数更新步骤是模型中一组参数的最小梯度更新步骤。在模型训练一个周期后，ARMA、ARIMA和线性矩阵更新O(1)步梯度。PatchTST在 Transformer 层更新O(T^2)步梯度，其V矩阵更新O(T)步梯度，其扁平层（也是线性矩阵）更新O(1)步梯度。K-U-Net在低级核更新O(T)步梯度，在O(1)步梯度更新。

学习复杂度是最大计算复杂度除以参数更新步骤。在这个列表中的大多数算法保持计算复杂度不变，而指数加权随机梯度下降（EW-SGDM）通过重新加权K-U-Net中的最高参数更新步骤，使得可以在步内进行更新。因此，EW+K-U-Net的学习复杂度变为。

Temporal Redundancy

当前文献主要关注通过设计策略来减少相似 Patch 中的冗余（Dutson等人，2023年），或通过启发式函数来减少帧数（Mathias Parger，2022年）。作者的观察重点集中在反向传播中的时间重叠 Patch 。让作者回顾一下，是轨迹段的输入长度，是 Patch 长度。通过从给定的时间序列轨迹中创建 Patch ，作者观察到近似个重叠 Patch ，这为作者提供了潜在的复杂性减少空间（图1）。例如，在和的情况下，冗余度为在Kernel-U-Net的背景下，增加梯度传递的步骤相当于减少学习复杂性。由于Kernel-U-Net在 Patch 上提供元操作，这在一般情况下与核的选择无关，因此这种减少可以简单地在 Kernel 封装器内完成。这是将分离 Patch 操作和 Kernel 操作分开选择的直接优势。

picture.image ### Exponentially Weighted SGD with Moment (EW-SGDM)

在本研究中，作者提出了一种新颖的方法来解决U-Net架构不同层之间的梯度更新中的冗余性和不平衡问题。传统的随机梯度下降（SGD）倾向于在各个层上应用均匀的更新，这可能导致学习动力学不佳。负责捕捉低级特征的层通常会收到与负责捕捉高级抽象特征的层相似大小的梯度更新，尽管在网络的不同阶段处理的信息类型存在差异。这种均匀性可能会减慢收敛速度，特别是在深度网络中，低级和高级特征之间的相互作用对性能至关重要。

作者的方法通过引入指数加权梯度更新机制来解决这个问题。具体来说，作者为网络中的每个层计算一个权重，用W^{(l)}表示，其中l表示层在网络中的深度。这个权重W^{(l)}被应用到对应层的梯度更新上，从而有效地将低级和高级特征的梯度贡献以不同的比例进行缩放。权重是深度的一个函数，如下所示：

随着作者在层中移动，是一个超参数，它控制权重衰减（或增长）的速度。通过调整，作者可以优先更新更深层的权重，以捕捉更抽象、高层次的表示，或者相反，强调更新浅层负责低层次细节的权重。

这种指数加权随机梯度下降方法通过允许对学习动态进行更细粒度的控制，调整低层和高层特征的更新比例，从而解决不均衡问题。通常，由于梯度消失效应，较深的层具有较小的梯度。因此，它们受益于更大的权重因子，从而加速它们的更新。相反，较早的层处理更细粒度、局部特征，其更新可以被缩减，以防止低层特征在学习过程中占主导地位。

所提出的加权机制不仅平衡了各层的学习，而且有助于模型更快、更有效地收敛。它降低了过度拟合到特定层或特征的风险，因为它在训练过程中确保高低级表示得到适当的调整。实证评估表明，这种方法在各种时间序列预测任务中取得了更稳定的训练和改善了性能，特别是在应用于深度U型架构如K-U-Net时。

Constant Complexity

作者对所提出的算法的时间复杂度进行正式分析。作者假设数据集长度为N，且用0填充后变为N对输入和输出对。

给定核U-Net，输入和输出长度分别为L和T，且L=T，T=S^l。对于第l层，作者有一个核φ^{(l)}和其指数权重W^{(l)}=S^l。

作者定义核函数的非冗余梯度更新如下：

picture.image

作者定义了在核函数处经过一个周期后总梯度期望：

picture.image

3 Related Works

随机梯度下降方法优化在训练机器学习模型，尤其是深度神经网络中起着关键作用。已提出各种优化算法以有效最小化损失函数。本节讨论三种优化方法：随机梯度下降（SGD）、随机梯度下降加动量（SGDM）和自适应动量估计（Adam）。

随机梯度下降（SGD）是机器学习（Robbins & Monro，1951）中最早且最基本的优化技术之一。与传统的梯度下降不同，它使用整个数据集计算损失函数的梯度。而SGD通过使用一个小而随机选择的数据样本来近似这个梯度。这种方法不仅降低了每个迭代步的计算成本，而且引入了噪声，有助于优化算法跳出浅层局部极小值（Bottou，2010）。然而，纯SGD存在收敛速度慢的问题，尤其是在损失函数的曲面不 smooth 或包含尖锐曲率的情况下。

为了克服这些限制，将动量引入梯度更新，产生了随机梯度下降与动量（SGDM）(钱，1999)。动量包括过去梯度的移动平均值，以平滑在采用高学习率训练时可能出现的振荡。因此，SGDM加速了收敛速度，特别是在损失景观中的狭窄山谷和平原（Sutskever等人，2013年）。通过添加动量项，SGDM不仅减少了梯度更新的方差，而且有助于更有效地穿越损失面。

Adam（自适应动量估计）进一步扩展了SGD（随机梯度下降）的思想，通过根据梯度的一阶和二阶SGDMs（Kingma & Ba, 2015）自适应调整每个参数的学习率。Adam为不同的参数计算个体自适应学习率，这使得它在稀疏梯度或非平稳目标的问题上特别有用。动量类似的行为和学习率自适应的结合使Adam在许多深度学习应用中成为热门选择。然而，与SGD相比，Adam在某些设置下的泛化性质引起了关注（Wilson等人，2017）。

尽管这些方法具有有效性，但仍需进行持续的研究来提高收敛速度、稳定性和泛化能力。近年来，已有研究探索了自适应的SGD变体以及结合多个优化器优势的方法（Reddi等人，2018年）。此外，理解这些方法的成功和限制背后的理论基础仍然是一个关键的研究领域。

Evolution of U-Shape Architectures for Time Series Forecasting

时间序列预测近年来取得了显著的进展，深度学习模型在捕捉时间依赖性和复杂数据模式方面变得越来越有效。

其中，U型架构（U-shape architectures）由于起源于用于图像分割的U-Net模型（Ronneberger等，2015年）而获得了显著的认可。U型设计的核心在于其对称的编码器-解码器框架。在这个框架中，编码器逐步压缩输入数据，捕捉高级特征，而解码器则通过 Shortcut （skip connections）在编码器和解码器路径中的匹配层之间恢复数据的原始分辨率。

U-shape架构在时间序列预测中的使用始于将U-Net结构适应为一维信号（Madhusudhanan等人，2023年；Wang等人，2024年）。这些模型特别适合捕捉短期和长期依赖关系，这在多变量时间序列预测等任务中至关重要。在时间序列预测中，U-形状设计的一个显著优势在于，通过 Shortcut ，它可以保留复杂的时序细节，从而在整个下采样过程中保持重要信息（Weninger等人，2014年）。

近期的发展引入了各种U型架构改进，旨在提高其在预测中的效能。这些包括将U型网络与注意力机制相结合的方法（You等，2024年），Madhusudhanan等人（2023年），以及嵌入循环层等架构，如长短时记忆（LSTM）单元（You等，2024年）。这些修改增强了模型选择性关注重要时间特征的能力，同时保持U型结构固有的多尺度表示。U型架构的不断演变凸显了它们在解决一系列时间序列预测挑战方面的适应性和优势。

4 Experiments and Results

在本节中，作者通过实验来证明加权技术在不同时间序列预测数据集上的有效性。这些实验使用了核U-Net架构，包括线性核和MLP核。作者将随机梯度下降（SGD）、带有动量的随机梯度下降（SGDM）、自适应随机梯度下降（Adam）与提出的指数加权随机梯度下降（EW-SGDM）进行比较。这种比较分析为作者提供了不同梯度下降策略如何影响U形神经网络架构的全面视角。

Datasets

作者进行了实验，使用了包含5种不同正弦函数的3个合成数据集。数据集1包含具有不同频率的正弦函数的组合，数据集2包含具有位移的正弦函数，数据集3包含具有更复杂模式的正弦函数。图3、4、5。在这里，作者遵循了（Zeng等人，2023年）中的实验设置，将数据划分为[0.7,0.1,0.2]用于训练、验证和测试。

Experiment settings.

作者在实验中设置了回溯窗口和预测窗口。核-u-net的多重系数列表分别为[8,8]，分割单元输入长度为8。所有层的隐藏维度为128。输入维度为1，因为作者遵循了(Zeng等人，2023)和(Nie等人，2023)中的通道无关设置。Adam中的学习率选择在[0.00001, 0.00005, 0.0001]之间，SGD方法中的学习率选择在[0.001, 0.005, 0.01]之间。作者检查了不同的权重。对于所有配置，动量设置为0.9。

训练周期为50，如图3所示：数据集1，如图4所示：数据集2，如图5所示：数据集3。

总体来说，耐心为20。遵循先前的研究（吴等，2021），作者使用均方误差（MSE）作为比较预测问题性能的核心指标。

Results

如图6所示，EW-SGDM方法放大高级参数的梯度更新，避免高级层参数的小梯度，从而实现更快的收敛训练。此外，图7、8和9显示EW-SGDM相对于标准SGDM和Adam优化器在训练集上实现更快的收敛，且其收敛曲线与Adam相当。此外，图13、14和15表明，EW-SGDM方法在测试集上在均方误差（MSE）方面优于SGDM和Adam优化器，多次实验中达到更低的MSE，从而显示出更好的泛化能力。

picture.image

5 Conclusion

综上所述，本文引入了一种名为指数加权随机梯度下降（EW-SGDM）的算法，旨在解决时间序列预测中训练深度模型的时间复杂性问题。

作者的分析表明，尽管现有方法确保了线性时间复杂度，但在学习高级特征方面存在显著延迟。

EW-SGDM通过实现常数时间复杂度提供了解决方案，这一点在理论和实证研究中都已证明。

通过对合成数据集的广泛评估，作者展示了该方法不仅降低了计算复杂度，还增强了模型的泛化能力。

未来的工作可能包括将此算法适配到图像处理或文本生成等应用领域。

点击上方卡片，关注「AI视界引擎」公众号