LLM-Mixer 用于时间序列预测的LLMs中的多尺度混合，性能SOTA ！ - 文章 - 开发者社区

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

时间序列预测仍然是一项具有挑战性的任务，尤其是在复杂的多尺度时间模式背景下。

本研究提出了一种名为LLM-Mixer的框架，通过将多尺度时间序列分解与预训练的LLM（大型语言模型）相结合，来提高预测精度。

LLM-Mixer通过将数据分解为多个时间分辨率，并用一个冻结的LLM处理，根据专门为时间序列数据设计的一段文本 Prompt 。

在多变量和单变量数据集上的广泛实验表明，LLM-Mixer实现了竞争力的性能，在各种预测时间段内都超过了最近的最先进模型。

这项工作强调了将多尺度分析和LLM结合用于有效和可扩展的时间序列预测的潜力。

代码可在https://github.com/Kowsher/LLMMixer中找到。

1 Introduction & Related Work

时间序列预测在众多领域中具有重要意义，包括金融、能源管理（马丁等，2010年）、医疗保健、气候科学（穆德，2019年）和工业运营（王等，2020年）。传统的预测模型，如自回归整合移动平均（ARIMA）（盒等，2015年）和指数平滑技术（海曼，2018年），广泛用于简单的预测任务。然而，这些模型假设平稳性和线性，这限制了它们在应用于复杂、非线性和多变量时间序列时的有效性（陈等，2015年）。深度学习的出现极大地推动了时间序列预测的发展。卷积神经网络（王等，2023年；唐等，2020年；基尔西克和卡加利·约尔库，2022年）被用于捕捉时间模式，而循环神经网络（萨米-纳米尼等，2019年；张等，2019年；卡米等，2019年）擅长建模时间状态转换。然而，卷积神经网络和循环神经网络在捕捉长期依赖性方面存在局限性。最近，Transformer结构（瓦萨万尼等，2017年）在处理局部和长期依赖性方面表现出强大的能力，使其适用于时间序列预测。

与此同时，预训练的LLM如GPT-3、GPT-4 和LaMA在自然语言处理任务上实现了惊人的泛化能力，这要归功于少样本或零样本迁移学习（Brown，2020）的能力、多模态知识（Jia等人，2024）和推理（Liu等人，2024）。这些模型现在正在应用于各个领域，包括计算机视觉（Bendou等人，2024）、医疗保健和金融（Zhao等人，2024）。最近，一些研究探索了使用LLM进行时间序列预测，因为它们令人印象深刻的能力。然而，将LLM适应到时间序列数据面临着挑战，因为基于 Token 的文本数据与连续时间序列数据之间存在显著差异。

LLM旨在处理离散 Token ，这限制了它们捕捉时间序列数据中发现的连续和通常不规则模式的能力。此外，时间序列数据具有多个时间尺度，从短期波动到长期趋势，这使得传统LLM同时捕捉所有这些模式变得困难。LLM通常处理固定长度的序列，这意味着如果序列长度（即时间步长窗口）较小，它们可能只能捕捉短期依赖关系。然而，将序列长度扩展以捕捉长期趋势会增加计算成本，并可能稀释模型在同一序列中专注于短期波动的能力。以前使用LLM在时间序列数据上的研究 mostly 将原始序列直接输入到冻结的LLM，这使得模型很难完全理解这些序列。

为了解决这个问题，作者提出了LLM-Mixer ，它将时间序列数据分解为多个时间尺度。通过创建各种分辨率（如图1所示），作者的模型可以更有效地捕捉短期细节和长期模式。由于在训练期间，LLM保持冻结，多尺度分解提供了一个多样化的时间信息范围，帮助模型更好地理解复杂的时间序列数据。

picture.image

本文的贡献如下：

(1) 作者提出了一种名为 LLM-Mixer 的新方法，该方法通过将数据分解为不同的时间尺度，使 LLM 适应时间序列预测。这种方法帮助模型捕捉短期和长期模式。

(2) 作者的方法在不同的分辨率下创建多个时间序列版本，这有助于 LLM 更有效地理解复杂的时间序列数据。

(3) 实证结果表明，LLM-Mixer 在多变量和单变量数据上均实现了竞争力的性能，提高了预测准确率，并有效地应用于短期和长期预测任务。

2 LLM Mixer

初步： 在多变量时间序列预测中，作者给定历史数据 , 其中是时间步数，是变量数。目标是预测下一个个时间步的未来值，表示为。为了方便，令表示时间步的数据，令表示变量的完整时间序列。

现在，假设作者有一个 Prompt ，其中包含了关于时间序列（例如来源、特征、分布、统计信息）的文本信息。作者使用一个预训练的语言模型，其参数被冻结，然后预测过程如下：

这里是一个小的可训练参数集，用于调整模型以适应特定的预测任务。

多尺度时间数据视图： 时间序列数据包含多种 Level 的模式——小尺度捕捉详细的变化，而较大尺度则突出总体趋势（刘等人，2022年；Mozer，1991年）。分析多个尺度的数据有助于理解这些复杂模式（王等人，2024年）。遵循王等人（2024年）的研究，作者应用了多尺度混合策略。首先，作者使用平均池化将时间序列X降采样到τ个尺度，得到多尺度表示，其中每个。在这里，包含最细的时间细节，而则捕捉到最宽的趋势。

接下来，作者将这些多尺度序列转换为深度特征，使用三种类型的嵌入：Token Embedding 、时间嵌入和位置嵌入。Token Embedding 通过一维卷积（Kiranyaz等人，2021年）获得，时间嵌入代表日、周和月（Jimenez-Navarro等人，2023年），位置嵌入编码序列位置。

然后，作者使用Jimenez-Navarro等人（2023年）提出的堆叠式可分解混合（PDM）块来在不同尺度上混合过去的信息。PDM通过在多个尺度上将复杂的时间序列数据分解为单独的季节性和趋势成分，允许通过遵循Wu等人（2021年）的方法对每个成分进行有针对性的处理。

对于第l层，PDM的定义如下：

其中是总层数，，其中每个，其中是模型的维度。

Prompt 嵌入：Prompt 是一种有效的技术，通过使用特定任务的信息指导LLM（大型语言模型）（Sahoo等人，2024年；Li等人，2023年）。像Xue和Salim（2023年）这样的研究通过将时间序列输入视为预测的 Prompt ，展示了令人鼓舞的结果。Jin等人（2024年）通过将数据集描述嵌入 Prompt ，进一步改进了时间序列预测。受到这一启发，作者将数据集描述（例如特征、统计量、分布）嵌入为 Prompt 。根据Jin等人（2024年）的建议，作者对每个数据集中的样本使用文本描述，并使用预训练的LLM的词向量生成其嵌入，记作，其中是LLM的词汇量。这个 Prompt 利用了LLM的语义知识来改进预测任务。

经过个局部脉冲分布模型（PDM）块处理后，作者得到多尺度过去信息。由于不同尺度关注不同的变化，它们的预测具有互补优势。为了充分利用这一点，作者将所有尺度拼接在一起并输入到一个冻结的预训练语言模型（LLM）中，同时包括 Prompt 作为。

最后，一个可训练的解码器（简单的线性变换）应用到LLM的最后隐藏层上，预测下一个个未来时间步。

3 Experiments

作者在多个常用于长期和短期多变量预测的基准数据集上评估了作者的LLM-Mixer模型，并与最先进的 Baseline 进行了比较。对于长期预测，作者使用了周等人（2021年）的ETT数据集（ETTh1，ETTh2，ETTm1，ETTm2），以及郑等人（2023年）的天气、电力和交通数据集。对于短期预测，作者使用了Chen等人（2001年）的PeMS数据集，该数据集包括四个公共交通网络数据集（PEMS03，PEMS04，PEMS07，PEMS08），这些数据集在各种频率下收集了时间序列。作者使用RoBERTa-base 作为作者框架的中型语言模型，并使用LLaMA2-7B作为作者模型的基础。

多变量预测结果： LLM-Mixer 在多变量长期预测方面表现出色，如表1所示。在四个预测时间窗口（96，192，384和720）上的平均值中，LLM-Mixer 在大多数数据集上实现了始终较低的MSE和MAE值，尤其是在ETTh1，ETTh2和电力上表现尤为突出。与TIME-LLM，TimeMixer和PatchTST等其他模型相比，LLM-Mixer 表现良好，说明其设计有效地捕获了短期和长期依赖性。值得注意的是，LLM-Mixer 在具有挑战性的数据集如Traffic上也表现出了鲁棒性，在这些数据集上超过了几个 Baseline 模型。这些结果突显了LLM-Mixer在处理在扩展时间窗口上的复杂时间模式的有效性。

picture.image

短期预测结果如下：在表2中，作者展示了在四个预测时间段（12，24，48和96个时间步长）上的短期多变量预测结果。作者提出的模型在PEMS数据集上始终实现了低均方误差（MSE）和平均绝对误差（MAE）值，表明了强大的短期预测性能。具体而言，LLM-Mixer在PEMS03，PEMS04和PEMS07上的准确性具有竞争力，超过了包括TIME-LLM，TimeMixer和PatchTST在内的多个 Baseline 模型。此外，LLM-Mixer在PEMS08上的表现也非常稳健，与iTransformer和DLinear相比，它提供了更好的结果。这些结果强调了LLM-Mixer在捕捉短期预测任务中的关键时间动态方面的有效性。

picture.image

单变量预测结果： 表3呈现了在ETT基准测试上的单变量长期预测结果，所有数据集的平均值为96、192、384和720个时间步长。作者提出的LLM-Mixer方法在所有数据集上实现了最低的MSE和MAE值，持续优于其他方法如线性、NLinear和FEDformer。LLM-Mixer在大多数数据集上表现出优越的准确性，特别是大多数数据集。这些结果证实了LLM-Mixer在捕捉复杂的时间依赖性方面的有效性，巩固了其进行单变量长期预测的能力。

picture.image

Ablation Study

降采样对NTK距离的影响： 为了评估降采样 Level 对模型学习动态的影响，作者进行了一项基于神经切空间（NTK）的消融研究（Jacot等人，2018）。作者使用了具有10个降采样 Level 的参考模型，并从每个训练和测试集的300个样本对中计算了NTK。然后，作者将每个模型的NTK与参考模型的NTK之间的差异计算为Frobenius范数，以比较具有较少降采样 Level 的模型。令表示具有10个降采样 Level 的参考模型的NTK。对于每个减少的降采样 Level ，作者计算了NTK，记为，并计算了NTK距离，其中表示Frobenius范数。作者的结果如图2（左）所示，表明，降采样 Level 的数量减少时，NTK距离增加，当仅使用一个降采样 Level 时，观察到最大的距离。这表明，降采样逐步改变模型的学习能力， Prompt 多尺度信息在保持原始NTK结构中起着关键作用。请参阅附录A了解NTK和相关实验的详细信息。

picture.image

多尺度混合通过池化： 作者进行了一项消融研究，以探索各种多尺度混合技术的效应。检查的技术包括Min、Max、Avg和L2，每种技术都采用独特的方法在不同的尺度上聚合下采样信息。图2（右）呈现了每种下采样方法在不同数据集上的均方误差。值得注意的是，平均池化始终产生了较低的均方误差，这表明这种方法更适合捕捉数据的多个尺度依赖性。

4 Conclusion

本工作介绍了LLM-Mixer，一种将多尺度时间序列分解与预训练的LLM相结合的新颖框架，以提高预测性能。

通过利用多个时间分辨率，LLM-Mixer有效地捕获了短期和长期模式，从而提高了模型的预测准确性。

作者的实验表明，LLM-Mixer在各种数据集上实现了竞争力的性能，超过了最近最先进的方法。

参考文献

[0]. LLM-Mixer: Multiscale Mixing in LLMs for Time Series Forecasting.