LSTM强势回归
!原创作者亲自改进,把其扩展到一个可扩展且性能良好的架构:xLSTM!全面 超越Mamba和Transformer !
实际上,对LSTM进行改进,一直是重要的研究方向!自其提出以来,引用量已经10万+了!
主要在于,其通过遗忘门、输入门和输出门来控制信息的流动,解决了传统RNN在处理长序列时的局限性,成为时间序列预测和其他序列任务的重要工具!但面临计算量大、模型复杂和过拟合风险等挑战。因而对其的改进,一直是迫切需求!这同时也意味着广阔的创新空间!
为了让大家能够紧跟领域前沿,找到论文创新启发,我给大家准备了 25种改进方法 ,并提供了源码,主要涉及LSTM自身的变体、与Transformer等的结合。
扫描
下方二维码,回复 「长短魔改」
免费获取 全部论文合集及项目代码
1.xLSTM
Extended Long Short-Term Memory
方法: 论文提出了一种扩展的长短期记忆网络,它通过引入指数门控和修改记忆结构来增强传统LSTM的能力。具体来说,作者提出了两种新的LSTM变体:sLSTM,它具有标量记忆和更新机制,并引入了新的内存混合技术;mLSTM,它采用矩阵记忆和基于协方差更新规则,能够完全并行化。
2.LSTM+CNN
Estimation of Muscle Forces of Lower Limbs Based on CNN-LSTM NeuraNetwork and Wearable Sensor System
方法: 论文提出了一种基于卷积神经网络和长短期记忆网络相结合的CNN-LSTM神经网络模型,用于估计人体下肢肌肉力量。研究者开发了一套可穿戴传感器系统,收集行走过程中髋、膝、踝关节的角度和角速度等运动学数据,并将这些数据作为神经网络模型的输入。
3.TPA-LSTM
Pattern Discovery and Prediction in Stock Indices: A TPA-LSTM Multivariate Time Series Analysis
方法: 论文提出了一种基于三阶段架构的方法来发现和预测股票指数的模式。第一阶段使用TICC对恒生综合股票指数(HSCI)中的行业股票指数价格进行聚类;第二阶段应用TPA-LSTM来预测行业指数的多变量时间序列;第三阶段利用多变量LSTM-FCNs来分类行业指数并预测HSCI的未来模式。
扫描
下方二维码,回复 「长短魔改」
免费获取 全部论文合集及项目代码
4.LSTM+ResNet
A ResNet-LSTM hybrid model for predicting epileptic seizures using a pretrained model with supervised contrastive learning
方法: 论文提出了一种结合预训练模型和监督对比学习以及混合模型的方法,用于预测癫痫发作。研究者首先通过短时傅里叶变换将脑电图数据转换为频谱图,以补偿EEG数据的复杂性和不规则性。在预训练阶段,使用带阻滤波和时间裁剪等技术生成增强数据,并利用ResNet模型和监督对比损失模型学习频谱图的表示。
5.Bi-LSTM
Multi-Channel Multi-Step Spectrum Prediction Using Transformer and Stacked Bi-LSTM
方法: 论文提出了一种基于Transformer和堆叠双向长短期记忆网络的多通道多步谱预测方法,称为TSB。该方法利用多头注意力机制和堆叠Bi-LSTM来构建基于编码器-解码器架构的新型Transformer模型。通过多层多头注意力机制,TSB能够连续关注多通道频谱序列的所有位置,而堆叠Bi-LSTM能够逐层学习这些被注意力机制关注的编码特征。
6.LSTM+Transformer
LSTTN: A Long-Short Term Transformer-based Spatio-temporal Neural Network for Traffic Flow Forecasting
方法: 论文提出了一种名为LSTTN的新型交通流预测框架,该框架融合了历史交通流中的长期和短期特征。具体方法包括使用掩码子序列Transformer进行预训练,以从一小部分未掩码子序列及其时间上下文中推断掩码子序列的内容,从而高效学习来自长期历史序列的压缩和上下文时间表示。
7.LSTM+GAN
A Hybrid Approach Based on GAN and CNN-LSTM for Aerial Activity Recognition
方法: 论文提出了一种基于生成对抗网络和卷积神经网络-长短期记忆网络的混合方法,用于无人机视频内容中的空中活动识别。该方法首先通过传统的数据增强技术和WGAN基于特征的数据增强方法来扩充数据集,然后使用CNN-LSTM模型学习动作的时空动态,并通过WGAN生成基于动作类别的条件合成CNN-LSTM特征,以提供高区分度的时空特征。
扫描
下方二维码,回复 「长短魔改」
免费获取 全部论文合集及项目代码