大模型面试 - 长短期记忆网络(LSTM)和门控循环单元(GRU)

本合集包含60篇大模型面试文章(机器学习、深度学习、大模型各20篇),共计299微信豆,谢谢您的订阅。

适合人群:

  1. 在校学生:如果你是在校学生,对AI有浓厚兴趣,并希望通过学习相关内容增强自己的实践能力,以便在未来的实习或工作中脱颖而出,那么大模型的知识将是你简历上的一大亮点。
  2. 职场新人:对于那些刚刚步入职场不久的同学,如果你想通过掌握大模型技术来提升自己的职业竞争力,无论是为了升职加薪还是寻求更好的职业发展机会,这部分内容都将是你的宝贵资产。
  3. 追求效率者:如果你希望通过“偷懒”来节省时间,获取整理好的大模型面试资料和信息,以便更高效地准备面试或学习,那么这些资源将是你的得力助手。
  4. 经验交流者:渴望与行业内的专业人士近距离交流,汲取更多实战经验,获取第一手行业信息的人群,也将从这些内容中受益匪浅。

不适合人群:

  1. 自主学习强者:对于那些已经拥有强大自我学习能力,能够独立完成AI相关知识学习的人来说,这些额外的帮助可能不是必需的。

  2. 非AI领域人士:如果你不准备进入AI相关领域,或者对AI学习没有兴趣,那么这部分内容可能并不适合你。

RNN的问题: 尽管理论上RNN能捕获任意长度的序列依赖,但实践中常因梯度消失或梯度爆炸问题而难以学习长距离依赖,这限制了其在处理长序列时的效果。

  • 梯度消失(Vanishing Gradient Problem): 梯度消失指反向传播时梯度值变小,导致权重更新缓慢。
  • 梯度爆炸(Exploding Gradient Problem): 梯度爆炸则相反,梯度值急剧增大,导致训练不稳定。

picture.image

Vanishing Gradient & Exploding Gradient

RNN的变体: 为解决RNN问题,研究者提出LSTM和GRU两种变体,分别通过特殊机制来有效处理长距离依赖。

  • 长短期记忆网络(Long Short-Term Memory networks, LSTM): 通过引入三个“门”结构(遗忘门、输入门和输出门)来控制信息的流动,从而有效地缓解了梯度消失和梯度爆炸的问题。
  • 门控循环单元(Gated Recurrent Unit, GRU): LSTM的一个简化版本,它合并了LSTM的遗忘门和输入门为一个更新门,从而减少了参数数量和计算量,同时保持了与LSTM相当的性能。

picture.image

LSTM/GRU

长短期记忆网络(Long Short-Term Memory networks, LSTM) 是一种特殊的循环神经网络(RNN)架构,旨在解决传统RNN在处理长序列数据时存在的梯度消失或梯度爆炸问题。LSTM通过引入“门”控制机制来允许网络保留重要的长期信息,同时忘记不重要的信息,从而有效地捕捉长期依赖关系。

LSTM的基本单元 (或称为“细胞”)比传统的RNN单元复杂得多,它包含了三个“门”来控制信息的流动:遗忘门(Forget Gate)、输入门(Input Gate)和输出门(Output Gate)。

LSTM因其强大的序列建模能力而被广泛应用于各种领域:

  • 自然语言处理(NLP):如文本生成、情感分析、机器翻译等。
  • 时间序列预测:如股票价格预测、天气预测等。
  • 语音识别:将音频序列转换为文本序列。
  • 推荐系统:根据用户的历史行为预测其未来的兴趣点。

picture.image

长短期记忆网络

门控循环单元(Gated Recurrent Unit, GRU) 是一种循环神经网络(Recurrent Neural Network, RNN)的变体,由Cho等人在2014年提出,旨在解决传统RNN在处理长序列时容易出现的梯度消失和梯度爆炸问题。通过引入门控机制来控制信息流动的RNN变体,它能够在处理序列数据时更好地捕捉长期依赖关系。

GRU的基本结构包括两个主要的门控单元:重置门(Reset Gate)和更新门(Update Gate)。

  1. 重置门:用于控制是否忽略过去的记忆。它决定了过去记忆的哪些部分将被丢弃,以便更好地适应当前的输入。当重置门的值接近于0时,表示忽略过去的隐状态信息;当值接近于1时,表示保留过去的隐状态信息。
  2. 更新门:用于控制是否将新的信息融合到当前的记忆中。它的值在0到1之间,决定了记忆单元中旧信息和新信息的权重。当更新门的值接近于1时,表示保留旧状态的信息;当值接近于0时,表示更多地考虑新的候选状态信息。

GRU的工作原理可以概括为以下几个步骤:

  1. 初始化记忆单元:在处理序列数据之前,需要初始化记忆单元,通常初始化为全零。
  2. 计算门控单元:利用当前时刻的输入和上一时刻的记忆单元,计算出重置门和更新门的值。
  3. 计算候选隐状态:根据重置门的值和上一时刻的隐状态,计算出当前时刻的候选隐状态。候选隐状态结合了当前输入和经过重置门控制的历史信息。
  4. 更新隐状态:根据更新门的值和候选隐状态,以及上一时刻的隐状态,计算出当前时刻的隐状态。隐状态的更新是旧隐状态和候选隐状态的加权平均,权重由更新门决定。

picture.image

门控循环单元

0
0
0
0
评论
未登录
暂无评论