神经网络算法 - 一文搞懂Attention（注意力）机制 - 文章 - 开发者社区

本文将从 Attention的本质、Attention的原理、 Attention的应用 三个方面，带您一文搞懂Attention（注意力）机制。

picture.image

一、 Attention的本质

核心逻辑 ：从关注全部到关注重点

picture.image

视觉系统就是一种Attention机制

Transformer：《Attention is All You Need》

picture.image

AI 领域的 Attention 机制：

Attention->Transformer->BERT、GPT->NLP

二、 Attention的原理

原理初体验： 小故事讲解 Attention原理

picture.image

Attention机制： 了解漫威

Attention原理 ： 3阶段分解

Attention机制的原理图

RNN 时代是死记硬背的时期， Attention机制学会了提纲挈领 ， 进化到Transformer，融会贯通，具备优秀的表达学习能力 ，再到 GPT、BERT，通过多任务大规模学习积累实战经验，战斗力爆棚。

三、 Attention的应用

CNN + Attention：

CNN的卷积操作可以提取重要特征，这也算是Attention的思想。但是CNN的卷积感受视野是局部的，需要通过叠加多层卷积区去扩大视野。

CNN叠加 Attention方式如下：

在卷积操作前做Attention： 比如Attention-Based BCNN-1，对两段输入的序列向量进行Attention，计算出特征向量，再拼接到原始向量中，作为卷积层的输入。
在卷积操作后做Attention： 比如Attention-Based BCNN-2，对两段文本的卷积层的输出做Attention，作为池化层的输入。
在池化层做Attention： 比如Attention pooling，首先我们用LSTM学到一个比较好的句向量，作为query，然后用CNN先学习到一个特征矩阵作为key，再用query对key产生权重，进行Attention，得到最后的句向量。

LSTM+Attention：

LSTM内部有门控机制，其中输入门选择哪些当前信息进行输入，遗忘门选择遗忘哪些过去信息，这也算是一定程度的Attention。但LSTM需要一步一步去捕捉序列信息，在长文本上的表现会随着步骤的增加而慢慢衰减，难以保留全部的有用信息。

LSTM通常需要得到一个向量，再去做任务，常用方式有：