《Attention is All You Need》：Transformer引领AIGC新纪元，开启智能语言处理新篇章（一） - 文章 - 开发者社区

本文内容：解读论文**《Attention is All You Need》** Abstract（摘要）、 Introduction（引言）、 Background（背景） 三个部分。

本文重点：

引出了新的Transformer模型架构，该模型完全基于注意力机制，摒弃了循环和卷积操作。****
引出了 Multi-Head Attention。
引出了Self-Attention。

picture.image

《Attention is All You Need》

一、Abstract（摘要）

原文：

picture.image

Abstract

翻译：

目前主流的序列转换模型都基于复杂的 循环神经网络（RNN） 或 卷积神经网络（CNN） ，包含 编码器和解码器 两部分。表现最好的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种全新的简单网络架构—— Transformer，它完全基于注意力机制，摒弃了循环和卷积操作 。在两个机器翻译任务上的实验表明，这些模型在质量上更优越，同时更易于并行化，且训练时间大大减少。我们的模型在WMT 2014英语到德语的翻译任务上达到了28.4的BLEU分数，比现有最佳结果（包括集成模型）高出2 BLEU以上。在WMT 2014英语到法语的翻译任务上，我们的模型在8个GPU上训练了3.5天后，创下了单模型新的最佳BLEU分数记录，达到了41.0分，这仅为文献中最佳模型训练成本的一小部分。

解读：

引出了新的Transformer模型架构，该模型完全基于注意力机制，摒弃了循环和卷积操作。

传统序列转换模型：

基于复杂的循环神经网络（RNN）或卷积神经网络（CNN），包含编码器和解码器。

循环神经网络（RNN），详细了解看这两篇：神经网络算法 - 一文搞懂RNN（循环神经网络）、大模型开发 - 一文搞懂RNNs工作原理

卷积神经网络（CNN），详细了解看这两篇：神经网络算法 - 一文搞懂CNN（卷积神经网络）、大模型开发 - 一文搞懂CNNs工作原理（卷积与池化）

编码器和解码器，详细了解看这两篇： 神经网络算法 - 一文搞懂Encoder-Decoder（编码器-解码器） 、 大模型开发 - 一文搞懂Encoder-Decoder工作原理

注意力机制： 高性能模型通过注意力机制连接编码器和解码器，提升性能。

注意力机制，详细了解看这两篇：

神经网络算法 - 一文搞懂Attention（注意力）机制 、 神经网络算法 - 一文搞懂Self-Attention和Multi-Head Attention

Transformer模型提出：作者提出全新的Transformer模型，完全基于注意力机制，摒弃循环和卷积。
Transformer模型优势：该模型质量优越，易于并行化，训练时间大幅减少。
实验结果卓越：

在英语到德语的翻译任务上，Transformer模型达到比现有最佳结果更高的BLEU分数。
在英语到法语的翻译任务上，Transformer模型创下新的单模型最佳BLEU分数记录。

训练成本降低：相比传统模型，Transformer模型的训练成本更低，训练效率更高。

Transformer模型，详细了解看这两篇：

神经网络算法 - 一文搞懂Transformer 、 大模型开发 - 一文搞懂Transformer工作原理

二、

Introduction（引言）

原文：

picture.image

Introduction - 1

翻译：

循环神经网络（RNN）、特别是长短时记忆网络（LSTM）[12]和门控循环单元网络（GRU）[7] ，已经在序列建模和转换问题中牢固确立了其作为最先进方法的地位，这些问题包括语言建模和机器翻译[29, 2, 5]。自那以来，众多研究持续努力拓展循环语言模型和 编码器-解码器架构 的边界[31, 21, 13]。这些研究不仅提高了模型的性能，还进一步探索了模型在不同任务中的适用性和效率。这些成果为自然语言处理和其他序列建模领域的发展提供了重要推动力。

解读：

循环神经网络及其变体如LSTM和GRU已成为序列建模和转换任务（如语言建模和机器翻译）中的最先进方法，并持续推动该领域的发展。

LSTM，详细了解看这篇：

神经网络算法 - 一文搞懂LSTM（长短期记忆网络）

原文：

picture.image

Introduction - 2

翻译：

*注：贡献均等。名单顺序是随机的。Jakob提出了用自注意力机制替换RNN的想法，并开始努力评估这一想法。Ashish与Illia一起设计并实现了第一个Transformer模型，并在这项工作的各个方面都发挥了关键作用。Noam提出了缩放点积注意力、多头注意力和无参数位置表示，并几乎参与了这项工作的每一个细节。Niki在我们的原始代码库和tensor2tensor中设计、实现、调优和评估了无数模型变体。Llion也尝试了新型模型变体，负责我们最初的代码库，以及高效推理和可视化。Lukasz和Aidan花费了无数漫长的时间设计和实现了tensor2tensor的各个部分，取代了我们早期的代码库，极大地改进了结果，并大大加速了我们的研究。

*注：在Google Brain工作时完成的工作。

*注：在Google Research工作时完成的工作。

解读：

Transformer创始八子：聚是一团火，散是满天星

Jakob：提出用自注意力机制替换RNN的想法，并开始评估。
Ashish与Illia：设计并实现了第一个Transformer模型，并在工作中发挥了关键作用。
Noam：提出了缩放点积注意力、多头注意力和无参数位置表示，并深入参与工作细节。
Niki：在原始代码库和tensor2tensor中设计、实现、调优和评估模型变体。
Llion：尝试新型模型变体，负责初始代码库，以及高效推理和可视化。
Lukasz和Aidan：设计和实现tensor2tensor，取代早期代码库，改进结果，加速研究。

Transformer八子

原文：

picture.image

Introduction - 3

翻译：

循环模型通常沿着输入和输出序列的符号位置进行计算。通过将位置与计算时间步骤对齐，它们生成一个隐藏状态序列ht，该序列是前一个隐藏状态ht-1和位置t的输入的函数。这种固有的顺序性质排除了训练样本内的并行化，这在序列长度较长时变得至关重要，因为内存限制会限制跨样本的批处理。最近的工作通过因式分解技巧[18]和条件计算[26]在计算效率方面取得了显著改进，同时在后者的情况下也提高了模型性能。然而，顺序计算的基本约束仍然存在。

解读：

循环模型因其固有的顺序性质，在处理长序列时受到内存和计算效率的限制。 尽管最近的研究通过因式分解和条件计算等方法提高了效率， 但这一基本约束仍然是一个待解决的问题。

原文：

picture.image

Introduction - 4

翻译：

注意力机制已经成为各种任务中强大序列建模和转换模型的重要组成部分 ，允许模型在不考虑输入或输出序列中距离的情况下建模依赖关系[2，16]。然而，在大多数情况下[22]， 这种注意力机制是与循环网络结合使用的 。

解读：

注意力机制 在序列建模中解决了依赖关系， 但大部分情况与循环网络结合使用 。

原文：

picture.image

Introduction - 5

翻译：

在这项工作中，我们提出了 Transformer模型架构，它摒弃了循环结构，转而完全依赖注意力机制来建立输入和输出之间的全局依赖关系 。Transformer模型允许更多的并行化，并且在八个P100 GPU上仅训练十二小时后，即可达到翻译质量的新水平。

解读：

引出了新的Transformer模型架构，该模型摒弃了循环结构，完全依赖注意力机制 ，从而实现了更高的并行化和优异的翻译质量。

三、 Background（背景）

原文：

Background - 1

翻译：

减少顺序计算的目标也是Extended Neural GPU[20]、ByteNet[15]和ConvS2S[8]等模型的基础，它们都使用卷积神经网络作为基本构建块，为所有输入和输出位置并行计算隐藏表示。在这些模型中，将两个任意输入或输出位置的信号关联起来所需的操作数随位置之间的距离增长，对于ConvS2S是线性增长，对于ByteNet是对数增长。这使得学习远距离位置之间的依赖关系更加困难[11]。在Transformer中，这被减少到恒定数量的操作，尽管由于平均了注意力加权的位置而降低了有效分辨率， 但我们通过第3.2节描述的多头注意力来抵消这一影响 。

解读：

减少顺序计算是Extended Neural GPU、ByteNet和ConvS2S等模型的基础，它们利用卷积神经网络并行计算隐藏表示，但关联远距离位置的操作数随距离增长， Transformer则通过多头注意力将操作数减少到恒定，以高效学习依赖关系。

引出了Multi-Head Attention

原文：

Background - 2

翻译：

自注意力（有时也称为内部注意力）是一种注意力机制 ，它关联单个序列中不同位置的信息，以计算序列的表示。自注意力已成功应用于多种任务中，包括阅读理解、抽象摘要、文本蕴含和学习与任务无关的句子表示[4，22，23，19]。

解读：

自注意力是一种关联单个序列不同位置以计算其表示的注意力机制 ，已成功应用于多种任务，如阅读理解、摘要和文本蕴含等。

引出了Self-Attention

原文：

Background - 3

翻译：

端到端记忆网络基于循环注意力机制，而非序列对齐的循环，已被证明在简单的语言问答和语言建模任务中表现良好[28]。

解读：

强调了端到端记忆网络通过采用循环注意力机制，在简单的语言处理任务中展现出了良好的性能。

引出了传统的 循环注意力机制：RNN + Attention

原文：

Background - 4

翻译：

据我们所知， Transformer 是第一个完全依赖自注意力来计算输入和输出表示的转换模型，不使用序列对齐的 RNN 或卷积 。在后续章节中，我们将描述 Transformer 模型，阐述自注意力的动机，并讨论其相对于如[ 14, 15 ]和[ 8 ]等模型的优势。

解读：

强调了Transformer在模型设计上的创新性和自注意力机制的重要性 ，并预告了后续章节将深入探讨这些内容。