NLP大牛菲利普•科恩机器翻译权威著作【文末有福利】 - 文章 - 开发者社区

近些年，机器翻译技术发生了翻天覆地的变化。与人工智能中的其他领域一样，深度神经网络已经成为主流范式，在提高翻译质量的同时也带来了新的挑战。

本书的出版恰逢中国机器翻译研究迅猛发展之时。在过去的二十年里，数据驱动方法对中文给予了特别的重视，无论是在学术研究机构内，还是在新兴的人工智能公司中，中国的研究人员都做了大量工作。

机器翻译模型在现实世界中成功与否取决于它在获取信息、跨越语言障碍进行交流方面的实用性。最终希望机器翻译能够让世界各地的人们增进理解，不管他们的母语是什么。开放的思想交流不仅对于科学研究至关重要，而且对于全人类共同努力以实现自由生活，追求与自然和谐相处的幸福这一共同目标同样重要。

picture.image

本书内容

深度学习正在彻底改变当今机器翻译系统的构建方式。本书从历史、语言和应用背景等方面介绍了机器翻译和评价所面临的挑战，讲述了自然语言应用中常用的深度学习核心方法。此外，本书还包含使用Python撰写的代码示例，为读者理解和实现自己的机器翻译系统提供了一个实践蓝本。本书内容广泛，涵盖了机器学习技巧、处理各种形式的数据所涉及的问题、模型增强，以及分析和可视化面临的挑战和方法等内容。

本书是对机器翻译应用当前研究的一个总结，可作为相关专业本科生和研究生的教材，也可以作为那些对神经方法在人类语言处理更广泛领域中的应用感兴趣的研究人员和开发人员的参考书。

picture.image

阅读指南

本书分为三部分。第一部分包含第1～4章，简要介绍机器翻译中的问题、机器翻译技术的实际应用及历史，讨论一直困扰机器翻译领域的译文质量评价问题。第二部分包含第5～9章，解释神经网络、基本机器翻译模型的设计，以及训练和解码的核心算法。第三部分包含第10～17章，既涵盖构建新模型的关键内容，也涉及开放性的挑战问题和一些未解决问题的前沿研究。

本书中的核心概念以四种方式进行介绍：非正式描述、正式的数学定义、插图说明和示例代码（用Python和PyTorch实现）。希望读者能够理解神经机器翻译背后的基础知识，能够实现最先进的模型，并能够修改现有的工具包以实现新颖的想法。

谁适合阅读本书

本书可作为大学本科和研究生课程的教材，也可以与其他应用任务的相关材料一起用于自然语言处理课程或者仅用于侧重机器翻译的课程（其中还应介绍统计机器翻译的某些方面，例如词对齐、更简单的翻译模型和解码算法）。由于本书涵盖了撰写时该领域的最新研究进展，因此它也可以作为该领域研究人员的参考书。

跳读指南

着急的读者可以直接跳到开始介绍核心技术的第5章。第二部分（第5～9章）包含了神经机器翻译的所有基本概念，包括实现此类模型的代码指南。本书的第三部分（也是篇幅最长的部分）包含了构建先进系统所需的许多关键主题。第10章、12.3节和14.1节是必读章节。神经机器翻译是一个快速发展的领域，第11章介绍的Transformer模型能够让你快速了解当前的最新技术。

本书作者

菲利普·科恩(PhilippKoehn) 约翰斯·霍普金斯大学计算机科学系的教授。他是机器翻译领域的领军人物，于2010年出版了教材Statistical Machine Translation（剑桥大学出版社出版，中文版为《统计机器翻译》）。他曾获国际机器翻译协会颁发的荣誉奖，是2013年欧洲专利局欧洲发明家奖的最终三名入围者之一。他还活跃在科技产业界，是Omniscien Technology公司的首席科学家、Meta公司的顾问。

本书译者

张家俊，中国科学院自动化研究所研究员、博士生导师，主要研究方向为机器翻译和自然语言处理，曾获得国家优秀青年科学基金资助，入选中国科协首届青年人才托举工程和北京智源青年科学家。发表CCF-A/B类论文70余篇，出版学术专著2部，6次获得最佳/优秀论文奖，3次被评为IJCAI、ACL和NAACL的杰出SPC和审稿人。曾获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、青年创新奖一等奖和北京市科学技术奖一等奖等，曾担任中国中文信息学会机器翻译专委会副主任、青年工作委员会副主任，多次担任ACL/EMNLP/COLING的(资深)领域主席。

赵阳，博士，中国科学院自动化研究所助理研究员。2019年毕业于中国科学院自动化研究所模式识别国家重点实验室，获博士学位。毕业后留所工作，研究方向为自然语言处理与机器翻译，在国内外相关顶级学术会议（AAAI、IJCAI、EMNLP、COLING等）和著名期刊（TASLP、AI、TALLIP等）上发表20余篇论文。担任国际权威期刊（TASLP等）的审稿人，多次担任国际顶级学术会议（ACL、COLING、IJCAI、AAAI）的程序委员会委员，担任COLING-20的出版主席。作为负责人和参与人员，主持和参与国家自然基金、科技部重点研发计划和中国科学院先导计划等多项国家项目。

宗成庆，中国科学院自动化研究所研究员、博士生导师，中国科学院大学岗位教授（A类），中国人工智能学会会士和中国计算机学会会士。主要从事自然语言处理、机器翻译和语言认知计算等研究，主持国家项目10余项，发表论文200余篇，出版《统计自然语言处理》等专著三部和译著一部，是国际计算语言学委员会（ICCL）委员、亚洲自然语言处理学会（AFNLP）主席和中国中文信息学会副理事长。曾任国际一流学术会议ACL 2015程序委员会主席和ACL 2021大会主席。曾荣获国家科技进步奖二等奖和北京市科学技术奖一等奖等，曾获北京市优秀教师、中国科学院优秀导师和宝钢优秀教师奖等若干荣誉，享受国务院特殊津贴。

大咖推荐

本书系统地介绍了神经机器翻译的基本原理、关键技术和实现方法，深入浅出，通俗易懂，是一部精品之作。译者长期从事机器翻译研究，对技术细节有清楚的了解，翻译质量高。特此向读者推荐。

——黄河燕北京理工大学教授、博士生导师，人工智能研究院院长

神经机器翻译已经成为本领域国际主流方法。由一流的机器翻译专家翻译一流的机器翻译著作，可谓恰逢其时、相得益彰。这部巨著将成为机器翻译技术学习的宝鉴。

——赵铁军哈尔滨工业大学教授、博士生导师

本书是著名机器翻译专家科恩博士的上一部著作《统计机器翻译》的姊妹篇。这两部著作是数据驱动的机器翻译的经典文献。本书的出版对推动机器翻译技术研究和开发具有十分重要的意义。

——周明创新工场首席科学家、澜舟科技创始人

《神经机器翻译》全面深入地阐述了神经机器翻译的基本概念、关键技术和研究进展，为机器翻译及人工智能相关领域的研究者提供了重要参考，有助于激发进一步的研究探索。

——王海峰百度首席技术官、深度学习技术及应用国家工程实验室主任

科恩博士是著名的机器翻译专家，本书是他继《统计机器翻译》之后的又一部力作，系统阐述了机器翻译的最新进展。两部著作由同一国内顶级机器翻译研发团队牵头翻译，是中文读者的幸运，值得大力推荐。

——张民哈尔滨工业大学（深圳）特聘校长助理、国家杰出青年基金获得者

近五年来，机器翻译技术在深度学习的推动下产生了重要的范式变迁。本书系统全面地介绍了神经机器翻译的基本问题、重要模型与核心算法，对自然语言处理特别是机器翻译领域的研究人员来说具有重要的参考价值，值得深入阅读。

——刘洋清华大学智能产业研究院副院长、国家杰出青年基金获得者

上拉下滑查看目录 ↓

作者寄语

译者序

前言

阅读指南

第一部分　绪论

第1章　翻译问题2

1.1　翻译的目标2

1.2　歧义性4

1.2.1　词汇翻译问题4

1.2.2　短语翻译问题4

1.2.3　句法翻译问题5

1.2.4　语义翻译问题5

1.3　语言学观点6

1.4　数据视角9

1.4.1　忠实度9

1.4.2　流畅度10

1.4.3　齐普夫定律11

1.5　实际问题13

1.5.1　公开的数据13

1.5.2　评测活动13

1.5.3　工具集14

第2章　机器翻译的应用15

2.1　信息获取15

2.2　人工辅助翻译16

2.3　交流18

2.4　自然语言处理的管道式系统21

2.5　多模态机器翻译21

第3章　历史回顾23

3.1　神经网络24

3.1.1　生物学启发24

3.1.2　感知器学习25

3.1.3　多层网络25

3.1.4　深度学习26

3.2　机器翻译27

3.2.1　密码破译27

3.2.2　ALPAC报告与后续影响27

3.2.3　首个商用系统28

3.2.4　基于中间语言的翻译系统28

3.2.5　数据驱动的方法28

3.2.6　开源的研发环境29

3.2.7　深入用户30

3.2.8　神经翻译的兴起30

第4章　评价方法32

4.1　基于任务的评价32

4.1.1　真实世界的任务33

4.1.2　内容理解33

4.1.3　译员翻译效率34

4.2　人工评价35

4.2.1　忠实度和流畅度35

4.2.2　排序37

4.2.3　连续分数38

4.2.4　众包评价40

4.2.5　人工译文编辑率41

4.3　自动评价指标41

4.3.1　BLEU42

4.3.2　同义词和形态变体43

4.3.3　TER44

4.3.4　characTER45

4.3.5　自举重采样45

4.4　指标研究47

4.4.1　关于评价的争论47

4.4.2　对评价指标的评价48

4.4.3　自动评价指标缺点的相关证据49

4.4.4　新的评价指标50

第二部分　基础

第5章　神经网络54

5.1　线性模型54

5.2　多层网络55

5.3　非线性模型56

5.4　推断57

5.5　反向传播训练59

5.5.1　输出节点权重60

5.5.2　隐藏层节点权重61

5.5.3　公式总结63

5.5.4　权重更新示例63

5.5.5　验证集64

5.6　探索并行处理65

5.6.1　向量和矩阵运算65

5.6.2　小批量训练65

5.7　动手实践：使用Python实现神经网络66

5.7.1　Numpy库中的数据结构和函数66

5.7.2　前向计算67

5.7.3　反向计算67

5.7.4　链式法则的重复使用68

5.8　扩展阅读71

第6章　计算图72

6.1　用计算图描述神经网络72

6.2　梯度计算73

6.3　动手实践：深度学习框架77

6.3.1　利用PyTorch实现前向和反向计算77

6.3.2　循环训练79

6.3.3　批训练80

6.3.4　优化器81

第7章　神经语言模型83

7.1　前馈神经语言模型83

7.1.1　表征单词84

7.1.2　神经网络架构85

7.1.3　训练86

7.2　词嵌入86

7.3　噪声对比估计88

7.4　循环神经语言模型89

7.5　长短时记忆模型91

7.6　门控循环单元93

7.7　深度模型94

7.8　动手实践：PyTorch中的神经语言模型96

7.8.1　循环神经网络96

7.8.2　文本处理97

7.8.3　循环训练98

7.8.4　建议99

7.9　扩展阅读100

第8章　神经翻译模型101

8.1　编码器–解码器方法101

8.2　添加对齐模型102

8.2.1　编码器102

8.2.2　解码器103

8.2.3　注意力机制104

8.3　训练106

8.4　深度模型108

8.4.1　解码器108

8.4.2　编码器109

8.5　动手实践：利用PyTorch实现神经翻译模型110

8.5.1　编码器111

8.5.2　解码器111

8.5.3　训练113

8.6　扩展阅读115

第9章　解码116

9.1　柱搜索116

9.2　集成解码119

9.2.1　生成候选系统120

9.2.2　融合系统输出120

9.3　重排序121

9.3.1　利用从右到左解码的重排序121

9.3.2　利用反向模型的重排序122

9.3.3　增加n-best列表的多样性122

9.3.4　评分组件的权重学习123

9.4　优化解码126

9.5　约束解码127

9.5.1　XML模式127

9.5.2　网格搜索127

9.5.3　强制注意力128

9.5.4　评价129

9.6　动手实践：Python中的解码129

9.6.1　假设129

9.6.2　柱空间129

9.6.3　搜索131

9.6.4　输出最佳译文132

9.7　扩展阅读133

第三部分　提高

第10章　机器学习技巧138

10.1　机器学习中的问题138

10.2　确保随机性140

10.2.1　打乱训练数据141

10.2.2　权重初始化141

10.2.3　标签平滑142

10.3　调整学习率142

10.3.1　动量项142

10.3.2　调整每个参数的学习率143

10.3.3　批梯度更新144

10.4　避免局部最优145

10.4.1　正则化145

10.4.2　课程学习145

10.4.3　drop-out法146

10.5　处理梯度消失和梯度爆炸问题147

10.5.1　梯度裁剪147

10.5.2　层归一化147

10.5.3　捷径连接和高速连接148

10.5.4　LSTM和梯度消失149

10.6　句子级优化150

10.6.1　最小风险训练150

10.6.2　生成对抗训练151

10.7　扩展阅读152

第11章　替代架构155

11.1　神经网络组件155

11.1.1　前馈层155

11.1.2　因子分解156

11.1.3　基本的数学运算157

11.1.4　循环神经网络158

11.1.5　卷积神经网络159

11.2　注意力模型160

11.2.1　注意力计算160

11.2.2　多头注意力161

11.2.3　细粒度注意力162

11.2.4　自注意力162

11.3　卷积机器翻译模型163

11.4　融合注意力机制的卷积神经网络165

11.4.1　编码器165

11.4.2　解码器166

11.4.3　注意力167

11.5　自注意力：Transformer167

11.5.1　自注意力层167

11.5.2　解码器中的注意力168

11.6　扩展阅读171

第12章　重温单词173

12.1　词嵌入173

12.1.1　潜在语义分析174

12.1.2　连续词袋模型175

12.1.3　Skip Gram176

12.1.4　GloVe176

12.1.5　ELMo177

12.1.6　BERT178

12.2　多语言词嵌入178

12.2.1　特定语言词嵌入之间的映射179

12.2.2　语言无关的词嵌入180

12.2.3　仅使用单语数据180

12.3　大词汇表182

12.3.1　低频词的特殊处理182

12.3.2　字节对编码算法183

12.3.3　句子片段化算法184

12.3.4　期望最大化训练185

12.3.5　子词正则化185

12.4　基于字符的模型186

12.4.1　字符序列模型186

12.4.2　基于字符的单词表示模型186

12.4.3　集成基于字符的模型188

12.5　扩展阅读189

第13章　领域自适应195

13.1　领域195

13.1.1　语料库之间的差异196

13.1.2　多领域场景197

13.1.3　领域内与领域外198

13.1.4　自适应效应198

13.1.5　合理的警告199

13.2　混合模型199

13.2.1　数据插值199

13.2.2　模型插值200

13.2.3　领域感知训练201

13.2.4　主题模型202

13.3　欠采样204

13.3.1　Moore-Lewis：语言模型交叉熵204

13.3.2　基于覆盖范围的方法205

13.3.3　样本加权206

13.4　微调206

13.4.1　约束更新207

13.4.2　文档级自适应208

13.4.3　句子级自适应209

13.4.4　课程训练210

13.5　扩展阅读210

第14章　超越平行语料库214

14.1　使用单语数据215

14.1.1　增加语言模型215

14.1.2　回译216

14.1.3　迭代回译217

14.1.4　往返训练217

14.2　多种语言对218

14.2.1　多种输入语言219

14.2.2　多种输出语言219

14.2.3　共享模块220

14.3　训练相关任务221

14.3.1　预训练词嵌入221

14.3.2　预训练编码器和解码器221

14.3.3　多任务训练222

14.4　扩展阅读222

第15章　语言学结构228

15.1　有指导的对齐训练228

15.2　建模覆盖度230

15.2.1　在推断过程中约束覆盖度230

15.2.2　覆盖度模型231

15.2.3　繁衍率232

15.2.4　特征工程与机器学习232

15.3　添加语言学标注233

15.3.1　输入句子的语言学标注233

15.3.2　输出句子的语言学标注234

15.3.3　语言学结构化的模型235

15.4　扩展阅读236

第16章　当前挑战238

16.1　领域不匹配238

16.2　训练数据规模240

16.3　稀有词241

16.4　噪声数据243

16.4.1　真实世界中的噪声243

16.4.2　合成噪声245

16.4.3　噪声对翻译质量的影响246

16.5　柱搜索248

16.6　词对齐250

16.7　扩展阅读251

第17章　分析与可视化253

17.1　错误分析253

17.1.1　神经机器翻译的典型错误253

17.1.2　语言学错误类型255

17.1.3　真实世界中的研究案例256

17.1.4　目标测试集257

17.1.5　合成语言259

17.2　可视化259

17.2.1　词嵌入260

17.2.2　编码器状态：词义261

17.2.3　注意力机制262

17.2.4　多头注意力机制263

17.2.5　语言模型预测中的记忆264

17.2.6　解码器状态266

17.2.7　柱搜索266

17.3　探测向量表示267

17.3.1　分类器方法267

17.3.2　实验发现268

17.4　分析神经元269

17.4.1　认知理论269

17.4.2　个体神经元269

17.4.3　揭示神经元271

17.5　追溯模型决策过程271

17.5.1　层级间相关性传递271

17.5.2　相关性传递在机器翻译中的应用273

17.5.3　显著性计算274

17.6　扩展阅读275

参考文献279

picture.image

扫码即达↓

picture.image

长按扫描下方二维码，关注【集智书童】

回复” 机器翻译 “即可参与抽奖

picture.image

开奖时间为2022/04/20 18:00

Webpack实战：入门、进阶与调优（第2版）

工业物联网：平台架构、关键技术与应用实践

数据安全实践指南

Web渗透测试实战：基于Metasploit 5.0

picture.image