预训练模型BERT, ERNIE, BERT-wwm在公开数据集的对比 - 文章 - 开发者社区

自从2018年Bert发布之后，刷新了很多NLP任务，取得了SOTA的结果，然而预训练模型远没有结束，近期有一些bert的变种模型推出，比如bert-wwm，bert-wwm-ext，albert，roberta等等，还包括百度的ernie1.0，ernie2.0，这些模型都对bert进行了改进。

本文主要讲述一下论文《Pre-Training with Whole Word Masking for Chinese BERT 》在BERT, ERNIE, BERT-wwm模型的实验结果。

论文地址https://arxiv.org/abs/1906.08101

github地址https://github.com/ymcui/Chinese-BERT-wwm

picture.image

关于bert的基本理解，可以参考博客https://www.cnblogs.com/rucwxb/p/10277217.html

目前很多NLP工程师都已经使用bert在自己的数据集上做过很多任务了，并且取得了不错的效果，最基本bert预训练模型的结构如下：

picture.image

   其他bert模型的变种也基本都是这种结构，这样我们在做实验对比的时候就会很方便，只需要选择对应模型的这5个文件即可，区别在于他们训练的语料或者任务不一样。  



   最原始的bert是masked WordPiece token而不是a whole word，这在处理中文的时候会有限制，在google推出bert-wwm(Whole Word Masking)之前，百度已经推出ERNIE模型，率先采用了这种策略。

Figure1是wwm的实例

picture.image

例如“模型”是一个词，如果其中一个字被mask掉，那么另一部分也将被mask，也就是说一个词的部分被mask，那么这个词将全部被mask，这样会保证汉语分词的语义。

下面正式介绍论文内容：

Chinese BERT with Whole Word Masking

2.1）Data Processing

首先下载wiki数据，地址如下https://dumps.wikimedia.org/zhwiki/latest/

使用https://www.aclweb.org/anthology/N19-1423/提供的WikiExtractor.py进行数据预处理，包括去除html标签，划分文档。采用LTP分词工具分词，并且使用bert官方代码create\_pretraining\_data.py把原始数据处理成预训练需要的数据格式，为了对比实验，生成了最大长度为128和512的预训练数据，其他参数均保持和bert一致。

2.2）Pre-Training

使用官方的BERT-base（Chinese）分两个stage训练，第一个stage：最大长度为128的语料上训练了100k步，batch_size大小为2560，初始学习率为1e-4（warm-up率为10%）；第二个stage：最大长度为512的语料上训练了100k步，batch_size大小为384，都采用LAMB优化器，这个优化器可以满足比较大的batch。

LAMB优化器：https://github.com/ymcui/LAMB\_Optimizer\_TF

2.3）Fine-Tuning on Downstream Tasks
在fine-tuning下游任务的时候，除了bert_config.json和vocab.txt这两个不替换外，只需要替换其他的三个文件即可。