https://arxiv.org/pdf/2311.01149v1.pdf
https://github.com/CASIA-LM/ChineseWebText
这篇论文的核心观点是提出一种新的完整工具链EvalWeb,用于从嘈杂的网络数据中提取高质量的中文文本。为了实现这个目标,作者结合了手动设计的规则和评估模型来过滤和评估网络文本。
算法原理分为以下几个步骤:
- 数据收集与准备:从CommonCrawl网站抓取数据,并使用去重和语言识别模块对数据进行初步清洗,提取中文文本。
- 预处理:利用手动设计的规则对中文文本进行进一步过滤,包括长度过滤、敏感词过滤、汉字比例过滤等。
- 质量评估:首先,使用基于BERT的分类模型(称为BERTEval)对经过预处理的文本进行质量评估,为每个文本生成一个质量分数。然后,通过设定适当的阈值来选择高质量的预训练数据。此外,为了提高计算效率,作者还采用知识蒸馏技术训练了一个FastText分类器,以实现类似的性能但更快的速度和较低的计算成本。
通过使用EvalWeb工具链,作者发布了最大且最新的大规模高质量中文网络文本数据集ChineseWebText,包含1.42 TB的数据,并为每个文本分配了一个质量分数。这有助于大型语言模型(LLM)研究人员根据所需的质量阈值选择数据。此外,作者还发布了一个质量超过90%的更干净的600 GB中文数据子集。
