ChineseWebText：一份大规模高质量的中文网络文本数据集 - 文章 - 开发者社区


        
          
https://arxiv.org/pdf/2311.01149v1.pdf  
https://github.com/CASIA-LM/ChineseWebText

picture.image

这篇论文的核心观点是提出一种新的完整工具链EvalWeb，用于从嘈杂的网络数据中提取高质量的中文文本。为了实现这个目标，作者结合了手动设计的规则和评估模型来过滤和评估网络文本。

算法原理分为以下几个步骤：

数据收集与准备：从CommonCrawl网站抓取数据，并使用去重和语言识别模块对数据进行初步清洗，提取中文文本。
预处理：利用手动设计的规则对中文文本进行进一步过滤，包括长度过滤、敏感词过滤、汉字比例过滤等。
质量评估：首先，使用基于BERT的分类模型（称为BERTEval）对经过预处理的文本进行质量评估，为每个文本生成一个质量分数。然后，通过设定适当的阈值来选择高质量的预训练数据。此外，为了提高计算效率，作者还采用知识蒸馏技术训练了一个FastText分类器，以实现类似的性能但更快的速度和较低的计算成本。

通过使用EvalWeb工具链，作者发布了最大且最新的大规模高质量中文网络文本数据集ChineseWebText，包含1.42 TB的数据，并为每个文本分配了一个质量分数。这有助于大型语言模型（LLM）研究人员根据所需的质量阈值选择数据。此外，作者还发布了一个质量超过90%的更干净的600 GB中文数据子集。