复旦&北大&上海交大开源 Chinese-Tiny-LLM/ | 以中文为中心的大语言模型 !

技术

picture.image

在本研究中,作者介绍了CT-LLM,这是一个2B 规模的大型语言模型(LLM),它标志着在开发LLM时向优先考虑中文语言的重大转变。

CT-LLM是 从零开始独特地启动的,它不同于传统方法,主要通过整合中文文本数据,利用包括1200亿个 Token 的广泛语料库,其中包括800亿个中文 Token ,300亿个英文 Token 和100亿个代码 Token 。

这种策略性的组合使模型在理解和处理中文方面具有卓越的熟练度,这一能力通过校准技术进一步得到增强。

在CHC-Bench上表现出色的 CT-LLM,在中文语言任务上表现出色,并通过SFT展示了其在英语方面的熟练程度。

这项研究挑战了目前在英语语料库上训练LLM并随后将它们适应其他语言的普遍范式,为LLM训练方法拓宽了视野。通过开源训练中文LLM的整个过程,包括详细的数据处理流程、获得的大规模适当预训练中文语料库(MAP-CC)、精心挑选的跨学科中文难题基准(CHC-Bench)以及2B规模的中文小型LLM(CT-LLM),作者旨在促进学术界和工业界的进一步探索和创新,为更具包容性和多功能的语言模型铺平道路。

关注公众号获取代码。

1 Introduction

在语言智能新兴领域,大型语言模型(LLM)已成为自然语言处理(NLP)的基石,展示了在理解和生成人类语言方面的卓越能力。这些模型主要在英语数据集上进行训练,显著推进了计算语言学的发展,并在各种任务上设定了新的基准。然而,对英语的这种强调掩盖了人类语言的固有多样性,限制了LLM适用性和创新的范围。从最初就融入非英语语言的复杂性及细微差别的LLM的发展,仍然是一个相对未探索的领域。

本研究介绍了中文小型LLM(CT-LLM),这是一项开创性的努力,旨在通过优先考虑中文来重新定义LLM的格局。CT-LLM拥有200亿个参数,通过在包含1200亿个标记的综合语料库上进行精心预训练,与传统的做法有所不同。这个语料库在组成上独具特色,包括800亿个中文标记、300亿个英文标记和100亿个代码标记。作者精心处理的数据流程提供了大规模适当预训练中文语料库(MAP-CC),提升了中文网络语料库的质量,为该领域的数据集准备设定了新标准。战略性地包含大量且多样化的中文文本数据,使CT-LLM在处理和理解中文方面取得了卓越的熟练度,为LLM能力树立了新的先例。

作者的方法通过监督式微调(SFT)进一步精进了模型的竞争力。SFT不仅加强了模型在中文语言任务上的熟练度,还提升了其在理解和生成英文文本方面的多样性,展示了其多语言能力。作者还利用偏好优化技术使CT-LLM与人类偏好保持一致,以增强其无害性和帮助性。此外,还建立了包含多学科的中文难题基准(CHC-Bench),以衡量中文的指令理解和遵循能力,其中CT-LLM展示了卓越的性能。通过挑战主要在英文语料库上训练LLM的现行规范,CT-LLM扩大了语言模型训练的视野,为非以英语为中心的LLM的可能性提供了新的视角。

作者的研究核心是开源CT-LLM的全部训练过程,包括为策划大规模适当预训练中文语料库(MAP-CC)所采取的精心数据处理流程,以及建立包含多学科的中文难题基准(CHC-Bench)。通过传播作者的方法学和发现,作者旨在为未来的LLM发展创造一个更加包容和多元化的环境,鼓励探索更好地反映人类语言和文化多样性的模型。作者的贡献有三方面:

MAP-CC 一个拥有800亿标记的开源中文预训练数据集,以及一套详细的清洗中文网络语料库流程,为NLP社区提供高质量的中文预训练数据及数据准备的有效方法。

CHC-Bench 一个精心挑选的包含多学科的中文难题指令理解和遵循基准。

CT-LLM 第一个以中文为中心的大型语言模型,主要在中文语料库上进行预训练和微调,为中文语言能力及多语言适应性提供了重要见解。

2 Related Works

以下是2相关工作部分的开始:

In recent years, significant progress has been made in the field of AI, particularly in the domain of computer vision. Various models and algorithms have been proposed and have shown impressive results in a wide range of tasks including image classification, object detection, and semantic segmentation. This section provides a brief overview of the related works that are closely related to our research.

LLM with Chinese Language Ability

在LLM领域,技术的进步催生了一系列展现卓越语言能力的开源模型。值得注意的是,如LLaMA Touvron等人(2023a,b)、Phi Li等人(2023b);Gunasekar等人(2023)、Mistral Jiang等人(2023)和Gemma Team等人(2024)的模型已经成为这一领域的佼佼者,突显了该领域技术上的飞跃。在全球化的背景下,对于能够处理双语或多语言功能的模型的需求日益增长,特别是那些能够涵盖广泛中文应用领域的模型。这种需求源于对本地化解决方案的渴望以及在全球范围内弥合语言鸿沟的必要性。为了满足这一需求,已采取多种策略来增强LLM的多语言能力,尤其是通过在预训练阶段增加中文token的比例,或采用如监督微调(SFT)等技术来激活中文语言功能(Zeng等人,2023;Bai等人,2023;Yang等人,2023;Team,2023;Young等人,2024;Bi等人,2024)。在这方面的一个早期例子是ChatGLM Zeng等人(2023),它首次在预训练阶段平等分配中文和英文token,最终训练出了一个熟练的双语模型。继此之后,像Qwen Bai等人(2023)的模型通过在预训练过程中整合多语言数据,进一步拓宽了语言视野,实现了更广泛的语言支持。此外,Yi Young等人(2024)和DeepSeek Bi等人(2024)的模型证明了精心应用的SFT在解锁多语言能力方面的有效性,尤其是在中文语言推理方面表现出色。然而,尽管取得了这些进步,一个以中文为主要语言的中文中心LLM的存在仍然不确定。这一空白突显了在语言技术发展中,开发本地化、开源中文模型的关键兴趣领域,强调了定制方法在语言技术演变中的重要性。

Chinese Corpora for Pretraining and Alignment

预训练数据在开发语言模型中至关重要,它为这些模型提供了学习和理解人类语言的基础。尽管英语数据的丰富性显著促进了英语大型语言模型(LLM)的发展,但中文预训练数据的局面则呈现出巨大的潜力与显著的稀缺性。尽管中文互联网上存在大量的数据,但中文预训练数据集相对较少,这引发了关于数据多样性和质量的担忧。YaYi(罗等,2023年)、SkyPile(韦等,2023年)和Wudao(袁等,2021年)精心挑选开源内容构建了高质量的资源;然而,其数量的有限性限制了它们在促进全面模型训练方面的有效性。相比之下,Wudao拥有广泛的中文训练资源,尽管数据质量存在显著差异,且在格式上忽视了换行,因此在实际应用中带来了挑战。ChineseWebText在数据质量与数量之间取得了较好的平衡,使得它更适用于当前的预训练努力。某些替代数据集,如Telechat(王等,2024年)和CCI(BAAI,2023年),质量尚可,但数量不足。这些数据集使用了类似SkyPile的数据收集和过滤方法,作为其他语料库的额外资源。此外,尽管COIG系列(张等,2023年;郑等,2024b年)被归类为SFT数据,但由于其巨大的数据量,它对大规模预训练应用持有希望。总体而言,现有的预训练数据集在数量上存在稀缺或在质量上有所妥协,凸显了探索以中文为中心的大规模模型预训练的重要性。这样的探索对于辨别当代中文语言数据的独特性以及识别利用和理解文本中文资源的新途径至关重要。

Emergence of Multilingual Capacity

目前开发大型语言模型(LLM)的主导范式在很大程度上倾向于以英语为中心的预训练方法。这种基于英语数据的大量可用性和全球普遍性的方法,为大多数现代LLM架构奠定了基础。随后,诸如持续预训练、有监督的微调以及指令微调(IFT)等策略被采用以扩展这些模型的语际范围,激活其多语言能力(Zeng et al. 2023; Bai et al. 2023; Yang et al. 2023; Team 2023; Young et al. 2024; Bi et al. 2024)。这些方法被证明是有效的,展示了LLM在最初的以英语为中心的培训之外,适应语言多样性的能力,具有代表性的例子如Chinese-MixtAl-Taylor和Yao (2024)以及Chinese-MixtAl-Taylor (2024)。除了这些适应策略之外,还存在一些从一开始就专门为多语言熟练度设计的模型。像BLOOM(Le Scao et al. 2022)和Aya Ustun等人(2024)的模型体现了这种方法,在预训练和微调阶段都融入了多种语言。尽管这些努力旨在整合语言多样性,但英语在这些模型中仍然占据主导地位(Zhao et al. 2024)。在这篇论文中,作者探讨了一种挑战以英语为中心的主导范式的反叙事:以中文为中心的预训练激活其他语言(如英语)熟练度的可行性。通过将中文视为预训练的主要语言,作者研究这样的模型是否能够有效地获取并在其他语言中展示能力。以中文为中心的方法的成功可能会显著民主化语言技术,为创建反映全球语言多样性的包容性模型提供见解。

3 Pretraining

以下是3预训练部分的开始:

在本文中,作者探讨了基于Transformer架构的预训练方法。Transformer模型已证明在多种自然语言处理任务中取得了显著成效。作者的目标是研究这种模型是否同样适用于视觉识别任务。为此,作者提出了一种新的预训练方法,旨在利用图像内容进行有效编码。

Data

先前的研究(Hoffmann等人,2022年)已经确定数据集的大小对大型语言模型的性能有显著影响。同时,数据集的多样性和全面性对训练面向通用领域的大型语言模型至关重要。基于上述原则,并且考虑到作者强调利用中文语料库进行模型训练,作者开发了一个包含1,254.68亿个标记的数据集。这个数据集整合了中文、英文和代码数据,其中包括840.48亿个中文标记,314.88亿个英文标记和99.3亿个代码标记。数据集汇聚了来自多种来源的内容,例如来自Common Crawl的网页文档、学术文章、百科全书和书籍。具体的分布情况详见图1。作者的数据集中大约有110亿个重复的标记,主要是英文。尽管它们是重复的,但质量很高,并且在训练中故意使用了两次。

picture.image

启发式规则 作者设计了一些启发式规则来进行数据过滤,以移除低质量的数据。这些规则代表了一个综合的过滤策略框架,受到了来自多个数据集和模型的方法的启发,特别是RefinedWeb(Penedo等人,2023年)和CCNet(Wenzek等人,2020年),以及一些在训练其他语言模型时应用的规则,例如Gopher(Rae等人,2022年)和T5(Raffel等人,2020年)。作者还开发了一套专门针对作者数据集特性的规则。

值得一提的是,现有的规则主要针对英文数据过滤。因此,作者特别针对中文数据集对这些规则进行了调整和修改。这些规则的阈值和细节是通过分析数据集中的抽样文档确认的。

作者的初步步骤是标准化数据格式以提高处理效率。接下来,作者通过两个阶段从文本中去除URL,以确保彻底移除:首先从黑名单T1中去除含有URL的数据,然后过滤掉剩余的任何URL,从而提高数据纯度。作者还应用句子 Level 和文档 Level 的过滤,排除过于简短、质量低下或缺乏逻辑顺序的文本,确保数据的连贯性和相关性。此外,作者还移除了重复的文本,包括n-gram和句子。详细的规则列在附录A中。

图1:预训练数据分布,其中“zh”代表中文数据,“en”代表英文数据,“cc”代表100ommon Crawl,包括公开可用的网页文档等,而“encyc.”指的是百科全书。

去重 在实施了过滤过程之后,作者开发了一个全面的去重 Pipeline 。该 Pipeline 包括文档 Level 的精确去重、文档 Level 的Minhash去重以及文档内 Level 的相似行去重,有效地识别并移除文档内的重复内容。对于精确去重,为了减少内存压力,作者使用布隆过滤器进行近似,误报率设置为0.001。在Minhash LSH的情况下,签名由128个哈希函数构建而成,并组织成9个频带和13行进行LSH,达到0.8的Jaccard相似度。文档内 Level 的相似行去重旨在移除单个文档内的重复行。这种方法是由作者观察到大量网页爬取数据在同一个页面内包含2到3次的重复,并且由于从HTML中提取文本的过程,某些词语可能丢失,导致重复内容出现轻微变化。对于这种去重,作者采用编辑距离来确定行相似性。具体标准是,如果两行的编辑距离小于较短行长度的十分之一,则认为这两行相似。此外,为了加快这个过滤过程,作者计算了字符重叠比例的###模型架构

作者的模型架构基于Vaswani等人(2017年)的 Transformer 解码器。定义作者架构的关键参数如表1所示,模型在4096个标记的较大上下文长度上进行训练。除了基本元素之外,作者的方法与原始 Transformer 相比还整合了几项改进。

picture.image

多头注意力机制。 在作者的模型中,作者采用了Vaswani等人(2017年)描述的多头注意力机制。Shazeer(2019年)已经证明,采用不同的多头注意力可以提高模型在不同尺度上的性能。

RoPE嵌入 Su等人(2021年)。作者的架构不是依赖绝对位置嵌入,而是在每一层中融入了旋转变量位置嵌入。此外,为了最小化整体模型大小,输入和输出之间共享嵌入。

SwiGLU激活函数 Shazeer(2020年)。标准的ReLU非线性被SwiGLU激活函数所取代。

RMSNorm 与Llama2模型Touvron等人(2023年)7B系列相同。作者对每个 Transformer 子层的输入、注意力层和前馈层进行RMSNorm归一化Zhang和Sennrich(2019年)。

分词器 作者采用了baichuan2分词器杨等人(2023年),该分词器使用了来自SentencePiece库的基于字节对编码(BPE)Shibata等人(1999年)进行数据分词。词汇表大小为125,696。此外,这个分词器被设计为将数字分割成单个数字,从而增强数值数据的编码。

4 Supervised Finetuning

图2:上方是数据流程处理和去重比例,下方是类似线条去重的示意图。

picture.image

对于监督微调(SFT),作者使用了中英双语数据。中文数据包括CQIA(Bai等人,2024)和OL-CC的完整数据集,以及从COIG-PC(Zhang等人,2023)抽样得到的高质量数据。英文数据是从OpenHermesPreferences数据集(Huang等人,2024a)中抽样得到的。中文数据总量为105K指令数据对,英文数据根据中文数据量调整不同的比例,比例分别为1:1、2:1、4:1和8:1,同时还包括仅含中文数据和仅含英文数据的配置。每组实验均训练3个epochs,具体的实验结果展示在表12中。

picture.image

模型训练所使用的超参数如下:序列长度为2048,全局批大小为128,最大学习率为。为了防止过拟合,应用权重衰减,值为0.1,并实施梯度裁剪,限制为1.0。

为了从COIG-PC数据集和OpenHermesPreferences数据集中提取高质量片段,作者采用困惑度(ppl)作为选择指标。具体来说,作者使用Qwen-7B(Bai等人,2023)模型来计算从SFT数据集中抽取样本的ppl。在作者对SFT数据集的数据过滤过程中,只保留那些在Qwen-7B下困惑度分数低于3,000的条目。

5 Learning from Human Preferences

考虑到LLM(大型语言模型)的无害和有益目标,作者利用DPO(Rafailov等人,2024年)直接从回应对的排名中学习人类偏好。

偏好数据集。 作者的模型融合了可公开获取的数据集和LLM生成的合成数据。开源的中文数据集包括了LLama-factory(Zheng等人,2024c)中的非有害和有益部分,如_coales.xhlf_、_comparison.gpt4_data.zh_和_oast.rnn.zhl_,以及火子、知乎。对于英文,数据集包括了来自LLama-factory的_comparison.gpt4.data.en_和beavertails(Ji等人,2024年)。为了通过合成方法构建更高质量的偏好数据集,作者采用了alpaca-gpt4(Peng等人,2023年),它使用GPT-4生成“选定”的回应,以及baichuan-6B(Yang等人,2023年)作为生成“拒绝”回应的较弱模型。该数据集总共包含183k个中文配对和46k个英文配对。

训练设置。 作者使用CT-LLM的SFT版本作为参考模型来优化目标语言模型。由的模型参数初始化。作者设置以下超参数:1. 在8个H800上训练,2. 学习率,3. 批量大小,4. 迭代次数,5. 权重衰减,6. 预热比例,7. 以控制与的偏差。

性能。 经过SFT和DPO后的CT-LLM被称为CT-LLM-SFT-DPO。CT-LLM-SFT-DPO在通用基准测试上的表现,如MMLU、COPA,在表2中展示。

picture.image

6 Evaluations

以下是第6节“评估”的开 Head 分。

训练过程与比较分析训练进展表明,在多种数据集上呈现出一致的改进趋势,特别是在语言理解、推理以及特定领域的知识方面取得了显著进步。值得注意的是,如HellaSwag、PIQA和ARC等数据集显示出明显的改进,这表明了推理能力的增强。模型在数学(GSM8K和TheoremQA)和科学(ARC-c和ARC-e)等专门领域取得了显著进步,强调其理解和产生这些领域特定内容的能力在不断提升。作者预训练过程中中间预训练权重的评估结果如表4所示。

picture.image

将作者模型在英语和中文基准测试上的表现与其他模型进行比较,发现在如MMLU和CMMLU等多学科数据集上,性能差距显著较小,如表2所示。而其他模型在语言理解和推理基准测试中表现出显著的差异,作者的模型保持了在各种领域内的一致性能,这表明了在多样化领域中的平衡能力。这与在其他模型中观察到的明显波动形成对比,例如在HellaSwag数据集中,作者的模型与MiniCPM(min,2024)和Phi-2等替代模型相比,显示出更优越或具有竞争力的推理能力。同样,在特定领域评估(C-Eval和CMMLU)中,作者的模型表现出色,超过了TinyLlama-1.1B和Bloom-1.7B等模型,在理解和生成需要细致理解文化和领域特定背景的内容方面。这种平衡的能力凸显了模型的多样性和适应性,使其成为AI语言模型领域中强有力的竞争者,既有广泛适用性,也有深入特定领域知识的能力。

作者还比较了使用中英数据2:1比例(SFT)微调后的模型与其他模型在常见基准测试和中文基准测试上的表现,如表3所示。作者发现,在中文方面,作者模型的性能特别强。这个SFT模型使用的数据比例与预训练的比例一致。作者发现其总体性能最佳。其他比例训练的模型性能可以在附录E.2中找到。

表3:规模约为2B的对齐模型在基准测试上的表现。最佳结果用蓝色表示,次佳结果用下划线表示,第三佳结果用蓝色表示。

安全性评估作者还评估了CT-LLM-SFT-DPO的安全性评分,与MiniCPM-2B-stit-fp、Bloom-1.7B和Stablelm-zephyr-3B等 Baseline 模型在价值观责任基准(Xu等人,2023年)上进行比较。评估包括两部分:多选题和问答。多选题部分包括1,712个输入示例,每个示例包括一个人工 Query 和两个候选回应。评估的模型需要选择他们认为更优的回应并与标准答案进行比较。问答部分包括664个输入示例,其中使用GPT-4为每个模型的回应评分。作者使用平均分作为最终表现。自动评估中使用的提示在附录D中显示。

Chinese Hard Instructions Understanding and Following Evaluation

作者从各种来源收集问题,例如ziya(张等人,2022年)、高考和CIF-Bench(李等人,2024年),以形成难度较大的中文指令理解及跟进评估基准(简称CHC-Bench)。CHC-Bench中的问题类别包括写作、人文历史、科学、数学、阅读理解、角色扮演以及中文理解的难点案例(即中文单词发音、古汉语理解等)。

评估指标。 考虑到20亿参数模型的局限性,作者的评估标准不仅仅局限于回答的准确性。作者还考虑了模型回答中的实用性、相关性、准确性、深度、创造性和细节程度等因素。这种综合方法能够详细评估模型回答的质量。具体来说,作者使用GPT-4(Achiam等人,2023年)在特定问题背景下为测试的LLM的回答打分,评分提示在附录C.2中提供。作者将来自郑等人(2024年)的评分提示模板进行了翻译。

表4:此表展示了不同训练 Token 量的模型(从39.9B到1200B)在各种数据集上部分案例的评估结果。所有的测量结果可以在附录E.1中找到。

表5:作者模型与其他六个SLM的安全性评估结果。最佳结果用蓝色表示,次佳结果用下划线表示,第三佳结果用方框表示。

picture.image

结果。 作者模型在CHC-Bench上的表现与其他同规模模型的比较显示在表6中,与更大规模模型的比较可以在附录E.3中找到。在CHC-Bench中,可以评估模型在特定领域的专业知识。例如,为编程任务设计的Deepseek-coder-1.3b-instruct,以高分展示了它的技能。基准测试结果证实了CHC-Bench在准确反映模型真实能力方面的高质量。比较研究显示,更大的数据量和模型规模可以提升性能。在20亿参数范围内的CT-LLM,在社会理解和写作方面表现出色,在与中国文化相关的背景下显示出强大的性能。

7 结论

picture.image

作者开发了CT-LLM,这是一个为汉语量身定制的大型语言模型,在8000亿个 Token 上进行预训练,以增强中文语言处理和多语言适应性。与之前依赖英语数据集的模型不同,CT-LLM在LLM研究上开辟了新方向,专注于中文,包括英语和代码 Token 。作者使用SFT等技术来提高中英两种语言的性能,并引入CHC-Bench来评估模型在复杂任务中的能力。CT-LLM的主要贡献包括提供了一个高质量的中文语料库和CHC-Bench,解决偏见问题,并推进以中文为重点的LLM。这促进了更广泛的NLP研究、创新以及对开源社区的贡献。

参考

[1].Chinese Tiny LLM:.

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生数据库 veDB 核心技术剖析与展望
veDB 是一款分布式数据库,采用了云原生计算存储分离架构。本次演讲将为大家介绍火山引擎这款云原生数据库的核心技术原理,并对未来进行展望。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论