在过去的一年里,大模型技术在人工智能领域取得了巨大的进展和突破,成为业界瞩目的焦点。从优化的学习算法到激动人心的应用案例,从推动科研的新边界到开拓商业的新天地,大模型技术的跃进式发展,俨然成为推动行业革新、塑造未来商业竞争力的核心动力,为各行各业带来了前所未有的机遇和挑战。
“乘骐骥以驰骋兮,来吾道夫先路”,转眼间,2023 年已接近尾声,在这里,从 2023 年的技术盘点中抽丝剥茧,领略一些至关重要的大模型技术架构与优秀开源工作。
在模型架构方面,国内外的大模型普遍为 Transformer 架构。Transformer 的整体主要分为 Encoder 和 Decoder 两大部分。
输入的序列首先变成计算机便于处理的 Embedding,然后 Embedding 传入 Encoder 进行编码,映射成隐藏层特征,经过 Encoder 后再结合上一次的 output 输入到 Decoder 中,最后用 softmax 计算序列下一个单词的概率。
模型的基座设计大体上可以分为以下三种:
- 仅包含解码器(Decoder-only)- 自回归(Autoregressive)模型
- 仅包含编码器(Encoder-only),即自编码(Autoencoder)模型
- 编码器—解码器(Encoder-Decoder),即完整的 Transformer 结构
1.1、自回归(Autoregressive)模型架构
这种架构仅包含解码器部分,没有编码器。代表模型是 GPT 和 LLaMA,其训练目标是从左到右的文本生成,AR 模型从一系列 time steps 中学习,并将上一步的结果作为回归模型的输入,以预测下一个 time step 的值,在这种结构中,模型通过自回归的方式逐步生成输出序列的每个元素。每个输出元素的生成依赖于先前生成的元素,在长文本的生成能力很强,擅长于摘要生成、翻译、对话生成、故事生成等。
1.2、自编码(Autoencoder)模型架构
这种模型仅包含编码器部分,没有解码器。代表模型是 BERT、ALBERT 、DeBERTa,自编码模型是通过去噪任务(如利用掩码语言模型)学习双向的上下文编码器,其目标是通过联合训练来学习双向上下文信息。这种自编码器结构有助于在各种下游任务上获得高效的特征表示,常用于自然语言理解,如情感分析、提取式问答。
1.3、完整的编码-解码模型架构
最通用的 Transformer 结构,同时包含编码器和解码器。代表模型是 T5、BART 和 BigBird 适用于序列到序列的任务,如机器翻译。编码器负责将输入序列编码成一个上下文表示,解码器则使用这个表示逐步生成输出序列。这种结构在翻译等任务中表现良好,同时也可以应用于其他序列生成任务。
考虑到训练效率、推理需求和下游实际应用任务,大模型通常采用仅包含解码器的架构,通过自回归预训练高效地生成优质内容。
2.1、LLaMA-2
简要介绍:LLaMA-2 由 Meta AI 的 GenAI 团队开发,开放了两个版本,一个是纯无监督训练出来的基础模型,另一个是在基础模型之上进行有监督微调 SFT 和人类反馈的强化学习 RLHF 进行训练的 Chat 模型。所发布的两个版本中,都提供了 7B、13B 和 70B 的三个参数规模的模型。
训练成本:2000 个 A100-80GB,时间从 2023 年 1 月到 2023 年 7 月
模型效果:Meta 在论文中表示,LLaMA 70B 的模型在许多方面都超越了 ChatGPT-3.5 的水平。
2.2、baichuan-2
简要介绍:Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。
训练成本:1024 个 NVIDIA A800 GPUs
模型效果:模型在通用、法律、医疗、数学、代码和多语言翻译六个领域的中英文和多语言权威数据集上对模型进行了广泛测试。同时,Baichuan-2-7B 模型还开放了中间的 11 个 Checkpoints 供社区研究。
2.3、Falcon
简要介绍:Falcon-180B 是一个拥有 1800 亿参数的因果解码器模型(自回归语言模型),由阿布扎比(Abu Dhabi)的技术创新研究院(TII)开发和训练,于 2023 年 9 月发布。它是继 Falcon-40B 之后,TII 推出的第二个开源大语言模型(LLM),也是目前世界上最大的开源开放大模型。Falcon-180B 的目标是为研究者和商业用户提供一个强大、高效、多语言和多领域的基础模型,可以用于各种自然语言处理(NLP)任务,如文本生成、摘要、问答、对话、机器翻译等。目前开放了两个版本:一个是纯无监督训练出来的基础模型 Falcon-180B,另一个是在基础模型之上进行有监督微调 SFT 和人类反馈的强化学习 RLHF 进行训练的 Chat 模型 Falcon-180B-chat。
训练成本:约为 LLaMA-2-70B 的 4 倍,估计超过 8000 万美元
模型效果:Falcon-180B 效果上表现很不错,在 MMLU 表现上超越了 LLaMA-2-70B、ChatGPT-3.5;在多个数据集【HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC、ReCoRD 】上与谷歌的 PaLM 2-Large 不相上下。
2.4、BLOOM
简要介绍:BLOOM 是 BigScience Large Open-science Open-access Mul-tilingual Language Model 首字母的缩写。BLOOM 本身基于变换器网络(Transformer)架构的自回归语言模型,也是第一个开源开放的超过 100B 的语言模型。
训练成本:训练时间 3.5 月,花费 1,082,990 计算小时。 48 个节点,每个节点包括用 4 个 NVLink 互联的 8 块 NVIDIA A100 80GB GPUs(应该是一台 Nvidia DGX A100 或类似的),2x AMD EPYC 7543 32-Core CPUs 和 512GB 内存,一共 384 A100 GPUs。 训练中预留了 4 个节点备用,防止训练过程的失效。
模型效果:模型会学习数十亿个单词和短语之间的统计学关联,然后执行各种任务,包括生成摘要、翻译、回答问题,以及对文本进行分类等等。值得一提的是 BLOOM 还使用了 13 种编程语言。
在这个瞬息万变的技术时代,大模型技术不仅仅是一种工具或框架,更是推动科技革命的引擎。
大模型已然推动着人工智能、自然语言处理等领域的快速演进。开源社区的力量汇聚成涌动的江河,推动着技术的不断创新。2024 年,期待更多的开源项目涌现,为技术发展注入新的活力。
本文首发于InfoQ写作社区:https://xie.infoq.cn/article/1252127ad9557f56578d33507