LLM vs SLM：大型与小型语言模型的区别

点击下方卡片，关注“ 慢慢学AIGC ”

picture.image

图片由 DALL·E3 生成，prompt：A scene featuring a gigantic elephant standing next to a tiny mouse, emphasizing the massive size difference between them. The elephant, towering and majestic, casts a large shadow over the small, timid mouse, which looks up in awe. The background is a serene natural setting with lush greenery and a clear blue sky.

LLM 和 SLM 可类比自然界的大象和老鼠，大象种群数量少，食量大，行动慢但具有更强的体力（LLM 构建成本高，推理慢，但性能好，可代替大量人工工作），老鼠数量众多，反应迅速，生存能力强（SLM 构建简单，推理快，更容易实现业务落地）。未来会逐步形成“云端 LLM API” + “终端 SLM SDK” 的格局。

引言

语言模型是能够生成自然人类语言的人工智能计算模型。这绝非易事。

这些模型作为概率机器学习模型进行训练——预测适合在短语序列中生成的单词的概率分布，试图模仿人类智能。科学领域的语言模型研究主要有两个焦点：

理解智能的本质。
将这种本质体现在与真人进行有意义的智能交流中。

在表现人类智能方面，当今前沿的自然语言处理（NLP）人工智能模型还没有完全通过图灵测试。（如果一个机器通过了图灵测试，就不可能辨别出交流是来自人类还是计算机。）

有趣的是，我们已经非常接近这个标志：特别是在备受关注的大型语言模型（LLMs）和虽不那么受关注但有前途的小型语言模型（SLMs）方面。（SLM可以代表小型语言模型或短语言模型。）

小型语言模型 vs 大型语言模型

如果你关注过相关的炒作，那么你可能熟悉诸如 ChatGPT 之类的 LLMs。这些生成性 AI 在学术、工业和消费领域都极具吸引力。这主要是因为它们能够以语音通信的形式执行相对复杂的互动。

目前，LLM 工具被用作智能机器接口，获取互联网上的知识。LLMs 提取了互联网中的相关信息（用于训练它们）并向用户提供简洁易懂的知识。这是一种替代搜索引擎查询的方法，不需要阅读数千个网页并得出简明结论。

确实，ChatGPT 是 LLMs 的第一个面向消费者的应用案例，此前仅限于 OpenAI 的 GPT 和谷歌的 BERT 技术。

最近的迭代版本（包括但不限于 ChatGPT）已经在编程脚本上进行了训练和设计。开发人员使用 ChatGPT 编写完整的程序功能——假设他们能够通过文本用户提示充分说明需求和限制。

picture.image

NLP 模型的三种主要类型：符号 NLP，统计 NLP，神经 NLP。

LLMs 的工作原理

那么，大型语言模型是如何工作的呢？让我们回顾一下使用 LLMs 生成自然语言的关键步骤。

第一步：通用概率机器学习

其核心思想是开发一个具有参数的数学模型，这些参数可以以最高概率代表真实预测。

在语言模型的背景下，这些预测是自然语言数据的分布。目标是使用学到的自然语言概率分布生成最有可能基于可用上下文知识（包括用户提示查询）出现的短语序列。

第二步：架构变换器和自注意力机制

为了学习单词和顺序短语之间的复杂关系，现代语言模型如 ChatGPT 和 BERT 依赖于所谓的变换器（Transformers）深度学习架构。变换器的核心思想是将文本转换为数值表示，在进行序列预测时按重要性进行加权。

第三步：预训练和微调

语言模型在特定任务领域上进行了大量微调和设计。另一个重要的工程语言模型的用途是消除对仇恨言论和歧视等不良语言结果的偏见。

这个过程包括通过以下方式调整模型参数：

在特定领域知识上训练模型。
基于预训练数据初始化模型参数。
监控模型性能。
进一步调整模型超参数。

LLMs 和 SLMs 的区别

SLM 和 LLM 在其架构设计、训练、数据生成和模型评估方面遵循类似的概率机器学习概念。

现在，让我们讨论区分 SLM 和 LLM 技术的因素。

大小和模型复杂性

也许 SLM 和 LLM 之间最明显的区别是模型大小。

LLMs 如 ChatGPT（GPT-4）据称包含 1.76 万亿个参数（详见《万字长文解析 GPT-4o 背后的技术原理》）。而开源 SLM 如 Mistral 7B 可以包含 70 亿个模型参数。（严格来说 7B 模型仍然不够小，还有 3B 以及 1.8B 甚至更小的 SLM）。

这种区别归结于模型架构的训练过程。ChatGPT 在编码器-解码器模型方案（原文存在疏漏，GPT 架构是典型的仅解码器架构）中使用自注意力机制，而 Mistral 7B 则使用滑动窗口注意力机制，这允许在仅解码器模型中进行高效训练。

上下文理解和领域特定性

SLMs 在特定领域的数据上进行训练。它们可能缺乏来自多个知识领域的整体上下文信息，但在其选定领域中可能表现优异。

而 LLM 的目标是更广泛地模拟人类智能。它们在更大数据源上进行训练，并期望在所有领域相对较好的表现。

这意味着 LLMs 也更加多才多艺，可以适应、改进和设计用于更好的下游任务，如编程。

资源消耗

训练一个 LLM 是一个资源密集的过程，需要大规模的云 GPU 计算资源。从头开始训练 ChatGPT 需要数千个 GPU，而 Mistral 7B SLM 可以在具有适当 GPU 的本地机器上运行——训练一个 70 亿参数模型仍然需要多 GPU 的数小时计算。

偏见（这部分见仁见智，欢迎探讨）

LLMs 往往存在偏见。这是因为它们没有得到充分微调，并且它们在公开可访问和发布在互联网上的原始数据上进行训练。由于训练数据的来源，可能导致：

某些群体或观点的低估或误解
标注错误

此外，语言本身也会引入偏见，取决于方言、地理位置和语法规则等各种因素。另一个常见问题是模型架构本身可能会无意中强化偏见，而这可能会被忽视。

由于 SLM 在相对较小的特定领域数据集上进行训练，与 LLMs 相比，偏见的风险自然较低。

推理速度

SLM 的小模型尺寸意味着用户可以在本地机器上运行模型，并在可接受的时间内生成数据。

而 LLM 需要多个并行处理单元来生成数据。根据访问 LLM 的并发用户数量，模型推理速度往往会减慢。

那么 LLM 是所有场景的最佳选择吗？

这个问题的答案完全取决于你语言模型的使用场景和可用资源。在商业背景下，LLM 可能更适合作为呼叫中心和客户支持团队的聊天代理。

在大多数功能特定的使用场景中，SLM 可能表现更好。

考虑在医疗、法律和金融领域的使用场景。每个应用都需要高度专业化和专有的知识。用这些知识训练并微调的 SLM 可作为特定领域的智能代理，在高度监管和专业化的行业中使用。

picture.image

作者 Muhammad Raza 是一位专注于网络安全、软件开发和机器学习与人工智能的技术作家。

点击下方卡片，关注“ 慢慢学AIGC ”

小型语言模型 vs 大型语言模型

NLP 模型的三种主要类型：符号 NLP，统计 NLP，神经 NLP。

LLMs 和 SLMs 的区别

偏见 （这部分见仁见智，欢迎探讨）

那么 LLM 是所有场景的最佳选择吗？

偏见（这部分见仁见智，欢迎探讨）