LLM-SLM 协同智能：高效、灵活、普适的人工智能新范式！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

大语言模型（LLMs）提供了强大的AI能力，但由于资源成本高和延迟问题，在部署方面面临挑战，而小型语言模型（SLMs）以性能下降为代价提供了效率和可部署性。

LLMs和SLMs之间的协作已成为一个关键范式，以协同平衡这些权衡，从而实现先进的AI应用，特别是在资源受限的边缘设备上。

本综述全面概述了LLM-SLM协作，详细介绍了各种交互机制（ Pipeline 、路由、辅助、蒸馏、融合）、关键技术以及由设备端需求（如低延迟、隐私、个性化、离线运行）驱动的多样化应用场景。

在强调创建更高效、更灵活、更易于访问的AI的巨大潜力时，作者还讨论了持续存在的挑战，包括系统开销、模型间一致性、鲁棒任务分配、评估复杂性以及安全/隐私问题。

未来方向指向更智能的自适应框架、更深层次模型融合以及向多模态和具身AI的扩展，将LLM-SLM协作定位为下一代实用和普适人工智能的关键驱动力。

1 引言

1.1 研究背景与动机

近年来，大语言模型（LLMs）在自然语言处理、代码生成和智能问答等领域取得了突破性进展（Brown, Mann, Ryder, 等, 2020; OpenAI, 2023）。然而，随着模型参数规模的持续增长，其计算资源消耗、能源成本和部署费用也显著增加。特别是在需要低延迟和高隐私的边缘场景中，如智能手机、物联网设备和边缘服务器，传统的基于云的LLM推理模型面临严峻的可行性挑战（Zhou, X. Lin, 和 Qian, 2024）。与此同时，小型语言模型（SLMs）因其轻量级结构、快速推理速度和易于部署的特点，在资源受限的设备中得到了广泛应用（Gao, K. Zhu, 和 Z. Liu, 2025）。

在此背景下，大型和小型语言模型之间的协同机制逐渐成为工业界和学术界的重要研究方向。它旨在通过智能协作，利用LLMs的强大能力和SLMs的高效率，构建一个更智能、高效和可靠的推理系统。

1.2 大小模型协作的定义与范围

广义而言，大模型-小模型协作是指LLM（大语言模型）和SLM（小型语言模型）在系统内协同工作的机制，彼此互补优势。该范式可细分为若干子方向，如流水线协作、并行协作、条件触发推理和知识蒸馏（F. Wang, L. Zhang, 和 Jian Hu, 2024；Gao, K. Zhu, 和 Z. Liu, 2025）。流水线协作是一种顺序执行模式，其中一个模型的输出作为另一个模型的输入（F. Wang, L. Zhang, 和 Jian Hu, 2024）。由于SLM通常具有更高的效率，它们常用于初步处理或生成候选结果，这些结果随后被传递给LLM进行更复杂的推理或知识整合（Gao, K. Zhu, 和 Z. Liu, 2025）。在Cascade Speculative Decoding框架中，SLM生成草稿回复，而LLM并行进行验证和修正，从而提升回复速度（J. Chen, X. Liu, 和 He, 2023）。

在条件推理方面，研究提出使用置信度分数来确定是否调用LLM，从而实现按需激活（Gupta, Rajbhandari, 和 D. Zhao, 2023）。此外，知识蒸馏允许通过训练将LLM的知识压缩并转移给SLM，增强后者建模复杂任务的能力，同时保留其计算优势（J. Gu, Yanan Ren, 和 Y. Lin, 2024）。这些研究构成了大模型-小模型协作的核心范围，为构建节能型AI系统提供了理论和实践基础。

1.3 设备端大型模型的兴起及其对合作研究的驱动力

随着设备端大语言模型的兴起，协同机制的研究进入了一个新阶段。近年来，随着芯片性能的提升和模型压缩技术的成熟，几家科技巨头开始将专有大型模型部署到终端设备上。2024年，苹果公司在其“苹果智能”系统中集成了一个约30亿参数的设备端语言模型，用于在局部处理部分自然语言任务，而复杂请求则委托给云端模型（Inc., 2024）。类似地，华为将其Pangu大型模型的轻量级版本引入其HarmonyOS智能助手，实现了混合边缘云推理（Technologies, 2024）。

这种架构促使研究行人深入探讨以下问题：如何更有效地分配LLM和SLM之间的任务边界？如何在边缘和云端之间管理计算卸载和动态路由？如何通过协同机制提高整体能效和响应质量？相关挑战包括模型选择策略、边缘云通信开销、隐私保护机制和多模型融合精度（Q. Zhang, Y. Sun, and T. Liu, 2025）。因此，研究大型和小型模型的协同机制不仅是理论探索的热点，也是智能终端走向局部化、高性能、低功耗AI推理的关键技术路径。

1.4 本文结构和贡献

本文首先提供引言，概述了研究背景、动机以及大模型与小模型协作的定义和范围。接着，详细阐述了相关概念与基础，包括大模型与小模型的特点、优势与局限性，以及它们协作的基础与必要性。

第三部分深入探讨了大模型与小模型协作的机制与架构，分类并介绍了如流水线、混合/路由、辅助/增强、知识蒸馏驱动以及集成/融合等协作模式，并分析了实现协作的关键技术。随后，基于设备端需求，讨论了协作机制的应用场景，包括实时低延迟推理、隐私敏感性、任务特定定制、离线/弱网络环境以及能耗限制等分类。最后，本文提出了当前面临的挑战与开放性问题，展望了未来的发展趋势，并总结了整篇论文的研究意义、价值与反思。

2 相关概念与基础

在深入探讨大语言模型（LLMs）与小型语言模型（SLMs）之间的协作机制之前，有必要系统性地回顾这两种模型的基礎概念、結構特性、優勢與局限性。它們在模型能力、資源消耗、部署場景和研究路徑上表现出顯著差異。正是這種異質性構成了模型協作研究的根本動機。

2.1 大语言模型

2.1.1 定义、架构和特性

大语言模型（LLMs）通常指参数规模达到数十亿或更多的语言理解和生成模型。它们的架构大多基于Transformer框架，通过自回归（例如GPT系列）或 Mask 语言建模策略（例如BERT、T5）进行预训练（raffel2020exploring；Brown, Mann, Ryder等, 2020；OpenAI, 2023）。这些模型从大规模无监督语料库中学习语言结构、知识表示和推理模式，能够对自然语言文本进行深度建模，并支持泛化到各种下游任务。

从架构角度来看，大语言模型通常包含数十到数百个Transformer层，每层都包含多头注意力机制、 FFN 、残差连接和归一化操作。随着模型参数数量的增加，其能力并非线性增长，而是表现出一定的“涌现现象”。也就是说，一旦模型规模超过某个阈值，它们会自动展现出更复杂的能力，如语言理解、数学推理和多模态交互。这种非线性的性能飞跃已成为当前通用人工智能探索的重要线索。

2.1.2 优点和局限性

大语言模型在通用语言建模方面具有无与伦比的优势。它们展现出强大的泛化能力，可以通过 Prompt 或情境学习执行多种自然语言处理任务，包括问答、翻译、摘要、代码生成和知识检索，展现出零样本学习和少样本学习的潜力。大语言模型具备深度语义理解和长文本建模能力，能够保持上下文逻辑和结构完整性。通过微调或强化学习（如RLHF），可以进一步优化其行为与人类偏好的对齐。

然而，LLM的局限性不容忽视。首先，资源消耗极高。训练通常需要高性能计算集群（如GPU/TPU）并耗费数周至数月的时间成本，而推理阶段也面临内存占用大和延迟高等问题。它们庞大的体积使得难以部署在资源受限的终端或边缘设备上，限制了其实时应用场景。由于预训练过程中数据的不可控性，模型可能表现出事实性错误、偏差放大和幻觉风险，增加了实际应用中的安全与伦理成本（张Q，孙Y，刘T，2025）。LLM的闭源部署以及对云平台进行大规模模型调用的依赖也引发了数据隐私与合规性方面的担忧（周X，林X，钱Q，2024）。

2.2 小型语言模型

2.2.1 定义与特征

小型语言模型（SLMs）指的是参数规模在数百万到数亿之间的模型。其设计目标是在语言建模能力与部署效率之间取得平衡，显著降低计算开销和硬件需求，同时确保基本的语言理解能力。结构上，SLMs通常是大型模型的压缩版本，采用更少的Transformer层、更小的隐藏维度和更少的注意力头，并在推理路径中尽可能简化计算流程。

与大语言模型相比，小型语言模型更适合部署在计算资源有限的平台上，例如边缘设备、移动终端和浏览器插件。它们的特点包括快速推理速度、低能耗和灵活部署，使其成为实现局部化、低延迟人机交互的关键组成部分。在语音助手、文本输入方法和智能客服等应用场景中，小型模型能够快速响应用户请求，保护用户隐私，并减少对网络和云端的依赖。

2.2.2 优点、局限性和典型构造方法

小型模型的显著优势体现在其轻量化特性、高效率以及易于部署。一方面，由于结构紧凑，它们可以在普通CPU或低功耗设备上执行推理，无需依赖高性能GPU，从而显著降低运营成本。另一方面，小型语言模型通常具备良好的任务适应性，可以通过微调或蒸馏在特定场景中实现性能优化。此外，保持数据处理局部化有助于增强用户隐私保护能力，满足对合规性要求较高的行业需求。

然而，不可否认的是，与大语言模型相比，小型语言模型在知识规模、语义表达和推理深度方面仍存在显著差距。由于模型容量有限，它们难以涵盖广泛领域内的知识，并在处理开放域任务时常表现出理解不足、生成模糊或逻辑不连贯等问题。在处理长文本处理、复杂推理和多轮对话等任务时，小型模型往往难以保持语义连贯性和信息一致性。此外，它们的泛化能力较弱，在跨领域迁移或零样本学习方面表现不如大语言模型（Gupta, Rajbhandari, and D. Zhao, 2023）。

目前，SLM的主流构建方法可分为三类：首先，知识蒸馏，通过教师-学生框架将大模型的性能压缩到小模型中，例如DistilGPT和TinyLLaMA；其次，通过在中等规模语料库上独立训练从头构建轻量级模型，例如MiniBERT和ALBERT；第三，基于现有模型架构进行剪枝、量化或低秩分解，以压缩模型大小同时保留部分原始性能（F. Wang, L. Zhang, and Jian Hu, 2024）。这些方法共同推动了小模型在工业部署中的广泛应用，并为后续协同机制研究提供了技术储备。

2.3 大型和小型语言模型之间协作的基础与必要性

2.3.1 协作的技术基础：能力与特征的互补性

大语言模型（LLMs）和小型语言模型（SLMs）在能力、架构和部署特性上存在显著差异，形成了自然的技术合作基础。

2.3.2 能力边界互补性

大型模型的优势包括强大的上下文理解能力、逻辑推理能力以及多任务泛化能力（例如，GPT-4在数学推理和代码生成等复杂任务上达到超过90%的准确率），但它们依赖于大规模的训练数据（万亿 Level 的参数、百亿 Level 的语料库）和高计算能力支持（单次推理成本约为0.1-1）。

相反，小型模型的优点在于其参数数量较少（通常低于10亿个参数，例如TinyBERT、DistilBERT），部署灵活（可在手机、智能音箱等边缘设备上运行），以及推理速度快（延迟低于10毫秒，仅为大型模型的十分之一）。然而，它们在复杂逻辑和长文本处理方面的能力有限（例如，在数学问题上的准确率低于50%）。

协作本质上涉及大型模型作为复杂决策的"大脑"，而小型模型作为轻量级交互的"神经末梢"，形成一种"中心处理器

边缘节点"的分工系统。

2.3.3 架构和训练的可迁移性

这可以通过知识蒸馏技术和参数高效微调（PEFT）等方法实现。知识蒸馏技术，例如使用软标签和中间层特征迁移（如FitNets）等方法，允许大型模型将隐式知识（如语义表示、推理逻辑）迁移到小型模型的训练信号中。这使得小型模型能够继承大型模型的核心能力，同时保持轻量化（例如，TinyBERT在GLUE基准测试中实现了96%的BERT性能，参数数量减少了75%）。

参数高效微调技术，如LoRA和QLoRA，使小模型能够在大型模型的预训练参数基础上进行局部微调，快速适应特定任务（例如，在医疗问答场景中，小模型微调后准确率提升了20%）。这形成了一种“大型模型基础 + 小型模型专业化”的协同训练范式。

2.3.4 部署场景的适应性

在适应性方面，云与边缘的协作可以被利用。大型模型依赖于高计算能力的云服务器（需要数十GB的VRAM），适用于处理批量复杂任务（例如文本生成、多轮对话）。小型模型可以部署在低计算能力的设备上（例如树莓派、手机芯片），负责实时交互和局部数据预处理（例如语音识别、初步用户意图分析）。两者通过API或轻量级协议（例如gRPC）进行通信，以实现数据流。

2.3.5 协作必要性：由现实需求驱动的必然选择

在大型模型与小模型协作过程中，解决实际需求至关重要。需要考虑的问题包括计算成本约束、实时性要求、特定层级任务的处理以及多模态等方面。

具体而言，在计算能力方面，大型模型的单次推理消耗的功率远超小型模型（例如，GPT-4生成1000字大约消耗的能量是小型模型TinyBERT的500倍）。在高频交互场景（例如，客户服务、实时翻译）中，仅依赖大型模型会导致成本飙升（企业级应用每月计算成本可能超过百万人民币）。此外，边缘设备（例如，自动驾驶系统）要求响应延迟低于50毫秒。大型模型的云端推理延迟通常超过500毫秒，无法满足需求。小型模型局部部署可实现亚毫秒级响应。与大型模型协作可将端到端延迟压缩至200毫秒以内（例如，智能汽车中的语音交互系统）。复杂任务（例如，法律文件生成、学术论文润色）由大型模型处理，而简单任务（例如，关键词提取、情感分类）由小型模型处理，形成“金字塔式”的任务分配体系。在电商客户服务中，小型模型首先识别用户意图（准确率90%）；如果是复杂 Query （例如，解释退货政策），则将其转发给大型模型，与单模型方法相比，效率提升40%。

小型模型能够预处理来自图像、语音等模态的数据（例如语音转文本、图像特征提取）。大型模型执行跨模态推理（例如根据用户语音和表情生成个性化响应），从而降低大型模型的输入复杂度（例如多模态处理延迟降低30%）。医疗保健和金融等领域要求用户数据保持局部化。小型模型可以在设备上进行数据清理和匿名化（例如从医疗记录中删除姓名和ID），仅将匿名化特征传输给大型模型，从而避免隐私泄露风险（例如在联邦学习中，小型模型在局部训练参数，而大型模型聚合全局知识）。小型模型结构简单（例如单层Transformer或CNN），其决策逻辑可通过可视化工具解释（例如注意力 Heatmap ），弥补大型模型“黑箱”特性（例如在医疗诊断场景中，小型模型提供初步结论，大型模型进行验证并生成解释性文本）。

除此之外，应用场景需要进一步考虑。大型模型难以适应特定领域（例如方言识别、垂直行业知识库）。小型模型可以针对特定场景进行定制（例如，一个仅包含10亿参数的税务领域小型模型在政策解释方面达到了95%的准确率），与大型模型形成"通用基础 + 领域插件"的协作生态系统。中小企业和开发者往往无法承担大型模型的计算能力和训练成本。通过将小型模型与云端大型模型API结合（例如，使用局部小型模型对OpenAI的GPT-4 API进行预过滤），部署成本可以降低90%以上，推动人工智能技术的民主化进程。

大语言模型（LLMs）通常在模型流程中处理前端任务，如输入理解、候选生成或决策，使其成为实现高效协作的关键部分（高、朱凯和刘志强，2025）。在复杂系统中，小型语言模型（SLMs）处理前端基础任务（如输入理解、候选生成），将初步处理结果传递给大型模型进行深度推理，形成“轻量级模型预处理 + 重量级模型精炼”的协作模式。在智能客服系统中：小型语言模型快速分析用户问题（“ Query 订单状态”），提取关键信息（订单号），并生成候选 Query 方案。大语言模型随后使用这些候选方案调用数据库接口并生成最终响应。小型语言模型凭借其高效性和针对性，已成为AI系统中不可或缺的“前端处理器”。通过与大语言模型的分工协作，它们显著提升了整体性能和资源利用率。该架构已广泛应用于工业领域，是实现“大模型+小模型”混合生态的重要实践。

3 大型和小型模型的协作机制与架构

3.1 协作模式分类

基于大语言模型与小语言模型之间的交互方法和信息流，它们的协作模式可分为流水线、混合/路由、辅助/增强、知识蒸馏驱动以及集成/融合协作。

3.1.1 流水线协作

流水线协作是一种顺序执行模式，其中一个模型的输出作为另一个模型的输入（F. Wang, L. Zhang, and Jian Hu, 2024）。由于小型语言模型（SLMs）通常具有更高的效率，它们常用于执行初步处理或生成候选结果，这些结果随后被传递给大语言模型（LLMs）以进行更复杂的推理或知识整合（Gao, K. Zhu, and Z. Liu, 2025）。

在推荐系统中， Pipeline 协作被广泛使用。大语言模型（LLM）可以根据用户的历史行为和偏好生成一系列候选推荐项，利用LLM强大的用户偏好捕捉能力（Lv等人，2025）。然后，部署在局部设备上的小型语言模型（SLM）可以根据用户的实时交互行为对这些候选项进行重新排序，从而更准确地反映用户的当前兴趣。这种方法利用了LLM的全局理解能力，同时也兼顾了SLM对实时数据的快速响应（Lv等人，2025）。

CoGenesis框架是 Pipeline 协作的另一个典型示例，如图1所示。在该框架中，部署在用户局部设备上的小型语言模型（SLM）可以访问用户的私有数据和活动日志，并基于这些信息处理指令。对于需要更深层次推理的任务，SLM的输出可以作为输入传递给部署在云基础设施中的大语言模型（LLM）。这种设计在保护用户隐私的同时，利用了大型模型强大的能力。此外，SLM可用于从输入文本中提取关键信息或生成简洁的 Prompt ，然后将这些 Prompt 发送给LLM，以指导其生成更相关的输出（Kaiyan Zhang, Jianyu Wang, Hua, 等，2024；F. Wang, L. Zhang, 和 Jian Hu，2024）。

picture.image

流水线协作的关键在于合理分配任务，并设计有效的跨模型接口，以确保信息能在不同模型间准确高效地传递（F. Wang, L. Zhang 和 Jian Hu, 2024; Y. Liu 等人, 2025; Bin Chen 等人, 2025; W. Xu 等人, 2024）。这种模式的有效性很大程度上取决于首个模型提取相关信息的能力以及传递给第二个模型的信息质量。如果基础语言模型（SLM）未能准确捕捉关键信息或以不恰当的格式传递信息，大语言模型（LLM）的性能将受到不利影响。因此，必须仔细考虑通信协议和交换信息的类型，以确保无缝高效协作。流水线协作通常利用基础语言模型的效率进行初步处理或上下文收集，将计算密集型及知识依赖型任务卸载给大语言模型，从而在速度和准确性之间取得平衡。

3.1.2 混合/路由协作

混合或路由协作指的是使用一种机制（通常称为路由器）来决定哪个模型（大语言模型或小型语言模型）应处理特定输入或子任务（王新元等，2025；郑伟等，2025；吕等，2025）。路由决策通常基于任务复杂性、领域、成本、所需延迟或其他预定义标准。

CITER框架是路由协作的一个典型例子，如图2所示。该框架采用基于token的路由策略，将非关键token路由到SLM以提高效率，同时将关键token路由到LLM以确保生成质量。这种细粒度路由允许系统在效率和质量之间动态调整（W. Zheng等人，2025）。

picture.image

其他研究工作集中于开发能够从候选模型库中选择最合适的大语言模型（LLM）的路由器（Varangot-Reille等人，2025年；王新元等人，2025年）。这种方法可以扩展以包含小语言模型（SLM），使路由器能够根据任务需求在不同规模和能力的模型之间进行选择。HybridLLM利用二元分类器预测 Query 难度，并据此在不同模型之间进行路由（姚等人，2025年）。

级联是一种常见的路由策略，首先尝试使用较小的LLM处理输入，并在必要时将 Query 传递给更大的LLM（Zhijun Chen等人，2025年；Ong等人，2024年）。这种方法可以在确保性能的同时降低计算成本。

智能路由需要一种能够准确评估输入特征和可用模型能力的机制，以做出最优决策。路由器需要理解任务的复杂性、 Query 的领域以及系统中每个大语言模型（LLM）和小语言模型（SLM）的具体优势和劣势。这可能涉及训练一个单独的模型来预测性能，或使用基于 Query 特征的启发式方法。在设计路由机制时，平衡成本、延迟和质量是一个关键考虑因素。更强大的模型通常伴随着更高的成本和延迟，因此路由策略必须根据应用需求权衡这些因素。对于实时应用，延迟可能是最关键的因素，可能会优先考虑某些 Query 类型的更快（但可能不太准确）的SLM。对于需要高精度的任务，系统可能会路由到一个更强大（也更昂贵）的LLM。路由策略需要可配置，以满足不同的性能目标。

3.1.3 辅助/增强协作

在辅助或增强协作中，一个模型（无论是大语言模型还是小型语言模型）协助另一个模型以提高其性能或能力（F. Wang, L. Zhang, 和 Jian Hu, 2024; Shao 等人, 2025; Jennifer Hu 和 Frank, 2024）。

大语言模型（LLM）可以将复杂 Query 分解为多个子问题，然后将这些子问题分配给小语言模型（SLM）进行处理，反之亦然（Shao等人，2025；R. Xu等人，2025）。小语言模型可以为大语言模型提供上下文信息或特定领域的知识，以增强大语言模型的推理能力。大语言模型还可以用于生成训练数据或为小语言模型提供反馈信号，从而帮助小语言模型学习和改进（Deng等人，2023）。

Collab-RAG框架展示了辅助协作的应用，如图3所示。在该框架中，一个语言模型（SLM）负责将用户 Query 分解为更简单的子问题，以促进从知识库中检索相关信息，从而增强大语言模型（LLM）在回答复杂问题时推理能力（R Xu等人，2025）。

picture.image

辅助协作允许根据每种模型类型的固有优势进行劳动分工，与单独使用任一模型相比，这可能潜在地提高整体性能。大语言模型（LLMs）擅长理解复杂指令并拥有广泛知识，而小型语言模型（SLMs）在特定特定任务上可能更专业和高效。通过让它们互相协助，系统可以利用LLM的理解能力来指导SLM，或使用SLM的专业知识来为LLM的推理提供信息。设计有效的辅助机制需要仔细考虑模型如何最好地相互补充以及用于这种交互的通信方法。仅仅让一个模型将其输出提供给另一个模型可能并不是最有效的方法。协助可能涉及提供特定类型的信息、指导推理过程或对另一个模型的性能提供反馈。通信需要根据所提供的特定协助进行定制。

3.1.4 知识蒸馏驱动的协作

知识蒸馏（KD）是一种关键技术，用于将知识及能力从大型、通常是专有的教师模型（LLM）迁移到更小、更高效的学生模型（SLM）（X. Xu等人，2024；W. Xu等人，2024）。

知识蒸馏（KD）涉及多个方面，包括知识类型（输出概率、中间表示）、蒸馏算法（监督微调、发散最小化）和应用领域（模型压缩、技能迁移、领域专业化）。数据增强在提升KD对大语言模型（LLMs）的有效性方面也发挥着重要作用。根据教师模型是否能够提供内部信息，KD方法可分为白盒KD和黑盒KD。KD也被用于迁移特定技能，如推理、指令遵循和工具使用（X. Xu等人，2024；Hendriks等人，2025；Y. Gu等人，2023）。

知识蒸馏是一种关键机制，它通过创建更小、更高效的模型，使LLM Level 的智能能够在资源受限的环境中部署。尽管LLM提供了卓越的性能，但它们的大小和计算需求限制了它们在许多实际场景中的适用性。知识蒸馏允许作者将这些大型模型学习到的知识迁移到可以部署在边缘设备或用于具有严格延迟要求的应用中的小型模型。知识蒸馏的成功取决于几个因素，包括教师模型和学生模型的选择、蒸馏数据的质量和数量以及所采用的特定蒸馏技术。不同的LLM具有不同的优势，教师模型的选择将影响迁移知识的类型。蒸馏数据应该能够代表学生模型将要执行的任务。选择适当的蒸馏算法并调整其参数对于实现最佳性能也至关重要。

3.1.5 集成/融合协作

集成或融合协作指的是将大语言模型（LLMs）和小语言模型（SLMs）的架构或输出整合到一个统一系统中，以更紧密耦合的方式利用它们的互补优势。

Hymba是一种混合架构，如图4所示，它将Transformer的注意力机制和状态空间模型（SSMs）集成在同一个层内，从而实现高召回率和高效的上下文摘要（X. Dong等人，2024）。模型融合技术指的是将多个模型的参数或预测结果进行组合。这可以包括权重平均、集成方法或更复杂的融合架构。多模态LLMs（MLLMs）是另一种集成协作的例子，通常使用一个LLM作为主干，并集成来自不同模态（如文本和图像）的信息。

picture.image

集成协作通过在架构层面深度结合不同模型类型的优势，为创建更强大和通用的AI系统提供了潜力。模型融合提供了一种经济高效的方法，通过结合现有预训练模型的知识和能力来创建更强大的模型，而无需进行广泛的再训练。然而，有效地融合具有不同架构的模型，并确保所得模型保留所需特性，仍然是一项挑战。

3.2 实现协作的关键技术

为了有效实现大语言模型与小语言模型的协作，需要以下关键技术：

3.2.1 任务分配与智能路由

在异构LLM-SLM系统中，任务分配面临诸多挑战，需要考虑任务复杂度、所需知识、计算资源、延迟限制和成本（Varangot-Reille等人，2025）。主要目标是智能地将系统输入任务分配给最合适的模型进行处理。

通过动态复杂度感知路由技术，系统可以根据任务特征（如任务类型、上下文长度、领域特定性）和输入复杂度来决定使用哪个模型。在Hybrid LLM等系统中，路由器根据 Query 难度和期望质量水平（D. Ding等人，2024）做出决策。

自强化路由优化利用强化学习逐步改进路由策略，以模型的实际性能作为反馈信号，持续优化和调整路由政策。MixLLM采用一种上下文感知的上下文 bandit 算法来学习最优的 Query -模型分配，从而适应不断变化的需求和模型能力（Xinyuan Wang 等人，2025）。

智能路由机制能够根据预定义标准或学习到的策略动态地将任务分配给最合适的模型。这包括基于 Query 难度、性能预测和成本感知的路由（Xinyuan Wang等人，2025年；Mohammadshahi、Shaikh和Yazdani，2024年）。较小的快速模型可用于初始意图检测，将请求路由到更专业或更大的模型（Guha等人，2024年）。有效的任务分配和路由对于优化协作LLM-SLM系统的性能和效率至关重要，确保每个任务都由最合适的模型处理。开发稳健且自适应的路由机制需要对每个模型的能力以及处理任务的特征有深入的理解。这可能涉及创建基准来评估模型在不同任务类型上的性能，并设计能够适应变化条件的路由策略。

3.2.2 模型间通信与接口设计

在协作环境中，LLM与SLM之间无缝且高效通信至关重要。

自然语言接口在这个过程中扮演着重要角色，特别是在Chain-of-Agents（Yusen Zhang等，2024）中，工作 Agent 可以通过自然语言传递信息。这种方法利用了大语言模型的语言理解能力，简化了界面设计的复杂性，并提高了系统的可解释性（Yusen Zhang等）。

2024年。

结构化的中间表示可以提供一种更加标准化的通信机制。CoGenesis（张凯岩，王建宇，华等，2024）使用一种“草图”格式在大型和小型模型之间进行通信。这种表示将关键信息传达为结构化摘要，使得下游模型更容易处理，并且比原始文本更加紧凑且信息丰富（张凯岩，王建宇，华等，2024）。

通过概率分布共享，模型能够在更深层次上传递不确定性。在FS-GEN（张凯言，王建宇，丁娜，等，2024）和CoGenesis（张凯言，王建宇，丁娜，等，2024）中，logits共享允许大型模型将token概率分布传递给小型模型。这不仅传递了最终预测结果，还传递了选择的相对可能性，使小型模型能够通过结合这些信息与局部上下文（张凯言，王建宇，华，等，2024；张凯言，王建宇，丁娜，等，2024）做出更明智的决策。

这涉及不同的通信方法，例如传递基于文本的 Prompt 和响应、共享中间表示（如嵌入、隐藏状态），或使用专门用于跨模型通信的API（King等人，2024；Pozdniakov等人，2024；Wozniak等人，2024）。设计标准化的接口，使不同模型能够有效交互，无论其底层架构如何，也是一个重要的考虑因素。此外，需要解决确保模型间数据一致性和格式兼容性的相关挑战。模型间的通信和信息交换程度直接影响协作的效率和效果。精心设计的接口和通信协议对于实现无缝交互至关重要。通信方法的选择和接口设计应根据具体的协作模式和交换信息的类型进行调整。 Pipeline 式协作可能仅需传递最终输出，而更紧密集成的模型则可能受益于共享中间表示。

3.2.3 模型融合与结果集成

模型融合是指将大语言模型（LLMs）和小语言模型（SLMs）的架构或参数进行合并，以创建一个更优越的模型，包括权重平均、知识融合、集成学习、基于概率分布的融合、模型堆叠和专家混合模型等技术（Tang, Jun Wang, and Su, 2024; F. Wan et al., 2024; Yang et al., 2024; Mavromatis, P. Karypis, and G. Karypis, 2024; Z. Wang et al., 2025; Shi et al., 2024）。

结果集成指的是将协作模型的输出进行组合。常见方法包括简单平均、加权平均、多数投票或使用另一个模型来组合输出。此外，处理不同模型输出中潜在的矛盾或不一致是必要的。模型融合和结果集成对于创建能够利用多个模型的独特优势和知识的统一系统至关重要。技术的选择取决于协作的具体目标和所涉及模型的特点。评估模型融合和结果集成的有效性需要仔细考虑适当的指标和基准，以评估组合系统的性能。

3.2.4 状态同步与上下文管理

在协作式大语言模型（LLMs）和序列模型（SLMs）中，特别是在多轮对话或序列任务中，保持状态一致性并管理上下文至关重要。这包括同步协作模型内部的内部状态（记忆、注意力权重），并在模型之间管理和共享上下文信息（Subramanian, Elango, and Gungor, 2025; F. Wang, L. Zhang, and Jian Hu, 2024; Naveed et al., 2023; Mojarradi et al., 2024），例如使用共享内存模块或将上下文随输入传递。此外，还需要解决处理长上下文场景和确保跨多轮交互的上下文一致性的挑战。

在协作式LLM-SLM系统中，保持状态一致性和有效管理上下文对于确保连贯且有意义交互至关重要，尤其是在涉及多步骤或多轮次的任务中。随着协作模型数量和交互长度的增加，状态同步和上下文管理的复杂性也随之提升。开发可扩展且高效的手段来处理这些方面是一项持续的研究挑战。

3.2.5 动态资源调度与优化

在协同式LLM-SLM系统中，尤其是在处理动态工作负载和变化资源需求时，高效分配和管理计算资源（如GPU内存、处理时间）是一项重大挑战（F. Wang, L. Zhang, and Jian Hu, 2024）。

动态资源调度技术能够根据协作模型的当前需求以及可用资源调整资源分配。优化策略，如量化、剪枝和高效注意力机制，可用于降低协同推理的计算成本和内存占用（W. Huang 等人，2025；Amayuelas 等人，2025；B. Sun 等人，2024）。云计算与边缘计算的结合也为资源管理提供了潜力，例如大语言模型（LLMs）可在云端运行，而小型语言模型（SLMs）在边缘设备上运行（Lv 等人，2025）。高效的资源调度和优化对于使协同LLM-SLM系统实用且经济高效至关重要，特别是在资源受限或高流量的实际应用中。LLMs和SLMs在资源需求和性能特征方面的异构性增加了资源调度和优化的复杂性。策略需要考虑这些差异以实现最优资源利用。

4 基于设备端需求的场景应用

随着大语言模型（LLMs）的快速发展，其在多样化场景中的应用需求日益增长。然而，LLMs的高计算资源需求与边缘设备的有限计算能力之间存在显著冲突。小型语言模型（SLMs）凭借其轻量化和高效的特点，为这一矛盾提供了潜在的解决方案。本节分析了LLMs和SLMs在满足实际设备需求驱动的典型应用场景中的协作情况。

4.1 实时低延迟推理场景

实时低延迟推理是边缘计算的核心需求，特别是在需要即时响应的应用中，如可穿戴设备/IoT语音助手和工业设备异常检测。LLMs与SLMs的协作通过模型优化和边缘云协同框架显著降低了推理延迟，并提升了用户体验和系统效率。

可穿戴设备和物联网语音助手需要快速处理用户指令以提供流畅的交互体验。LLM强大的语言理解能力使其成为语音助手的理想选择，但其高计算需求需要通过SLM和边缘计算进行优化。Froiz-Miguez等人（FroizMiguez, Fraga-Lamas, and Fernandez-CarameS, 2023）的研究表明，依赖云处理的传统语音助手在弱网络环境下会显著降低用户体验。为解决这一问题，研究行人提出了一种边缘-云协同的LLM-SLM架构，如图5所示。

picture.image

由Hao等人提出的混合SLM-LLM框架（Hao et al., 2024）展示了一种动态的token级边云协同推理方法，如图6所示。在该方法中，轻量级SLM部署在边缘设备上以处理基本语音指令并生成初步响应，而复杂任务则基于不确定性量化机制被路由至云端LLM进行进一步处理。该方法在延迟和准确性之间实现了最佳平衡，特别适用于资源受限的穿戴设备场景。实验表明，与纯云模式相比，该方法可将端到端延迟降低高达40%，同时保持高响应质量。

picture.image

在实际应用中，谷歌的Gboard和SwiftKey采用了类似的方法，将局部语言模型集成到手机键盘中，用于语音识别和文本预测，仅在需要更复杂的理解时才调用云服务（Kumar，2025）。这种协作方法显著提升了用户体验的流畅性和隐私保护水平。

工业场景中的设备监控和异常检测需要系统能在毫秒级内响应以防止潜在事故。研究表明，尽管大语言模型（LLMs）具有强大的分析能力，但单独部署它们难以满足工业环境的实时要求（Y. Zheng 等人，2025）。

为应对这一挑战，研究行人提出了"推测解码"机制，利用边缘部署的序列语言模型进行初始异常识别和风险评估，仅在检测到潜在风险时才激活更全面的通用语言模型分析（Friha等人，2024）。郑等人（Y.郑等人，2025）的研究表明，这种协作模式可将工业异常检测的响应时间从秒级缩短至毫秒级，同时保持与纯通用语言模型解决方案相当的异常检测准确率。

WinCLIP和AnomalyGPT等模型针对工业异常检测场景进行了专门优化。通过设备端小语言模型与云端大语言模型的协同工作，它们实现了准确性和实时性能的双重优化（Y. Zheng等人，2025）。这种模式在高风险工业场景（如化工生产和电力传输）中展现出显著的价值。

4.2 涉密和局部数据场景

在涉及敏感数据的场景中，例如移动终端上的个人知识库检索和医学图像预筛查，局部数据处理对于保护隐私至关重要。大语言模型与小型语言模型的协作通过局部部署和高效推理满足了隐私保护和数据安全的需求。

个人知识库检索和移动设备上的问答系统需要在响应用户 Query 的同时确保数据不离开设备以保护隐私。个人知识库通常包含敏感信息，直接将其上传到云端进行大语言模型处理存在隐私泄露风险。为解决这个问题，研究行人提出了隐私保护局部知识库检索框架。陈等人（D. Chen等人 2024）指出，在移动设备上部署小型语言模型可以有效地处理包含敏感信息的局部数据，而无需将原始数据传输到云端。

一种典型的实现是"隐私敏感检索增强生成"（Privacy Sensitive RAG）架构。在该架构中，局部语言模型（SLM）负责敏感数据处理和初步检索，仅将去标识化 Query 发送至云端大语言模型（LLM）进行深入分析（F. Wang, L. Zhang, and Jian Hu, 2024）。该方法在保护用户隐私的同时，充分利用了LLM强大的语义理解能力。

FedCoLLM（Fan等人，2024年）进一步提出了一种联邦学习框架，使移动设备上的小型语言模型（SLM）能够在保护用户隐私数据的同时从云端大语言模型（LLM）获取知识。该框架通过参数高效的联合调优机制增强了设备端SLM的能力，为移动终端上的隐私保护知识库提供了一种新方法。

医疗数据高度敏感。传统上将数据发送到云端进行分析的做法不仅存在隐私风险，还可能违反相关法规。研究表明，在局部部署小型语言模型（SLMs）可以有效解决这一问题（Niu等人，2025）。

郑等人（Y. Zheng等人，2025）提出了一种“分层诊断”模型，将初步筛查和基本诊断任务分配给局部部署的SLMs，仅在遇到复杂案例或需要专家意见时调用云端LLMs。实验表明，该方法在诊断常见疾病方面表现良好，同时显著减少了敏感医疗数据的传输。

医学领域特定模型如BioMistral（Lan等人，2019年）和PathChat（Lu等人，2024年）采用了相似的架构。设备端的小语言模型处理基础医学数据并执行初步筛查，而云端的大语言模型提供更专业的诊断建议。这种协作模式在保护患者隐私的同时，也提升了医疗服务可及性，特别是在偏远地区和资源有限的医疗机构。

4.3 任务特定定制与个性化场景

通过微调和 Adapter 技术，大语言模型（LLMs）和大语言模型（SLMs）可针对特定任务进行定制，满足个人和企业个性化需求，例如个人写作助手和内部企业知识管理。

个性化写作助手需要深入理解用户的长期写作风格和偏好，并具备实时响应能力（L. Liu等人，2024）。传统的基于云的大语言模型解决方案虽然功能强大，但缺乏个人数据的长期记忆和快速适应能力。研究行人提出了一种“混合记忆架构”，在局部部署的轻量级语言模型中维护用户的写作风格特征、词汇偏好和常用表达，形成个性化的写作档案（Deng等人，2023）。当用户需要更深层次的创意或复杂内容生成时，系统会调用云端大语言模型提供支持，并将交互结果反馈给局部轻量级语言模型，以持续优化个性化服务。

刘等人（L. Liu et al., 2024）的实验表明，这种协作模式相较于纯云端或纯局部解决方案，可提升写作建议的个性化程度高达35%，同时将响应时间缩短70%。主流文档编辑工具如Microsoft Word和Google Docs已开始采用类似的架构，通过局部模型提供即时写作建议，并将复杂任务委托给云端处理。

企业知识管理系统需要处理大量专业领域知识，同时确保信息安全与快速访问。金等人（Jin and Y. Wu, 2024）提出的CE-CoLLM框架设计了一种面向企业场景的云边协同LLM推理架构，支持低延迟边缘独立推理和高精度云边协同推理模式。

在此框架下，企业可以在内部服务器部署小型语言模型（SLMs）来处理常见 Query 和基本任务，同时通过“早期退出机制”和“云上下文管理器”（Jin和Y. Wu，2024）高效地调用外部大语言模型（LLM）资源。这种方法在确保敏感信息安全的同时，满足了高性能的需求。

由软银和爱智仕合作开发的面向企业的定制化小语言模型解决方案进一步证明了该方法的价值（爱智仕，2024）。经过特定领域数据微调的小语言模型被部署在企业环境中，能够以与100倍大的云端大语言模型相当的高精度处理独特的企业任务，同时显著降低延迟和成本（爱智仕，2024）。

4.4 离线或弱网络环境场景

在没有网络或网络连接不稳定的环境中，LLMs和SLMs的局部操作提供了关键支持，适用于海洋船舶、森林巡检无人机和灾害现场应急指挥等场景。

远洋船舶和森林巡检无人机通常在有限或无网络覆盖的环境中运行，传统依赖云端的LLM在此类场景下效果不佳。为解决这一问题，研究行人提出了"离线优先"的SLM-LLM协同架构。实践表明，通过领域知识微调的SLM能够完全离线执行大部分基础交互任务。Kalita（Kalita, 2024）的研究发现，通过在特定领域数据上进行充分微调，参数量为40-50亿的SLM可处理离线环境下70-80%的常见 Query ，其性能接近在线LLM水平。当网络连接恢复时，这些系统会与云端LLM同步，更新局部模型的知识库和参数（Kalita, 2024）。

一个典型的应用是用于森林检查的无人机系统。通过为无人机配备经过林业知识微调的SLMs，它们可以在离线状态下识别和分析植被状况、火灾风险以及其他关键信息，显著提高检查效率和可靠性（Lee等人，2025）。

在灾害响应和边境救援等紧急情况下，网络基础设施可能遭到破坏，决策支持系统的实时性能直接影响救援效果。Tong等人（Tong et al., 2024）的研究表明，传统云端大语言模型（LLMs）在此类场景下缺乏可靠性，而纯局部模型则因能力有限，往往无法应对复杂情况。

为解决这一问题，研究行人开发了一个"弹性协作"框架。在正常网络条件下，局部小型语言模型（SLM）与云端大语言模型（LLM）协作，形成完整的决策支持链。当网络中断时，局部SLM可利用预缓存知识独立运行，确保基本的决策支持能力（Boateng等人，2025）。

一个成功的案例是一个用于地震救援的多Agent协作系统。该系统集成了离线部署的小语言模型和远程大语言模型，使救援行人在网络中断时仍能获得基本决策支持，并在网络恢复后立即获取更全面的分析（Jayant等人，2024）。实验表明，这种具有弹性的协作解决方案在极端环境下相比单模型解决方案提供了显著更优的决策支持能力。

4.5 能量受限和绿色AI场景

在能源受限场景下，SLM（小型化机器学习）和优化后的LLM（大语言模型）通过低功耗设计满足边缘设备的需求，例如在超低功耗终端上进行键盘预测以及在车载系统中驱动安全 Prompt 。

在智能手表和功能受限的物联网设备等对功耗有严格限制的终端设备上，传统的云端大语言模型（LLM）模式由于需要持续的网络连接，显著降低了电池寿命。研究表明，键盘预测等功能虽然不需要达到大语言模型的理解水平，但要求极低的延迟和能耗（Qu等人，2025）。

Kumar（Kumar，2025）的研究引入了一种专为键盘预测优化的超低功耗SLM设计。通过极端模型压缩和硬件特定优化，预测功能的功耗降低至传统方法的十分之一。尽管这些模型仅有数百万个参数，但在特定场景中表现良好。

与GloVe合作开发的移动键盘预测性语言模型进一步证明了SLM在此场景中的价值（Kumar，2025）。该系统仅在复杂语境中或当用户明确请求时唤醒更强大但能耗更高的模型，在预测准确性和能耗之间实现了最佳平衡，从而延长了设备使用时间。

车载系统面临独特的能耗和实时性挑战。过高的功耗会影响车辆的整体电气系统，而与安全相关的 Prompt 需要毫秒级的响应（J. Lin等人，2023）。传统的LLM模式难以满足这些需求。

Qu等人（Qu等人，2025）提出了一种“分层安全 Prompt ”架构。该架构在车辆系统中部署一个专门用于安全驾驶知识的SLM，用于实时环境监测和基本安全 Prompt ，同时保持与云端LLM的连接以进行复杂情境分析，从而在保持安全 Prompt 准确性的同时，将能耗降低了65%。

一些汽车制造商已开始采用类似的“绿色AI”解决方案，使用局部SLM处理导航 Prompt 、语音控制和基本安全警告，仅在需要深度驾驶辅助时激活更强大的模型（Qu等人，2025）。这种方法不仅显著降低了能耗，还提高了系统可靠性，特别是在网络连接不稳定地区。

5 挑战与开放问题

大语言模型（LLMs）与小型语言模型（SLMs）的协作旨在结合两者的优势：LLMs强大的通用能力和知识范围，以及SLMs在特定任务上的高效性、低延迟和低成本。然而，实现完美协作并非易事，面临着诸多挑战和未解决的问题。本节深入探讨这些挑战，主要关注协作效率与系统开销、模型间一致性与兼容性、任务分配策略的鲁棒性与最优性、协作系统的训练与维护、评估指标与基准测试，以及相关的安全、隐私和伦理问题。

5.1 协作效率与系统开销

5.1.1 任务路由决策的延迟

尽管LLM-SLM协作旨在提升整体效率，但协作过程本身可能引入新的开销，从而潜在地影响系统性能。主要挑战在于任务路由决策的延迟、跨模型通信的成本以及整体系统的复杂性管理。

在LLM-SLM协作系统中，任务路由机制负责确定哪个模型应处理特定 Query 或子任务，这对实现协作效率至关重要。然而，路由决策过程本身会引入延迟，可能部分抵消使用SLM所获得的速度优势（Arcee AI，2025）。挑战在于设计既准确又快速的路由机制。

大语言模型因其庞大的参数数量和高计算需求，通常具有更高的推理延迟（王帆，张磊，胡建，2024）。协作系统需要路由机制，根据任务复杂度或其他标准动态选择模型（Arize AI，2025）。这些路由决策，无论是基于不确定性估计、分词级分析、任务分解或其他预测方法，都会产生自身的计算开销和延迟。级联方法（先 Query 小型语言模型，如有需要再升级到大语言模型）明确引入了延迟和潜在冗余。CITER等框架试图通过分词级路由来最小化大语言模型的调用次数，但仍需要路由机制（郑伟等，2025）。预生成路由旨在通过预先推理大语言模型的能力来最小化延迟，但这一预测本身可能较为复杂（Varangot-Reille等，2025）。

存在一个核心悖论：使用小型语言模型（SLMs）的主要动机通常是降低延迟，然而选择何时使用SLM（即路由器）的有效机制本身就会引入延迟。路由器的延迟成为一个关键因素；如果它过高，协作（SLM延迟+路由器延迟与LLM延迟）带来的净延迟减少效果就会减弱。这提出了一个开放的研究挑战：开发近乎零延迟的路由机制，或证明路由开销相对于LLM-SLM延迟差异始终可以忽略不计。

开放问题：

开发超低延迟路由机制；量化路由复杂度/精度与延迟之间的权衡；设计能够通过并行处理隐藏路由延迟的系统。

5.1.2 模型间通信成本

在协作系统中，特别是在边缘云场景（SLM局部运行，LLM在云端），模型之间的数据传输（例如 Query 、中间结果、上下文、模型输出）会产生通信成本和延迟。这对实时应用或处理大量数据的情况尤其具有挑战性。

边缘协同是一种常见的模式，用于平衡隐私/延迟（设备端小型语言模型）与能力（云端大语言模型）。实时将用户数据传输到云端引发了通信成本、延迟和带宽限制等担忧。LSC4Rec等框架旨在通过让大语言模型仅向设备端小型推荐模型发送候选列表以供重新排序，从而最小化实时数据传输（Lv等人，2025）。类似地，MinionS在云端分解任务，将子任务发送到局部小型语言模型，并在云端聚合结果，旨在减少云端交互的体积和频率（Narayan等人，2025）。然而，通信开销仍然是一个因素，尤其是在需要交换中间结果或大量上下文时。

边缘云协作利用了局部小型语言模型（SLM）的效率和云端大语言模型（LLM）的能力，但通信信道本身可能成为 Bottleneck ，限制系统的整体响应能力和成本效益。协作协议的设计和任务分解的性质对于管理通信开销至关重要。优化通信内容和时间是开放性挑战。

开放问题：

设计通信高效的协作协议；开发压缩模型之间交换的中间表示的技术；量化网络条件对协作系统性能的影响。

5.2 模型间一致性与兼容性

5.2.1 确保不同模型间输出风格和知识范围的一致性

大语言模型（LLMs）和小语言模型（SLMs）通常在不同的数据集上进行训练或针对不同目的进行微调，这可能导致它们展现出不同的写作风格、语气或响应格式。当不同的模型共同贡献同一输出或对话时，为了确保一致的用户体验，需要引入机制来对齐或管理这些风格差异。

一致性被认为是LLM可信度的一个基本方面。"指导链"（CoG）等技术通过引导式 Prompt 旨在提高LLM输出的语义一致性（Raj等人，2025）。SAG等框架使用共训练（S-SFT，C-DPO）和ego改进方法明确解决LLM-SLM协作中的风格对齐问题（Xu等人，未出版）。模块化多元主义框架使用较小的"社区LLM"将多样化的观点/风格整合到基础LLM中（Feng等人，2024）。评估一致性本身具有挑战性，通常需要超越简单相似性的细致指标（Raj等人，2025）。KnowsLM框架使用LLM作为评判者来评估风格适应，发现微调比RAG在语气适应方面表现更好（Harbola和Purwar，2025）。

协作本质上存在风格冲突的风险。在CoGenesis框架中，如果大语言模型（LLM）处理个人细节而小型语言模型（SLM）处理更广泛的叙事（Kaiyan Zhang, Jianyu Wang, Hua, 等，2024），除非采用特定的对齐技术，否则组合输出可能会显得不连贯。这需要在训练/微调期间统一风格，或开发复杂的输出融合技术。由于LLM和SLM通常具有不同的训练历史和目标，这可能导致输出风格、语调和格式的潜在差异。在协作系统中，不同的模型可能会生成最终输出的不同部分。将风格不同的模型的输出组合起来可能导致不一致且令人不适的用户体验。确保一致性需要明确的工作，无论是通过联合训练/微调进行风格对齐（C. Xu, 等，未出版），还是通过后处理/融合技术（Pei, 等，2025）。这增加了系统设计和评估的复杂性。

开放问题：

开发跨不同模型的风格一致性评估的鲁棒指标；创建高效的实时风格对齐或迁移技术用于协作生成；理解风格一致性与其他目标（如事实准确性或创造性）之间的权衡。

5.2.2 模型知识范围与事实一致性对齐

由于训练数据和模型容量的差异，大语言模型（LLMs）和小语言模型（SLMs）拥有不同的知识库。大语言模型通常具有更广泛的知识，但可能会产生幻觉或包含过时信息；小语言模型可能具有更专业、可能更新及时的领域知识，但知识面较窄。当模型协作时，确保事实一致性和解决知识冲突是一个重大挑战。

大语言模型（LLMs）存在幻觉和知识陈旧问题，而小型语言模型（SLMs）在缺乏特定领域知识时往往在专业领域表现不佳。知识蒸馏（KD）等技术旨在将知识从LLMs转移到SLMs（F. Wang, L. Zhang, and Jian Hu, 2024），但校准复杂分布十分困难（Peng and Jiajun Zhang, 2024）。检索增强生成（RAG）用于注入外部、最新的知识，但持续整合检索到的知识同样具有挑战性。使用KnowsLM框架的研究表明，RAG在实时知识注入方面表现出色，而微调则更适合保持风格一致性（Harbola and Purwar, 2025）。CoVer框架使用SLM验证来检查LLM推理的一致性（Y. Yan et al., 2025）。CrossLM框架利用SLM的反馈来改进LLM生成的合成数据，以实现相互增强（Deng etal., 2023）。

当大语言模型（LLMs）和小语言模型（SLMs）因训练截止点或专业领域不同而拥有冲突信息时，协作系统需要一种机制来解决这种冲突。简单的融合可能导致事实性错误。这需要一种复杂的事实发现机制，或根据特定 Query 类型明确信任某个模型的知识领域而非另一个模型。LLMs和SLMs拥有不同的知识库；LLMs可能产生幻觉或过时信息，而SLMs可能缺乏广泛知识或特定领域细节。协作可能导致模型提供冲突的事实性信息。系统需要一种策略来处理这些冲突：根据上下文/任务优先考虑某个模型，使用外部验证（如RAG），或采用一种根据置信度/时效性进行加权融合的机制。未能解决冲突会导致输出结果不可靠且不可信。

这要求对LLM-SLM协作系统中的鲁棒知识融合与冲突解决机制进行研究。开放问题 ：开发针对LLM-SLM输出的有效知识融合技术；基于来源可靠性或上下文创建动态冲突解决机制；确保协作输出中信息来源的可追溯性；使协作模型之间的知识更新保持一致。

5.3 评估指标与基准测试

全面评估LLM-SLM协同系统的性能十分复杂，不仅需要衡量最终结果的质量，还需要考虑效率、成本等多个维度。目前，该领域缺乏标准化的测试平台和数据集，导致难以比较不同的协同策略和衡量进展。

评估LLM-SLM协同系统不能仅依赖于传统的NLP指标；还必须全面考虑协作带来的效率提升和成本节约。这需要一种能够捕捉协同系统多方面性能的评价框架。

LLMOps的挑战不仅在于单个模型的部署，还包括数据处理、模型训练、部署、维护、解决模型漂移以及确保适应不断变化的数据和任务。对于协作系统而言，这些挑战更为严峻。从业者认为模型部署和监控阶段既重要又困难。模型通常作为独立服务进行部署，MLOps原则的应用有限。报告的问题包括生产部署基础设施架构设计困难以及与遗留应用的集成问题。许多生产中的模型未进行监控；关键的监控方面包括输入、输出和决策。挑战还包括缺乏监控实践、需要创建定制监控工具以及选择合适的指标（Zimelewicz等人，2024）。Acxiom在使用LLMs和LangChain创建受众细分系统时，面临调试复杂工作流的挑战。通过LangSmith实现的可观测性优化了token使用，并有效扩展了其混合模型部署（ZenML博客，2025）。对LLMs进行持续监控以及主动检测异常和对抗性行为对于确保其完整性至关重要。将LLMs集成到CI/CD Pipeline 中引发了与计算成本、准确性、错误处理、偏见以及开发、部署、维护和伦理相关的问题（Pahune和Akhtar，2025）。

协同系统组件数量的增加意味着监控复杂性的提升和潜在故障点的增多。每个模型（大语言模型、小型语言模型）、路由机制以及它们之间的通信链路都需要针对性能、资源消耗、错误率和漂移进行监控。关联不同组件的日志和指标以诊断系统级问题可能极具挑战性。需要专门为这种分布式、异构模型环境设计的监控和调试工具。协同系统比单模型系统拥有更多组件（大语言模型、小型语言模型、路由器）。每个组件都是潜在的故障点，需要针对健康状况、性能（延迟、吞吐量）、资源使用和输出质量进行单独监控。此外，组件之间的交互也需要监控，例如数据流、API调用成功率以及通信延迟。当问题出现（例如整体响应质量下降）时，确定哪个组件或交互存在故障可能很复杂，需要High-Level的日志记录、跟踪和根本原因分析能力。这显著增加了部署和运维的复杂性。

开放问题：

开发适用于大语言模型-小型语言模型协同系统的标准化部署模式和最佳实践；创建能够跨多个模型跟踪请求流程和性能指标的全面监控框架；设计适用于协同系统的自动化异常检测和故障诊断工具；研究如何在分布式模型部署中有效管理和更新单个组件。

5.4 安全、隐私和伦理问题

虽然LLM-SLM协同系统可能带来潜在优势，但也可能引入或放大与安全、隐私和伦理相关的风险。不同模型之间的数据流、协同决策过程以及模型本身的固有缺陷都可能成为这些问题之源。

5.4.1 不同模型间数据流的隐私风险

当数据，尤其是包含敏感用户信息的数据，在局部小型语言模型（SLMs）和云端大语言模型（LLMs）之间 Stream （甚至在不同LLMs之间 Stream ）时，隐私泄露的风险会增加。

由于资源限制，使用云API调用LLM很常见，这本质上引发了隐私问题。SLM通常部署在边缘设备上以保护隐私（F. Wang, L. Zhang和Jian Hu，2024）。LLM可能会从训练数据或交互中泄露个人可识别信息（PII）。CoGenesis等框架旨在通过让SLM在局部处理私有数据来逻辑上防止隐私泄露（Kaiyan Zhang, Jianyu Wang, Hua等人，2024）。CrossLM框架涉及在私有客户端数据上训练的SLM，以增强云LLM，引发了知识迁移与数据泄露之间的疑问（Deng等人，2023）。联邦协作被认为是一种平衡隐私的策略。

边缘云协作在分配数据处理的同时，也增加了数据传输或处理节点的数量，若设计不当，可能增加隐私泄露的攻击面。大语言模型-小型语言模型协作通常涉及模型间的数据流，可能跨越信任边界（例如，设备到云）。若大语言模型处理敏感用户数据，则存在隐私风险。设备端小型语言模型常用于通过将敏感数据局部化来缓解这些风险。然而，协作本身可能需要共享某些信息（中间结果、上下文摘要），这些信息可能无意中泄露隐私细节。确保共享信息在保持协作有效性的同时充分匿名化或泛化是一项重大挑战。这需要精心设计数据流协议，并在协作框架内可能采用隐私增强技术。

开放问题：

开发用于大语言模型-小型语言模型协作的隐私保护数据共享协议；在混合系统中形式化隐私保证；研究隐私保护与协作性能之间的权衡；审计数据流以识别潜在泄露点。

5.4.2 协作系统中的潜在偏差放大或安全漏洞

单个大语言模型（LLMs）和序列模型（SLMs）可能因训练数据带有偏见。当这些模型协同工作时，这些偏见可能会被放大，或者由于交互动态而产生新的、涌现的偏见。确保组合系统的公平性并减轻偏见比针对单个模型更为复杂。

大语言模型可能持续并放大训练数据中存在的社会偏见。小语言模型如果基于规模较小或多样性较低的数据集进行训练，也可能表现出偏见。大语言模型之间的迭代学习可能放大细微偏见（Yi Ren等人，2024）。ViLBias框架指出，结合不同模态（文本和图像）可以揭示单一模态中不明显存在的偏见，这表明模型协作可能产生类似效果（Raza等人，2024）。大语言模型的路由器本身也可能存在漏洞；如果攻击者控制路由以将 Query 导向有偏见的模型，这可能被利用以诱导有偏见的输出（Q. Lin等人，2025）。

在协作系统中，偏见可能会相互叠加。如果小型语言模型（SLM）根据对用户人口统计的偏见来路由 Query ，而选定的大语言模型（LLM）又生成带有自身偏见的内容，那么最终输出可能会产生双重偏见。这种交互本身还可能产生在单个模型中不存在的全新形式的偏见。LLM和SLM都可能因为训练数据或架构而存在偏见。在一个协作系统中，多个模型共同贡献最终输出或决策过程。如果不同的模型具有不同的偏见，这些偏见可能会以不可预测的方式相互作用。一个模型的偏见输出可能成为另一个模型的偏见输入，从而可能放大初始偏见（例如，带有偏见的SLM路由到LLM，然后LLM进一步强化偏见）。要在这种系统中缓解偏见，需要评估的不仅是单个组件，还有整个协作流程及其决策逻辑。

开放问题：

开发检测和测量LLM-SLM协作系统中偏见放大的方法；设计公平的路由和任务分配策略；创建用于消除多模型系统输出偏见的技术；理解不同的协作架构如何影响偏见传播。

LLM-SLM系统的复杂性和分布式特性可能引入新的安全漏洞。攻击者可能针对通信信道、路由机制，或利用一个模型的弱点来破坏整个系统。LLM容易受到 Prompt 注入、越狱、数据污染和隐私信息泄露等多种攻击。研究表明，LLM路由器本身存在生命周期漏洞，包括对抗性攻击和后门，基于DNN的路由器尤其容易受到攻击。如果路由器被攻破，它可能会恶意地将 Query 路由到不合适的模型或泄露数据。LLM与SLM之间的交互点（例如API调用、数据交换）成为潜在的攻击面。如果边缘设备上的SLM被攻破，它可能会向云端LLM发送恶意输入，反之亦然。

在一个协作系统中，每个额外的模型和通信链路都可能扩大攻击面。协作系统中的“最薄弱环节”（一个安全性较低的SLM或路由器）中的漏洞可能会危及更强大的LLM或整个系统的完整性与安全性。LLM-SLM系统由多个组件（LLM、SLM、路由器、通信信道）组成。每个组件和接口都是一个潜在的攻击点。路由器可能被攻击以强制错误路由（将所有 Query 发送到昂贵的LLM，或发送到被攻破/无效的SLM）。通信信道如果存在安全隐患，允许模型之间交换的数据被拦截或篡改。被攻破的SLM可能向LLM（或反之）提供恶意数据，可能导致有害输出或系统被接管。保障协作系统需要采取整体性方法，考虑每个组件及其交互的安全性，这比保障单个单体模型更为复杂。

开放性问题：

开发用于LLM-SLM协作的安全通信协议；设计稳健且抗攻击的路由机制；研究针对混合模型架构的新型攻击向量；创建适用于多模型系统的全面安全审计框架。

6 未来趋势

6.1 更智能和更具适应性的协作框架

大语言模型（LLMs）与小型语言模型（SLMs）之间的协作正从预设的静态交互模式向能够动态学习、适应和优化协作策略的智能框架演进。这一趋势的核心在于赋予协作系统更高的自主性，使其能够根据任务特性、数据变化和环境反馈灵活调整，而非完全依赖固定规则或手动配置。未来的协作框架将越来越多地利用强化学习和元学习等先进的机器学习技术，以实现动态策略调整和高效的ego优化。

6.1.1 基于强化学习的动态协作策略

强化学习（Reinforcement Learning，RL）为训练Agent在复杂动态环境中做出最优决策提供了一种强大的范式。在大语言模型（LLM）与小型语言模型（SLM）协作中，RL可用于学习任务分配、资源管理和交互协议等策略，以最大化系统性能、运营效率或其他预定义目标。

一项重大进展是细粒度动态资源分配。CITER框架（W. Zheng等，2025）利用强化学习（RL）训练一个路由器，该路由器在token Level 决定下一个token是由基础语言模型（SLM）还是大语言模型（LLM）生成。该路由器的优化目标同时考虑了预测质量和推理成本，学习预测token Level 的重要性，并权衡其决策对未来生成序列的影响，从而在效率和准确性之间实现动态平衡。这种token Level 的路由策略比传统的 Query Level 路由更加精细，允许系统在生成任务的“简单”部分利用SLM的效率，而在“关键”token上依赖LLM的能力，从而可能带来显著的效率提升。

强化学习也被应用于优化特定任务场景中的协作策略。在检索增强生成（RAG）任务中，Collab-RAG框架（徐瑞等，2025）采用语言模型（SLM）分解复杂 Query ，并通过黑盒大语言模型（LLM）提供的反馈信号提升SLM的分解能力。这种迭代优化过程类似于强化学习机制，增强了SLM在协作RAG过程中的作用。此外，研究行人提出了ReMA框架（万哲，李垚，宋等，2025），利用多Agent强化学习（MARL）引导模型朝向元思考行为，其中High-Level元认知Agent和Low-Level推理Agent通过强化学习协作。这表明强化学习不仅可以优化任务执行，还可以优化协作框架内的策略规划。此外，逆向强化学习（UDRL）已被用于训练SLM以实现可控的 Prompt 生成，以优化输出属性如长度和相关性（林雨晨，Sharma，Manikandan等，2025）。虽然主要集中于SLM训练，但通过强化学习控制生成属性的原则可以扩展到协作场景，例如当SLM输出需要满足特定LLM输入要求时。另一项研究提出了一种协作模式，其中LLM生成简洁的思维链（CoT）指令，然后由在强化学习优化的高密度CoT数据上微调的SLM扩展为完整响应（谢，李哲，黄志等，2025），展示了强化学习在优化结构化协作推理工作流程中SLM角色的潜力。

这些发展共同揭示了一个重要趋势：强化学习（RL）正推动协作模式从"预编程"向"基于学习"转变。早期的LLM-SLM协作通常依赖简单的基于规则的路由逻辑。然而，正如CITER等框架所展示的，RL能够基于质量、成本等复杂因素优化token Level 的路由决策，这远比静态规则更为动态和精细。SmallPlan和Collab-RAG等研究进一步表明，RL能够根据特定任务（如路径规划、RAG）调整协作策略，甚至根据LLM反馈改进协作组件（如SLM Query 分解器）。ReMA框架将RL应用提升到更高层次，实现了分层元认知和推理协作。这表明RL不仅是在自动化决策过程，更是在教会系统如何有效协作，由数据驱动，使其能够适应任务差异以及不同模型的优缺点。

6.1.2 基于元学习的动态协作策略

元学习，即“学会学习”，旨在训练能够利用最少新数据快速适应新任务或环境的模型。在大语言模型与小规模模型协作中，元学习可用于开发泛化能力更强于不同下游任务或数据分布变化的适应性路由策略或协作机制。

尽管元学习在LLM-SLM协作中的显式应用目前仍在研究中逐步发展，但有几个方向与元学习目标高度契合。基于不确定性的SLM路由策略（Chuang, Yu, G. Wang, 等，2025），当SLM对其预测不确定时将 Query 传递给更强大的LLM，探索了路由策略对新数据集的有效泛化。他们提出了一种数据构建流程来生成与数据无关的保留集，从而无需大量新数据即可实现有效的路由决策。这一高效适应和泛化的目标与元学习密切相关。

这些探索表明元学习在解决协作框架中快速适应的挑战方面具有潜力。协作系统需要在不同的任务和领域中有效运作。为每个新任务重新训练复杂的强化学习策略将既昂贵又低效。元学习通过在元训练期间将学习算法暴露于任务分布中，明确地训练快速适应能力。因此，未来的研究可能会进一步深入探索利用元学习来训练LLM-SLM系统中的"路由器"或"协调器"，使它们能够仅使用少量样本快速配置针对未见新任务的有效协作策略。这不仅将显著降低LLM-SLM系统在新应用中的部署成本和时间，使其更具通用性，还意味着系统有潜力学会如何学习协作。

6.2 模型能力的深度融合

当前，大语言模型（LLMs）与小型语言模型（SLMs）之间的协作正从简单的任务路由或流水线处理转向能力的深度集成。未来趋势不仅关注任务分配的优化，还致力于在更细粒度的层面上探索模型间的交互，甚至可能深入到模型内部的神经层 Level 。目标是构建共享理解或表示空间，从而实现能力的真正融合。

传统的LLM-SLM协作通常涉及SLM处理简单任务或充当初步过滤器，而LLM处理复杂任务。然而，未来的协作模式将远远超出这种简单的层级划分，朝着更复杂、双向甚至迭代交互方法的方向发展。在这种模式下，不同的模型可能会相互咨询、验证输出或共同构建解决方案，形成动态的“模型社会”。未来的协作将类似于一个“模型社会”，其中每个模型扮演不同的角色并遵循不同的交互协议，而不是简单的层级结构（例如，LLM作为领导者，SLM作为助手）。简单的路由虽然高效，但可能无法充分发挥每种模型类型的独特优势或解决高度复杂的问题。引入LLM增强SLM输入数据（例如，SynCID）或SLM验证LLM输出（例如，CoVer）等机制可以创造更有价值的协作。可以预见，将出现更多样化和灵活的交互模式，例如迭代优化、相互 Query 和集成方法，其中SLM和LLM从不同角度或为解决方案的不同组件做出贡献。这将带来更稳健和富有创造性的问题解决，但也对模型间的协调和通信机制提出了更高的要求。

深度融合探索了LLMs和SLMs在内部神经网络层 Level 交互的可能性，而不仅限于输入输出 Level 。这可能涉及共享激活值、相互影响注意力机制，或融合学习到的中间表示。这种方法旨在摆脱将每个模型视为独立黑盒的处理方式。

DeepMLF模型（Georgiou, Katsouros, Avrithis等，2025），虽然设计用于多模态情感分析，提出了一个富有启发性的“深度融合”概念。它引入了可在预训练解码器多层中整合多模态信息的可学习 Token 。这种跨层深度融合以及使用可学习 Token 作为信息载体的概念，可以应用于LLM-SLM协作。SLM可以处理特定类型的特征，然后将这些特征（例如，激活值）注入LLM的特定层中，反之亦然。这表明了模型间更紧密耦合的途径，其中一个模型的内部处理可以直接影响另一个模型，从而可能产生更丰富的组合表示。另一项关于模型剪枝的研究（X. Ding, Y. Zhu, Zhang等，2025）提出了一种“滑动层合并”方法，该方法根据预定义的相似度阈值动态选择和融合连续层。尽管该方法应用于剪枝单个LLM，但基于相似度合并层的想法为融合来自SLMs和LLMs的对齐层提供了潜在的方法论，前提是它们的表示空间可以被对齐。

这些探索表明，大语言模型（LLMs）与小语言模型（SLMs）之间的界限可能会变得“模糊”。黑盒输入/输出交互限制了模型之间可交换的信息带宽和类型，因为内部表示（激活值、隐藏状态）通常包含丰富、细致的信息，而这些信息在最终输出中往往丢失。DeepMLF的成功突出了单一模型内部深层、多层融合的优势，这一原则可扩展至模型间的协作。如果SLM专门用于提取特定句法特征，这些特征（作为激活值）可以直接输入到处理相同文本的LLM的相关层中，用于语义任务，从而在更深的层次上丰富LLM的输入。未来研究可能会聚焦于探索在特定层上“嫁接”或“连接”SLMs和LLMs的方法，或许使用 Adapter 模块或学习型门控机制来控制信息流。这可能导致高效且强大的混合模型，其中SLM的优势（例如，专业特征提取）会深度融入LLM的更广泛推理过程中。然而，这也带来了重大的架构和训练挑战，需要仔细对齐内部表示。

6.3 多模态与具身智能中的协作

大语言模型（LLMs）与小型语言模型（SLMs）的合作正从纯文本领域扩展到更复杂和丰富的多模态理解（整合视觉、语音等）以及具身智能（例如机器人、虚拟 Agent 与环境交互）等领域。在这些新兴领域，LLM-SLM合作将在满足多样化的计算需求和专门的加工任务方面发挥关键作用。

6.3.1 大型与小型模型在整合视觉和语音等多模态信息方面的协作

随着AI系统日益需要处理和理解来自多种模态的信息，LLM-SLM协作变得至关重要，这对于有效管理文本、图像、音频和其他数据类型的不同计算需求和专用处理流程至关重要。多模态数据在数据量、特征提取和融合方面呈现出独特的挑战。LLM-SLM协作能够高效分配这些任务，其中SLM负责高通量、低 Level 的模态处理，而LLM则专注于高 Level 的跨模态推理和生成。

现有研究设想LLM Agent 具备"大-小模型协作"能力，并能处理可能涉及多模态输入的多轮对话，例如在搜索和推荐场景中（Zhang, Qiao, Zhang, 等，2025）。一项研究描述了通过LLM蒸馏训练SLM，使其成为多模态环境中的多任务学习器，特别是在 Prompt 生成方面（例如，文本到图像、文本到模板）（Y. C. Lin, Sharma, Manikandan, 等，2025），表明SLM在LLM协助下可以专门处理多模态相关任务。VITA-1.5模型（C. Fu, H. Lin, Wang, 等，2025）是一个集成了视觉、语言和语音的多模态大语言模型（MLLM）。尽管是一个单一的MLLM，但其多阶段训练方法（逐步整合视觉和语音数据）以及诸如模态冲突（语音数据可能降低视觉任务性能）等挑战，突显了LLM-SLM协作方法的潜在优势。专门化的SLM可以处理特定模态的初始处理或编码（例如VITA-1.5中提到的语音编码器），然后再将特征输入到中央LLM，或管理语音输出。Long-VITA模型（Shen, C. Fu, S. Dong, 等，2025）专注于长上下文视觉-语言理解。训练此类模型的复杂性和成本表明SLM在处理部分视觉信息（例如，预处理、从片段中提取特征）或管理由LLM主导的大任务中的较短上下文交互方面具有潜在作用。

这些趋势指向一种"专用处理器"模型：在多模态场景中，小型语言模型（SLMs）可能会作为特定模态的高效编码器/解码器，或作为早期融合模块。视觉SLM处理视觉输入，音频SLM处理听觉输入，这些专用SLMs将紧凑且信息丰富的表示传递给执行跨模态理解、推理并生成多模态响应的核心大语言模型（LLM）（可能借助SLM解码器的帮助）。这种架构有望实现更具可扩展性和成本效益的多模态大语言模型（MLLM），支持更丰富的人机交互。它还允许独立更新或改进特定模态的SLMs，而无需重新训练整个MLLM。

6.3.2 大小模型协作在机器人和具身Agent中的应用

具身Agent（如机器人）在动态真实世界环境中运行，需要实时感知、决策和行动能力。LLM与SLM的协作非常适合满足这些需求：LLM提供High-Level推理和规划，而SLM负责Low-Level控制、传感器数据处理以及在资源受限的机器人硬件上的快速反应。

SmallPlan框架直接针对这一问题：大语言模型（LLM）作为教师模型，用于训练轻量级小语言模型（SLM），以支持机器人中的High-Level路径规划任务。这些通过LLM指导与模拟环境强化学习（RL）训练的小语言模型，能够提供导航所需的动作序列。这明确地将LLM-SLM协作应用于具身任务，展示了将LLM推理能力蒸馏到可部署的机器人小语言模型中的实用方法。一项研究（Glocker, Honig, Hirschmanner等人，2025）提出了一种由LLM驱动的具身Agent系统，用于家庭环境中机器人的自主物品管理。该系统集成了多个专用Agent（路径规划、任务规划、知识库），这些Agent由特定任务的LLM驱动（这些LLM可能包括小语言模型或针对专业化/更小尺寸进行微调的LLM）。该系统使用检索增强生成（RAG）进行记忆增强，并结合了Grounded SAM和LLaMa3.2-Vision实现鲁棒的目标检测，展示了不同模型（例如，Qwen2.5用于专用Agent，LLaMA3.1用于路径规划）如何在复杂的具身任务中协同工作。此外，关于具身多模态大型模型（EMLMs）（S. Chen, Z. Wu, K. Zhang等人，2025）的背景研究强调了感知、语言和动作的整合，指出了可扩展性和泛化性等挑战，而LLM-SLM协作可能提供解决方案（小语言模型用于机载感知，LLM用于基于云的复杂规划）。

这些进展表明，分层控制和推理架构正成为具身人工智能的主流范式。机器人既需要High-Level理解和规划（如“打扫厨房”），也需要Low-Level、实时的传感器运动控制（如“抓取海绵”、“避开障碍物”）。大语言模型（LLMs）在常识推理、任务分解和理解自然语言指令方面表现出色，但它们通常速度过慢或计算成本过高，不适合直接用于实时机器人控制。相比之下，小型语言模型（SLMs）更适合在设备上部署，处理局部感知、反射性动作或执行LLM提供的明确定义子目标等任务。未来的系统可能会看到LLMs解释用户目标，将其分解为可执行步骤，并监控进度，而一个由SLM组成的团队（或一个多功能车载SLM）通过与物理世界交互来执行这些步骤，并将反馈发送给LLM。这种架构有望使机器人更加智能、适应性强且功能完备，能够在人类环境中执行复杂、长时程的任务，同时利用强大的云端LLMs与维持实时响应和自主性的车载SLMs相结合。

7 结论

大语言模型（LLMs）的快速发展显著提升了人工智能的能力。然而，它们的高计算资源需求、部署成本以及潜在延迟问题限制了它们在更广泛场景中的应用。与此同时，小型语言模型（SLMs）凭借其高效性、低消耗和易于部署的特点，在特定任务和资源受限环境中展现出独特优势，尽管其能力和泛化能力相对有限。有效结合LLMs和SLMs的优势以弥补各自的不足，已成为推动人工智能技术向更高效率、经济性和通用性发展的关键研究方向。

本综述系统性地回顾和讨论了大语言模型与小语言模型之间的协作机制与架构。首先，详细阐述了大语言模型与小语言模型的基本概念、特征及其各自的优缺点。在此基础上，重点分析了当前主流的协作模式，包括流水线、混合/路由、辅助/增强、知识蒸馏驱动以及集成/融合协作。此外，深入探讨了实现这些模式的关键技术，如任务分配与智能路由、模型间通信与接口设计、模型融合与结果集成、状态同步与上下文管理、动态资源调度与优化。进一步地，基于实际设备需求，本综述探索了协作机制在不同应用场景中的实用价值，包括实时低延迟推理、隐私敏感和局部数据处理、任务特定定制与个性化服务、离线或弱网络环境，以及能源受限和绿色人工智能场景。

尽管LLM-SLM协作研究取得了显著进展并展现出巨大潜力，但仍面临诸多挑战。这些挑战主要集中在以下方面：协作效率与系统开销，任务路由决策和跨模型通信可能引入额外延迟和成本；模型间一致性与兼容性，涉及如何确保不同模型在输出风格、知识范围和事实准确性上保持统一；协作系统的评估指标与基准测试，凸显了标准化测试平台和能够全面衡量协作有效性、效率和成本的指标的缺失；以及安全、隐私与伦理，涵盖模型间数据流相关的隐私风险，以及协作系统中潜在的偏见放大和安全漏洞问题。这些挑战为未来研究指明了方向。

LLM-SLM 协同智能：高效、灵活、普适的人工智能新范式 ！

1 引言

1.1 研究背景与动机

1.2 大小模型协作的定义与范围

1.3 设备端大型模型的兴起及其对合作研究的驱动力

1.4 本文结构和贡献

2 相关概念与基础

2.1 大语言模型

2.1.1 定义、架构和特性

2.1.2 优点和局限性

2.2 小型语言模型

2.2.1 定义与特征

2.2.2 优点、局限性和典型构造方法

2.3 大型和小型语言模型之间协作的基础与必要性

2.3.1 协作的技术基础：能力与特征的互补性

2.3.2 能力边界互补性

2.3.3 架构和训练的可迁移性

2.3.4 部署场景的适应性

2.3.5 协作必要性：由现实需求驱动的必然选择

3 大型和小型模型的协作机制与架构

3.1 协作模式分类

3.1.1 流水线协作

3.1.2 混合/路由协作

3.1.3 辅助/增强协作

3.1.4 知识蒸馏驱动的协作

3.1.5 集成/融合协作

3.2 实现协作的关键技术

3.2.1 任务分配与智能路由

3.2.2 模型间通信与接口设计

3.2.3 模型融合与结果集成

3.2.4 状态同步与上下文管理

3.2.5 动态资源调度与优化

4 基于设备端需求的场景应用

4.1 实时低延迟推理场景

4.2 涉密和局部数据场景

4.3 任务特定定制与个性化场景

4.4 离线或弱网络环境场景

4.5 能量受限和绿色AI场景

5 挑战与开放问题

5.1 协作效率与系统开销

5.1.1 任务路由决策的延迟

5.1.2 模型间通信成本

5.2 模型间一致性与兼容性

5.2.1 确保不同模型间输出风格和知识范围的一致性

5.2.2 模型知识范围与事实一致性对齐

5.3 评估指标与基准测试

5.4 安全、隐私和伦理问题

5.4.1 不同模型间数据流的隐私风险

5.4.2 协作系统中的潜在偏差放大或安全漏洞

6 未来趋势

6.1 更智能和更具适应性的协作框架

6.1.1 基于强化学习的动态协作策略

6.1.2 基于元学习的动态协作策略

6.2 模型能力的深度融合

6.3 多模态与具身智能中的协作

6.3.1 大型与小型模型在整合视觉和语音等多模态信息方面的协作

6.3.2 大小模型协作在机器人和具身Agent中的应用

7 结论