万字长文细说端侧大模型进展(下篇)：AutoGLM类Agent隐私安全有感 - 文章 - 开发者社区

引言 =======

铺床凉满梧桐月，月在梧桐缺处明。

picture.image

小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖沙茶面的小女孩。最近，智谱AI推出的智能体AutoGLM引起了广泛关注。然而，随着测试的深入，用户对该产品将屏幕数据上传至云端所带来的隐私安全问题愈发担忧。因此，今天小编将基于近期一篇关于端侧大模型的综述文章，介绍该领域的一些最新进展。随着端侧大模型的发展，这些隐私安全问题有望得到有效缓解。

考虑到文章内容的丰富性，小编将其分为上下两篇：上篇主要介绍端侧大模型的进展及其模型架构，今天这篇长作文是下篇，聚焦于模型压缩技术、推理加速、部署方案以及应用实例 。鉴于篇幅较长，建议小伙伴们收藏以便后续阅读。未来小编将持续关注端侧大模型的发展，包括相关论文解读、推理加速技术及其实战案例的介绍。感兴趣的小伙伴可以留意本微信公众号：

论文地址：https://arxiv.org/abs/2409.00088

端侧大模型压缩和优化 ===============

在大语言模型(LLMs)的领域，尤其是针对边缘设备的部署，在保持性能的同时提高计算效率至关重要。本节介绍四种关键的模型压缩技术：量化、剪枝、知识蒸馏和低秩分解 。这些方法通过平衡性能、内存占用和推理速度来提高大语言模型的运行效率，确保其在设备端应用中的可行性。

4.1 量化

量化是将神经网络中的高精度（浮点）权重和激活值转换为低位宽（整数）的过程。这种技术显著减少了模型大小和计算需求，实现了更快的推理和更低的内存消耗，同时保持了准确性。

训练后量化(PTQ): PTQ在模型训练后应用，无需重新训练，因此比量化感知训练 (QAT) 更快，资源消耗更少。有几种值得注意的PTQ方法。

(a) 仅权重量化 ：在仅权重量化中，只对神经网络的权重进行量化。这种方法简化了量化过程，当激活值范围变化不大或计算资源严重受限时特别有效。

(b) 权重-激活联合量化 ：权重和激活值都进行量化，进一步降低计算复杂度。由于高效的矩阵乘法，这种方法在硬件实现中具有优势，对神经计算至关重要。BitNet b1.58对每个参数使用三元量化(-1、0、1)，显著改善了延迟、内存、吞吐量和能耗指标。

GPTQ：GPTQ利用二阶信息进行误差补偿，有效地将每个权重的位宽降至3或4位。该方法保持了高准确性，困惑度仅略微增加，使OPT-175B等语言模型能够在单个高端GPU上运行。
激活感知权重量化 (AWQ)：AWQ基于观察到一小部分(0.1%-1%)权重对大语言模型的性能至关重要。通过有选择地跳过对这些关键权重的量化，AWQ显著减少了量化损失。

量化感知训练(QAT) ：QAT将量化直接纳入训练过程，使模型能够本质上适应降低精度的约束。这种集成通常会在量化后产生更高的准确性，因为模型在训练阶段主动学习补偿潜在的量化误差。

4.2 剪枝

神经网络中的剪枝涉及有选择地移除权重或神经元，以减少复杂性并提高计算效率，同时保持性能不显著下降。

结构化剪枝 ：移除整个参数子集，如层、通道或滤波器，由于更规则的内存访问模式和简化的计算，有利于硬件优化。"LLM-Pruner"采用结构化剪枝，基于梯度数据消除非必要groups，从而保持关键功能。它还通过LoRA等技术促进性能恢复，允许以最少的数据进行高效恢复。
非结构化剪枝 ：移除模型中的单个权重，提供更细粒度的控制和更高压缩率。然而，这种方法通常会导致稀疏矩阵 ，可能与传统硬件架构不太兼容，影响计算效率。它最适合需要最大压缩而不受结构保留约束的情况。
上下文剪枝 ：根据模型的操作上下文进行剪枝，仅保留特定条件下或特定任务中相关的权重或神经元。上下文剪枝确保减少与模型操作需求动态一致，从而在最重要的地方保持性能。

4.3 知识蒸馏

知识蒸馏 (KD) 是将大型模型（教师）的知识转移到较小模型（学生）的过程，使大型语言模型的能力浓缩而不显著影响性能。

黑盒知识蒸馏 ：学生模型仅从教师模型的输出中学习 ，而不访问其内部机制或参数。当教师模型的细节是专有的或当教师和学生模型的架构显著不同时，此方法尤为有用。例如，Gu等人(2023)证明，黑盒KD可以有效地仅使用ChatGPT等LLM API的输出数据来训练模型。学生模型训练以模仿教师的输出分布，基于输入-输出对，这个过程虽然有效，但将学习限制在外部行为上，而不能深入教师的内部状态。
白盒知识蒸馏 ：相比之下，白盒知识蒸馏允许学生模型访问教师的内部状态和工作原理，促进更深入、更精确的学习过程。这种方法使学生不仅能够模仿输出，还包括教师的内部状态分布，提高学习效果和深度。对教师详细工作的增加访问有助于指导学生的学习，产生更准确和健壮的模型。然而，这种技术需要谨慎地对齐模型架构以确保有效的知识转移，实现通常更为复杂。

4.4 低秩分解

低秩分解 (LRF) 是将矩阵分解为更小组件的技术，显著降低计算复杂度而不影响模型准确性。利用矩阵中普遍存在的内在低秩结构，LRF通过低秩因子的积来近似这些矩阵，这在图像处理、机器学习模型的降维和数据压缩等应用中已证明不可或缺。这种方法不仅保持了基本的数据特征，还确保了高效的存储和处理。进一步扩展其应用，Yao等人(2024b)的研究将LRF与大型语言模型中的训练后量化(PTQ)相结合。这种创新方法，称为低秩补偿(LoRC)，通过显著减少模型大小并保持准确性来提高模型效率，有效缓解了激活量化的不利影响。LRF和PTQ的这种结合展示了在维持复杂模型性能的同时优化计算效率的重大进展。

硬件加速和部署策略 ==============

硬件加速器如GPU、TPU和专用AI芯片在实现大语言模型的高效设备端推理中发挥着重要作用，提供强大的计算能力和高内存带宽。选择GPU、TPU、FPGA或其他AI专用芯片时，需要在性能、功耗和成本之间进行权衡。例如，GPU因其并行处理能力而被广泛使用，TPU擅长矩阵运算，而FPGA因其可定制性和节能特性适合特定任务。通过软硬件协同设计方法，如量化感知训练和模型压缩，可以进一步提高效率，使大语言模型能够在从高功率服务器到低功率边缘设备的各种设备上运行。参数共享和高级内存管理等优化策略对于减少模型占用空间至关重要，从而在不同计算环境中实现更快速且具成本效益的部署。这些策略共同提升了大语言模型的部署和执行能力，以满足各种应用需求和硬件限制。

5.1 端侧大模型推理框架

根据用例和可用基础设施，大语言模型的部署策略可能大相径庭，从完全基于云的解决方案到仅在边缘设备的部署。

仅边缘

(a) Llama.cpp

(b) MNN

(d) ExecuTorch

(e) MediaPipe

描述:由Google开发的MediaPipe是一个用于构建和部署涉及视频、音频和其他时间序列数据的多模态机器学习管道的框架。
训练:没有内置的训练功能。
推理:支持包括Android、iOS、macOS、Windows和Linux在内的多个平台，利用CPU和GPU资源。
描述:ExecuTorch是PyTorch Edge生态系统的一部分，适用于在移动设备和可穿戴设备上高效部署PyTorch模型。
训练:没有内置的训练功能。
推理:利用包括CPU、NPU和DSP在内的全部硬件功能，适用于各种计算平台。
描述:PowerInfer和PowerInfer2是一个高速推理引擎，针对在配备消费级GPU的PC上部署大语言模型进行了优化，采用以局部性为中心的设计。
训练:没有内置的训练功能。
推理:支持包括x86-64 CPU和Apple M芯片在内的各种计算平台，针对Windows和Linux进行了优化。
描述:MNN利用移动神经网络技术进行高效推理，优化了具有动态输入和多模态交互的移动设备。
训练:支持设备上的全尺寸微调和LORA微调。
推理:支持ONNX和MNN格式的模型部署，适用于CPU、CUDA和OpenCL等多种后端。
描述:这是一个C/C++库，专为在多种硬件平台上高效推理大语言模型而设计，支持整数量化、GPU加速和CPU+GPU混合推理。
训练:支持设备上的LORA适配器微调。
推理:支持跨ARM和x86架构的CPU和CPU+GPU混合推理。

边缘-云

(a) MLC-LLM

(b) VLLM

描述:OpenLLM使各种开源大语言模型能够部署为与OpenAI兼容的API端点，针对高吞吐量和精简云部署进行了优化。
训练:没有内置的训练功能。
推理:兼容各种模型架构和后端实现，适用于生产环境中的高效部署。
描述:针对边缘-云环境进行了优化，支持高级量化方法，以在推理过程中高效管理key和value。
训练:没有内置的训练功能。
推理:支持多个GPU平台，并集成Vulkan、CUDA、Metal和WebGPU技术。
描述:是一个机器学习编译器和高性能部署引擎，支持在边缘设备和云环境中部署大语言模型。
训练:没有内置的训练功能。
推理:支持ARM和x86架构的CPU和GPU上的推理。

5.2 硬件加速

硬件技术的持续进步显著影响了设备端大语言模型的部署和性能。

GPU :凭借其大规模并行能力和高内存带宽，GPU已成为训练和加速大型语言模型的标准。NVIDIA的Tensor Cores在Volta架构中引入，并在后续几代中改进，为混合精度矩阵乘加运算提供了专门的硬件支持，这对基于Transformer的模型至关重要。最近的进展，如NVIDIA的A100 GPU，配备80GB HBM2e内存，使得在单个设备上训练具有数十亿参数的模型成为可能。框架如Megatron-LM中实现的张量并行和流水线并行等技术，允许大语言模型在多个GPU上高效扩展。使用混合精度训练，特别是FP16和BF16格式，显著减少了内存占用，并增加了现代GPU上的计算吞吐量。
NPU :神经处理单元（NPU），也称为AI加速器，是专为机器学习工作负载设计的专用芯片。Google的张量处理单元（TPU）是一个突出的例子，最新的v4版本每个芯片提供275 TFLOPS的BF16性能。TPU利用脉动阵列架构进行高效的矩阵乘法，特别适合大语言模型中的Transformer层。TPU Pod配置允许扩展到数千个芯片，使得训练如GPT-3和PaLM等大规模模型成为可能。其他NPU，如华为的昇腾AI处理器和Apple的Neural Engine，也通过量化和剪枝等技术为较小的大语言模型的设备端推理提供加速。
FPGA :现场可编程门阵列（FPGA）为加速大语言模型提供了灵活的硬件平台，尤其是在推理方面。最近的研究展示了在FPGA上高效实现Transformer层，利用稀疏矩阵乘法和量化等技术。例如，微软的Project Brainwave使用Intel Stratix 10 FPGA加速BERT推理，实现了低延迟和高吞吐量。FPGA在能效方面表现出色，可以针对特定模型架构进行优化，使其适合较小大语言模型的边缘部署。然而，与GPU和ASIC相比，FPGA的计算密度较低，限制了其在训练大规模模型方面的应用。

通过这些硬件加速技术和策略，大语言模型可以在各种计算环境中实现高效的部署和执行，满足不同应用需求和硬件限制。

应用实例 =========

近年来，人工智能技术的迅猛发展和移动设备硬件的不断升级，使得在边缘设备上部署大型语言模型成为可能。作为人们日常生活中最常用的设备，智能手机上的语言模型引人注目。目前，全球主要手机品牌已开发并发布了多款先进的模型，这些模型采用设备端部署或设备-云协同策略，如表2所示。这些模型标志着移动计算的重大飞跃，为用户带来了传统云部署无法比拟的优势。

picture.image

6.1 端侧语言模型示例

Gemini Nano : 该模型由Google提供，作为移动操作系统的系统功能开放给应用程序，类似于位置或通知服务。用户可通过Google AI Edge SDK访问AI核心，内部提供Gemini Nano模型。相比在云端运行的其他Gemini模型，该模型更小但速度更快，推理延迟更低。AI核心负责模型分发以优化内存管理，并利用设备硬件加速推理。Gemini Nano通过从更大的Gemini模型蒸馏而来，采用4位量化，提供最佳性能。
Nexa AI Octopus系列模型: 这是一个在边缘设备上运行的20亿参数模型，在精度和延迟上超越了GPT-4，并将上下文长度减少了95%。通过标记化核心函数名并使用函数token微调，该模型可理解软件应用程序功能，并将函数描述映射到特定token。Octopus模型在移动设备上展示了快速响应时间，即使在标准Android手机上，对于典型的20到30个token的查询，也能在1.1到1.7秒内完成函数调用。
苹果OpenELM和Ferret-v2 : 苹果开发的OpenELM是集成在iOS系统中的大型语言模型，用于增强应用功能，类似于位置跟踪等系统服务。OpenELM采用分层缩放架构，拥有11亿参数，与先前模型相比，其准确率提高了2.36%，只需一半的预训练标记。它与MLX库兼容，便于在苹果设备上直接微调。Ferret-v2显著升级，整合任意分辨率定位、多粒度视觉编码和复杂三阶段训练方案等功能，提升了高分辨率图像处理和视觉理解能力，从而为iOS用户确保了强大的设备端功能。
微软Phi系列 : 微软的Phi-3-mini是一个紧凑而强大的38亿参数模型，训练于3.3万亿标记数据集。尽管规模小，Phi-3-mini在性能上可与Mixtral 8x7B和GPT-3.5相媲美，在MMLU上达到69%，在MT-bench上得分8.38。Phi-3-small和Phi-3-medium规模更大，在4.8万亿标记上训练，分别拥有70亿和140亿参数，表现更优（MMLU分别为75%和78%，MT-bench得分分别为8.7和8.9）。Phi-3-vision基于Phi-3-mini衍生，拥有42亿参数，专为增强图像和文本提示的推理能力设计。
MiniCPM : MiniCPM-Llama3-V 2.5是开源MiniCPM-V系列的最新成员，由清华大学和ModelBest合作开发，拥有85亿参数。在Open-Compass评估平台上，该模型在11个多模态基准测试中平均得分65.1，超过了GPT-4V-1106（63.5分）、Gemini Pro（62.9分）、Claude 3和Qwen-VL-Max等领先模型。在OCR和场景文本理解的特定评估中，MiniCPM-Llama3-V 2.5表现优异，OCRBench得分超过700，超越了GPT-4和Gemini Pro。在TextVQA和DocVQA基准测试中，分别达到76.6%和84.8%的准确率。
Gemma2-9B : Google的Gemma系列是轻量级、先进的开放模型。Gemma2版本有9B和27B两种规格，9B版本使用8TB的网络数据、代码和数学数据训练。其创新的注意力机制包括滑动窗口和全局注意力层，并使用知识蒸馏和模型合并技术。Gemma2-9B在推理、数学和编码等领域表现优异，超越了同类规模的Llama 3-8B等开放模型，并与HuggingFace、Keras 3.0、vLLM、Gemma.cpp和Llama.cpp等主要AI框架兼容。
Qwen2-0.5B : 阿里云推出了Qwen2系列，其中Qwen2-0.5B为参数量最小的版本，具有32K的上下文长度。在多项测试中，该模型表现与Gemma-2B和Phi-2相当，但参数量更小，未来有望在智能家居中发挥重要作用。针对短上下文长度的问题，Qwen-Agent框架采用Agentic RAG思想，可将处理上下文扩展到1M，实现长文本理解。

6.2 设备端LLM的应用

设备端语言模型正开启一个智能、响应迅速、个性化应用的新时代。通过将先进的自然语言处理能力直接引入用户设备，这些模型正在改变人们与技术互动的方式。从即时消息建议到实时语言翻译，从保密医疗咨询到尖端自动驾驶汽车，说明设备端LLM是具有广泛影响的多功能工具。以下示例（如图5所示）展示了设备端LLM应用的广度和深度，展示了这项技术不仅在增强现有服务，还在各种领域中出现全新类别的智能、响应迅速和安全应用。

picture.image

消息文本生成 ：过去，基于云端LLM的快速回复功能受限于生成速度和网络延迟 。借助设备端LLM，Google的键盘应用Gboard可以使用Google的设备端LLM Gemini Nano。当检测到用户正在在线聊天时，Gemini Nano可以根据聊天内容快速生成符合对话语境的快速回复供用户选择，从而提升即时聊天效率。
翻译：LLM在语言翻译领域得到广泛应用。这种方法可以使用特定领域适用的术语和风格进行翻译，这是传统机器翻译方法无法实现的。然而，云端LLM仍面临响应速度慢和需要上传信息等问题。设备端LLM更好地解决了这些问题，参数更小、响应更快，还可以在离线环境中运行。这也为许多场景提供了数据安全保障。在翻译质量方面，使用小型模型并不会显著降低翻译准确性。T5-small模型的token生成精度仅比T5语言模型低4%。此外，更快的响应速度意味着设备端模型将更适合同声传译等需要即时翻译的场景。
会议总结 ：亚马逊发布的基于云的解决方案Distill-CLI使用Anthropic的Claude 3 Sonnet模型和亚马逊Transcribe技术生成实时会议摘要。类似的应用还有使用GPT-4o模型的Plaud Note、Zoom-IQ等。然而，使用云端模型的缺点是会产生订阅服务费用，以及网络连接导致的延迟问题。采用设备端模型可以使数据保持本地化，无需上传到云端服务器。
医疗应用 ：当前的医疗模型，如Med-Palm Multimodal可以结合并分析患者陈述、电子病历信息、X光和其他医学图像，生成高准确度的回复。边缘部署可以帮助患者离线回答问题，从而确保模型在紧急情况下的可用性，并保持患者病情的本地化。令人兴奋的是，基于预训练模型在专业医疗领域微调的模型已经出现，如BioMistral-7B、HuatuoGPT-7B-II等。这些低参数模型有望部署在终端设备上。
科研支持 ：传统的研究支持LLM如GatorTronGPT使用大量特定专业数据进行训练。这使它们能够生成高质量的专业文本，从而加速科学研究的进展，尤其是在数据稀缺或敏感的研究领域。改用设备端LLM后，可以降低使用语言模型辅助科研任务的硬件成本，获得更快的响应，并保护科研信息的机密性。
陪伴机器人 ：已经有一些研究案例使用语言模型增强机器人或物联网（IoT）设备的能力。LLM强大的规划和推理能力可以将人类指令分解为一系列子任务，使机器人更好地理解自然语言指令。例如，基于OpenAI多模态语言模型的Figure 01机器人 可以与人深入交流，并根据对话内容独立决策和行动。随着小型模型的兴起，部署设备端语言模型的机器人在响应生成速度方面可以超越传统的基于云端模型的机器人。同时，客户端模型可以确保机器人在离线状态下仍能保持智能能力。
残障支持 ：对于视障用户来说，将图像转换为文本是一项非常基本和重要的功能。目前，许多设备端大型多模态模型，如Octopus v3、MiniCPM-Llama3-V 2.5等，可以通过多模态能力实现这一功能。借助这些模型，盲人也可以轻松了解对话中的图片和视频信息。Google即将推出基于Gemini Nano的Talkback功能，帮助盲人或视力低下的人更丰富、清晰地介绍图像中的内容。由于Gemini Nano是部署在边缘的模型，这些图像的描述结果将快速出现，即使在没有网络连接的情况下也能工作。类似的能力也可用于手语识别 ，已有项目使用ChatGPT模型进行手语翻译。相比之下，设备端模型可以以更低的延迟生成对应手语的文本翻译，并确保其离线可用性。
车辆自动驾驶 ：使用语言模型驱动汽车自动驾驶可能是一个理想的未来，且现在已经有了范例。DriveVLM Dual是一个将自动驾驶技术与大规模视觉语言模型（VLM）相结合的系统，旨在提高对城市环境中复杂和长尾场景的理解。该系统使用语言描述驾驶环境并识别场景中的关键对象。它从元动作和决策描述逐步发展到路径点，制定计划。DriveVLM在公共基准测试和研究人员自己的基准测试上都超越了现有的最先进方法，特别是在处理复杂和动态场景方面。更令人兴奋的是，DriveVLM可以在车辆本地部署，这也为其即时响应提供了便利。

这些设备端LLM的应用展示了其在增强现有服务和实现新型智能、响应迅速、安全应用方面的潜力。

7 未来方向和挑战

设备端LLM的快速发展主要由三个因素驱动：数据安全需求、低延迟要求和边缘设备上个性化AI 体验的需求增加。近期出现的TinyLlama、MobileVLM和OpenELM等方法体现了这一进展。然而，在资源受限设备上部署LLM面临独特挑战，这些挑战与传统的基于云的实施有显著不同。这些挑战涉及多个领域，包括模型压缩、高效推理、安全性、能源效率，以及与多样化硬件平台的无缝集成。此外，边缘环境的动态性质和持续适应的需求带来了额外的复杂性，需要考虑。

以下概述了推进设备端LLM领域最紧迫的挑战和机遇。需要注意的是，这里讨论的挑战和机遇是相互关联的：一个领域的进展通常会对其他领域产生影响。深入研究当前的研究状况，识别关键挑战并提出未来工作的潜在方向，总结如图6所示。

picture.image

通过解决这些挑战，研究人员和实践者可以推动设备端LLM的可能性边界，最终在各种应用和领域中带来更智能、高效和以用户为中心的计算体验。

7.1 数据安全技术

设备端语言模型可能提供固有的数据安全优势，因为所有数据都可以保持本地化。未来的工作应关注：

开发高效的隐私技术，包括查询混淆、提示调优和高级随机化技术，在数据安全保证与模型效用和计算约束之间取得平衡。
加强风险评估和监控，通过创建复杂的基准测试系统，实施实时监控，以及设计系统来检测和缓解推理过程中潜在的个人身份信息泄露。
优化模型架构和通信策略，重点关注高效的模型分片、增强安全性的架构，以及最小化数据传输。
解决协作和分布式学习场景中的安全挑战，通过安全多方计算、长对话的数据保护，以及扩展PFID等框架以支持更广泛的LLM架构和任务。

7.2 自适应边缘-云协作

随着设备端语言模型的不断发展，边缘计算和云基础设施之间的协同作用既带来机遇，也面临挑战。未来在设备端LLM的自适应边缘-云协作研究中应探索：

发明先进的缓存和请求分析技术，包括复杂的向量数据库缓存策略、多样化LLM请求的特征提取模型，以及不确定性引导的token采样方法，以优化边缘设备和云服务器之间的数据传输。
设计智能调度和资源分配算法，包括个性化推理调度、异构基础设施的自适应资源分配，以及批量大小感知的优化技术，以有效地在边缘-云环境中分配LLM组件和工作负载。
创建高效的知识转移和模型压缩方法，如多模态LLM的基于适配器的知识蒸馏、各种LLM架构的动态量化技术，以及自适应权重更新压缩策略，以实现在资源受限设备上有效部署语言模型。
通过开发token级协作的自适应控制机制、实时决策的高效约束满足算法，以及创新技术来减少延迟并提高混合边缘-云系统中的pipeline执行效率，从而改进协作系统的性能优化。

7.3 多模态和跨模态学习

随着大型语言模型(LLM)逐步扩展到多种模态，对适合在设备上部署的高效多模态架构的需求日益增长。主要研究方向包括:

开发高效的多模态处理和压缩技术，包括先进的不确定性引导的token采样方法、用于云到设备模型更新的动态权重更新压缩策略，以及创新方法来高效结合音频、文本和视频等多种模态用于设备上的模型。
增强知识迁移和适应能力，如探索adapter-based的高级知识蒸馏方法，将知识从较大的云端模型转移到较小的设备上模型，提高跨模态的少样本和零样本能力，并研究结合生成和检索方法的混合方法用于多模态内容生成。
扩展模态支持并改进多模态理解，通过开发非图像模态的大规模数据集，设计新的编码器用于高分辨率图像、长视频序列和复杂音频输入的细粒度多模态理解，并纳入对网页、3D视觉、热图和表格/图形等额外模态和任务的支持。
提升时间和上下文处理能力，通过研究更长的上下文窗口来纳入先前交互的特征，开发复杂的技术来处理和理解跨模态的时间和序列信息，并探索在与虚拟助手交互时有用的任务，如音频字幕和声学场景分类。

7.4 资源效率解决方案

在边缘设备上部署LLM引发了对能耗和环境影响的担忧。未来研究应优先考虑:

创建高效的模型压缩和执行算法: 为LLM开发先进的剪枝、量化和知识蒸馏技术。探索优化大于内存模型执行的方法。研究动态和自适应推理技术，根据输入和可用资源调整模型复杂度。
利用模型稀疏性: 研究利用语言模型运行时激活稀疏性的技术，其中只有模型的一小部分为给定任务激活。这可能会显著减少推理时间和内存占用，从而实现更高效的模型规模扩展。
开发能源感知的训练和部署策略，包括节能算法和运行时优化。探索自适应的参数高效微调方法，在边缘设备上平衡安全性、能源效率和性能。

7.5 硬件-软件协同设计

硬件和软件开发的更紧密集成对优化设备上LLM性能至关重要。未来研究方向包括:

推进各种内存类型的PIM/PNM架构，包括基于CXL系统的优化和边缘设备的低功耗解决方案。
开发硬件感知优化技术，如剪枝感知量化、上下文稀疏性利用和动态稀疏注意力优化。
增强AI专用编译器和运行时系统，以自动识别和优化PIM/PNM硬件的操作，同时考虑图级和硬件特定优化。
设计高效的边缘计算和多设备系统策略，包括动态稀疏树优化、自适应位宽技术和能源感知的协同设计方法。

7.6 稳健性和可靠性

确保设备上语言模型在各种操作条件下的稳健性和可靠性对其广泛应用至关重要。未来工作应解决:

研究检测和缓解设备上LLM输出中潜在偏见和幻觉的方法，特别是在安全关键应用中。
探索用于评估设备上语言模型在真实场景中可靠性的形式化验证和验证框架。
利用集成方法减少方差和偏差。探索概率推理方法来量化和传播LLM管道中的不确定性。

7.7 可扩展性和部署优化

有效扩展设备上LLM以支持不断增长的用户和应用数量带来了重大挑战。未来研究应探索:

开发动态资源分配和负载平衡技术，用于异构边缘设备上的分布式LLM推理。
研究优化策略，以减少协作边缘计算场景中的延迟并提高吞吐量，可能利用模型分片和流水线推理等技术。
探索高效管理和更新不同边缘设备上多个LLM版本的方法，考虑网络限制和设备能力等因素。构建网络基础设施以提高模型和数据集的可重用性和可重复性。

7.8 持续学习和个性化

设备上LLM的部署为个性化AI体验提供了前所未有的机会。然而，它也在保持模型相关性以及随时间适应新信息和用户偏好方面带来了独特的挑战。未来研究应关注:

实施可控的知识保留和遗忘，例如在模型遇到新数据流时有选择地保留或遗忘信息。这对管理错误信息和确保持续准确性至关重要。增强模型基于用户交互和本地数据自主学习新技能和改进现有能力的能力。开发有效的历史跟踪机制，以了解LLM通过各种学习阶段的演变。
推进理论基础和实际优化，为理解和预测设备上持续学习LLM的行为开发稳健的理论基础。这还包括进行大规模用户研究以完善个性化框架，并确定跨不同用户群体和场景的有效服务交付，以及改进关键生成和检索过程，以更好地表示向量空间中的任务分布。
开发高效的持续学习机制，包括复杂的数据混合策略和高效的重放样本选择。这包括探索可控的内存系统和设计自适应微调机制以实现持续模型适应。

这些研究方向的进展将推动设备端LLM的发展，有望在移动计算、物联网、汽车和医疗保健等领域带来重大变革。通过解决这些挑战，我们可以实现更智能、高效和以用户为中心的计算体验，为AI驱动应用开创新时代。

总结 =======

本综述全面阐述了设备上语言模型（LLMs）的最新进展，重点分析了模型压缩、高效架构设计和硬件-软件协同优化等领域的突破。这些进步推动了复杂语言模型在资源受限设备上的部署，为各行业提供了更好的数据保护、低延迟和普及先进AI能力的机会。

从云端到边缘的LLM部署转变标志着人机交互范式的革新，开辟了个性化、情境感知和即时AI体验的新途径，促进了各领域的智能化发展。然而，设备上LLM仍面临平衡性能与资源限制、确保模型鲁棒性及开发持续学习机制等挑战。此外，能源效率、可持续性和负责任的部署问题也日益突出。

实现设备上LLM的潜力需要多学科的协作，包括模型压缩、硬件加速和边缘-云协作策略的探索。随着技术进步，设备上LLM正处于突破边缘，通过解决当前挑战并把握机遇，有望实现AI能力的无缝融入，增强人类能力的同时尊重个性化。

总之，本综述深入分析了设备上LLM的现状，明确了未来研究方向，为相关人员提供了宝贵的资源。在这一快速发展的领域中，持续创新和跨界合作将是推动变革性技术发展的关键。