点击上方 蓝字 关注我们
在生成式AI的应用中,模型随着尺寸的增大,综合能力一般更强,但需要意识到,并不是所有场景都需要大模型,特别是在资源受限的边缘计算AI需求中。本篇带领伙伴们认识最近推出的全球最小的多模态视觉模型(VLM): OmniVision-968M。
- 边缘计算与生成式AI
- 边缘小模型的独特优势
- 最小的多模态小模型
- 本地体验教程:OmniVision-968M
边缘计算与生成式AI
边缘计算是一种将计算资源与处理下沉到更靠近数据源或终端位置,而非在集中的云端中心进行处理的模式。这种方式可以有效降低数据传输与延迟、提升响应速度并保护用户隐私,在智能家居、自动驾驶、工业互联网等领域具有广阔的应用前景。
在典型的智能家居场景中,设备需要快速响应人类指令与环境信息。如果把每次的人类指令或环境信息(比如监控摄像头视频)等都传送到云端,将会产生较大的延迟与堵塞现象。很显然,在本地的指令识别、视频分析等可以大大的提高响应速度,增强用户体验。这本质上是一种把集中计算能力分布到海量的边缘设备来协同完成的分布式计算方式。
随着生成式AI的爆发,赋予了边缘计算更强大的可能,如更精准的本地自然语言处理、多媒体信息分析、语音指令交互等,这些可以极大的提升智能家居、自动驾驶等场景的智能化程度。
但随之而来的问题是,大型的生成式AI模型在边缘计算中并不适用, 极大的计算资源、功耗、以及对网络的依赖,决定了传统大模型无法在边缘设备部署 。因此,能够部署与运行在端侧的各类“小”模型(On-Device Models) 就成了边缘计算+生成式AI的重要支柱。
边缘小模型的独特优势
大模型这么强大,为什么还需要小模型?这个问题就像“为什么Oracle数据库这么强大,你还在用PostgreSQL甚至SQLite?”,道理很简单: 受限于各种客观条件,很多时候我们并不需要一个全能的工具,而需要一个专注而精简的工具。 这至少可以从两个方面理解:
- 你要处理的问题集中在特别领域,如某个边缘设备上的指令识别
- 你要处理的场景可能并不需要那么强大的理解与推理能力
小模型的独特优势在于, 通过剪枝、量化、知识蒸馏等技术手段,将大型模型中冗余的部分裁剪掉,从而显著降低参数量和计算复杂度。 这种优化让小模型能够高效运行于资源有限的边缘设备上,而不会牺牲太多性能:
- 小模型以其轻量化设计,能够在内存、存储空间受限的设备上部署。如离线的快速提取身份证或驾照中的信息,不仅提升了速度,还消除了隐私泄露。
- 小模型的功耗极低,特别适合电池驱动的边缘设备,这有利于工业物联网领域一些依赖于电池的边缘设备更长时间的运行。
- 由于小模型的推理过程需要的计算量更少,能够在实时场景中提供迅速的反馈。例如在安防监控与自动驾驶中,实时分析摄像头画面作出快速决策。
- 此外,小模型还可以方便的针对特定场景或任务进行高度定制化。这种专注于单一任务的优化策略,使小模型能够在特定场景中表现甚至超过大模型。
总体来说,优秀的“小”模型需要具备的特点: 轻量级部署、快速、低能耗,以及在特定领域下输出能力接近甚至超过大模型。
最小的多模态小模型:OmniVision-968M
OmniVision-968M是专注小模型工具与生态的独角兽NexaAI公司最近推出的视觉模型,是一个 面向边缘计算AI需求的紧凑型模型 (该公司早期曾推出Octopus v2这样的设备端模型而一鸣惊人)。正如它的名字,这个模型只有不到1B的9.68亿个参数,非常适合手机、智能家居、物联网设备等边缘设备的轻量级AI解决方案。简单总结其特点:
1. 高效的 Token 压缩:实现 9 倍缩减
传统的多模态模型(如开源 LLaVA)在处理视觉数据时需要大量的 tokens。OmniVision-968M 引入了一种创新机制使视觉数据处理时的token 数量减少了九倍,极大地降低了模型的延迟和计算成本,同时保持了高准确度。
2. 基于直接偏好优化(DPO)的模型准确性提升
多模态模型常见的挑战之一是减少“幻觉”(即生成不准确或无关的输出)。OmniVision 采用了一种特殊的 DPO 训练方法来优化模型响应。这种方法在不显著改变模型原有响应风格的情况下,提升了准确性,使得模型在实际边缘场景中的应用更加可靠。
3. 领先的架构设计
OmniVision 的架构设计由三个核心组件组成:
- 基础语言模型:使用 Qwen2.5–0.5B-Instruct,专为高效文本处理优化,提供强大的语言理解能力。
- 视觉编码器:配备 SigLIP-400M,以 384 分辨率和 14×14 的 patch 大小生成高质量图像嵌入,为视觉数据提供精细的表示。
- 投影层:一个复杂的多层感知机(MLP),将视觉编码器的输出与语言模型的 token 空间对齐。
OmniVision-968M 在多个基准数据集上与其他紧凑型多模态模型(如 nanoLLAVA)进行了对比评估,结果表明OmniVision在各种多模态的任务中表现都优于nanoLlaVa:
本地体验教程:OmniVision-968M
你可以轻易的在本地体验这个轻量级的多模态模型。请参考如下教程:
第一步:安装NexaSDK
NexaAI推出的类似于ollama的模型推理框架,支持GGUF与ONNX类型的多种模型。通过NexaAI的命令行工具,可以快速从NexaAI的模型Hub中拉取多种小模型到本地运行与推理。NexaAI支持各种操作系统、支持CPU与GPU推理,使用也非常简单(类似Ollama)。
NexaSDK的安装支持两种方式,一种是安装包安装:
另外一种是pip install安装,这需要根据不同的操作系统、CPU、或者GPU类型,运行不同的pip install安装指令,具体可参考官方文档(https://docs.nexa.ai/)。
第二步:运行OmniVision-968M模型
安装完成后,使用Neca CLI命令即可运行OmniVision-968M模型。
> nexa run omnivision
如果你需要使用图形界面,使用如下命令,会自动打开基于StreamLit的WebUI:
> nexa run omnivision -st
第三步:使用OmniVision做视觉分析
通过NexaAI命令行或者图形界面,你可以对图片做分析(暂时还只支持英文指令与输出),比如输出图片描述,或者识别图中元素等。
*** 描述图片**
照片中发生了什么?
*** 场景建议**
图中的场景下驾驶需要注意什么?
*** 标志识别**
这个标志什么意思?
整个过程中,模型的识别与推理速度相比之前的多模态模型有了极大的提升,基本都可以在2-3秒内完成全部输出,感兴趣的朋友可以自行体验。
这里我们探讨了生成式AI中除了大模型以外的另一种可能:小模型在边缘计算AI中的应用。随着边缘 AI 的持续发展,像 OmniVision-968M 这样的小模型为构建更智能、更高响应速度的应用提供了支持,也不断拓展了生成式AI的应用边界,并在增强现实、物联网、智能家居和智能城市基础设施等领域展示出巨大的潜力。
end
福利时间
为了帮助LLM开发人员更系统性与更深入的学习RAG应用,特别是企业级的RAG应用场景下,当前主流的优化方法与技术实现,我们编写了 《基于大模型的RAG应用开发与优化 — 构建企业级LLM应用》 这本指南,与大家一起来深入到LLM应用开发的全新世界。
更多细节,点击如下链接了解
现在购,享 50%折扣
交流请识别以下名片