端侧大模型系列 | 端侧AI Agent任务拆解大师如何助力AI手机？(简短版) - 文章 - 开发者社区

引言
简介
模型
实验
意义&前景:
总结

引言

今人不见古时月，今月曾经照古人。

picture.image

小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖沙茶面的小女孩。

设想一下，你的智能手机不再只是"聪明"，而是真正的"智能"。它不仅能响应指令，还能预测需求、规划日程，并轻松完成复杂任务。这不是科幻小说，而是设备内置AI助手的新时代，即将到来。NexaAI提出的Octo-planner通过分离规划与执行过程，将先进的AI功能装进你的口袋，无需持续联网或依赖云端处理，助力打造AI手机。

那么，Octo-planner有何独特之处？它如何在小巧设备中实现如此强大的智能？这对个人计算、隐私保护和AI的未来意味着什么？本文将简要介绍Octo-planner的内部机制，揭示其独特架构设计，并展示实验效果。

更详细的解读 ，可以点这里端侧Agent系列|端侧AI Agent任务拆解大师如何助力AI手机？(详解版)。如果对端侧模型感兴趣可以订阅整个合集。更多大模型相关，如模型解读、模型微调、模型部署、推理加速等，可以留意本微信公众号《小窗幽记机器学习》

简介

随着AI技术的发展，AI Agent应用越来越广泛，但大多数依赖大型语言模型，需要强大计算资源和网络连接，限制了其在边缘设备上的应用。为此，研究人员提出了Octo-planner，一个专为边缘设备优化的规划Agent框架：Octo-planner。

Octo-planner是一个高效的Planner-Action框架，将规划和执行分为两个组件：针对边缘设备优化的规划Agent和使用Octopus模型的执行Agent。它将任务分解为子步骤，由Octopus执行。

为了在资源受限设备上优化性能，采用模型微调而非上下文学习，减少计算成本和能耗，提高响应速度。使用GPT-4生成多样化的规划查询和响应，并进行数据验证。在精选数据集上微调Phi-3 Mini模型后，在领域内测试取得97%的成功率。

为应对多领域规划挑战，官方开发了多LoRA训练方法，合并不同功能子集上训练的LoRA权重，以灵活处理复杂多领域查询，同时保持计算效率。

模型

Octo-planner的核心创新在于将规划和执行分为两个独立的组件:

规划Agent(Octo-planner):负责将用户查询分解为一系列子步骤。
执行Agent(Octopus模型):负责执行具体的功能调用。

这种分离设计带来了几个重要优势:

专业化:允许分别优化规划和执行模型，提高复杂任务的性能。
可扩展性:可以独立扩展规划和执行能力，以适应不同复杂度的任务。
可解释性:通过明确分离各个阶段，提高决策过程的透明度。
适应性:可以更容易地将特定领域的知识或约束集成到任一阶段，而无需对整个系统进行更改。

数据集生成和训练过程包括以下步骤:

数据集收集:使用GPT-4根据可用函数生成多样化的查询和响应。
数据验证:使用同一语言模型评估查询-响应对的正确性，过滤掉不正确的输出。
模型微调:使用验证后的数据集对基础模型进行微调。

实验

研究人员还进行了一系列实验，以评估Octo-planner在不同配置下的性能:

全量微调 vs LoRA:

全量微调达到了98.1%的最高准确率。
LoRA的性能取决于rank大小，最高的准确率为85.1%。

多LoRA训练和合并:

单领域Android函数集LoRA达到85.1%的准确率。
合并两个领域(Android和电商)的LoRA，准确率略有下降至82.2%。
合并三个领域(增加视频流)的准确率为78.9%。
合并四个领域(增加旅行)的准确率降至69.7%。

不同基础模型的全量微调:

Google Gemma 2b:85.6%
Google Gemma 7b:99.7%
Microsoft Phi-3 Mini:98.1%

不同训练数据集大小的影响:

1000个数据点:98.1%
500个数据点:92.5%
250个数据点:85.3%
100个数据点:78.1%

这些实验结果为在边缘设备上部署高效、准确的规划模型提供了重要的参考。

意义&前景

边缘AI赋能:使复杂的AI规划能力在资源受限的设备上运行，为智能手机、IoT设备等带来新的可能性。
隐私保护:本地处理减少了数据传输，强化用户隐私保护。
离线能力:不依赖网络连接，可在无网络环境下工作。
低延迟:本地处理显著降低了响应时间，提升用户体验。
成本效益:减少了云计算依赖，降低了运营成本。
多领域适应:通过多LoRA合并技术，可以灵活应对复杂的多领域查询。

总结

人工智能（AI）Agent在多个行业中引发变革，提升了自主决策能力和运营效率。然而，大型语言模型（LLMs）的高计算需求限制了其普及。为解决这一问题，推出了Octo-planner，这是一种专为边缘设备优化的计划Agent。它通过分离计划和执行，使用GPT-4生成和验证数据，将规划成功率提高到97%。多LoRA训练方法支持复杂多领域查询，实现高效设备内操作。Octo-planner为边缘AI Agent的发展开辟了新道路，可能彻底改变与智能设备的交互方式，并为各行业带来创新机会。