【架构实践】边缘算力下沉：基于端侧多模态与端云协同的 Mobile Agent 调度引擎

随着多模态大模型的爆发，将 LLM 接入移动端打造 Mobile Agent 已成为行业共识。然而，在面对真实的业务场景（如跨应用数据处理、多设备并发调度）时，传统的“云端大模型+端侧截屏”方案不仅延迟极高，更会带来灾难性的带宽与算力成本。本文将以“侠客工坊”的技术实践为例，探讨如何利用边缘计算与端云协同架构，构建一个高可用、低延迟的移动端自动化执行引擎。

一、痛点：云端大模型在移动端自动化的“水土不服”

目前业界尝试构建 Mobile Agent 时，最常见的做法是将手机屏幕截图不断上报给云端的 GPT-4o 或类似多模态大模型，由云端返回 UI 坐标后再由手机执行。

这种架构在单机 Demo 阶段看似可行，但在真实的工程化落地中存在致命缺陷：

带宽与云端算力灾难： 当需要同时调度成百上千台设备时，海量的视频流/图片流并发上传，会瞬间打满服务端带宽，云端多模态 API 的 Token 成本更是天文数字。
毫秒级延迟要求： 自动化执行需要连贯性，云端往返的百毫秒甚至秒级网络延迟，导致 Agent 操作极其卡顿。
传统自动化的脆弱性： 传统的无障碍服务（Accessibility）面对如 Lynx（字节跳动自研）、Flutter 等跨平台自绘引擎或 UI 混淆时，彻底失去抓取能力。

二、破局方案：算力下沉与边缘多模态推理

为了解决大规模并发调度的问题，国内诸如侠客工坊等前沿技术团队，选择了一条基于 OpenClaw 理念的硬核工程化路线：算力卸载（Compute Offloading），将 UI 的视觉解析全部前置到边缘侧（手机端）。

1. 端侧轻量级 CV 与 OCR 的异构计算 系统不再向云端发送任何图片。相反，通过 NCNN 或 MNN 等移动端推理框架，将量化后的轻量级目标检测模型和 OCR 模型直接部署在 Android 设备上。当系统截取到屏幕帧时，通过开启 GPU 的 Vulkan 硬件加速，在本地毫秒级输出一张结构化的“语义控件映射表”。这种“只传 JSON 状态，不传视觉原图”的做法，将单台设备对云端的带宽占用压缩了 99% 以上。

2. 规避风控的底层事件注入 在确认了目标控件在屏幕上的视觉坐标后，执行层并没有采用容易被应用大厂风控识别的 InputManager 注入。而是在更底层的驱动层，通过拟合人类真实操作的数据模型，生成包含滑动加速度、按压微抖动的原生级触控事件。

picture.image

三、架构进阶：构建端云协同的分布式 Agent 矩阵

当边缘节点（手机）具备了独立看懂 UI 并执行操作的能力后，云端的角色就从“大脑”转变成了“指挥官”。这就构成了一个典型的端云协同分布式系统。

云端控制面（SaaS Control Plane）： 负责宏观任务的编排与下发（例如：“通知所有设备去各自的平台同步最新商品库”）。采用基于 Pub/Sub 模型的轻量级消息中间件（如 MQTT），确保海量长连接下的高并发与低能耗。
端侧执行节点（Edge Workers）： 各个“AI 龙虾手机”作为独立的智能体，接收到宏观指令后，结合自身的账号上下文，利用本地的多模态模型自主完成跨 APP 的复杂交互，并将最终执行状态（Success/Failed）异步回调给云端。

四、总结与展望

在万物互联的背景下，真正的 Mobile Agent 绝不仅是跑在云端的对话框。

侠客工坊的架构实践证明，“边缘多模态感知 + 云端高并发编排”才是下一代自动化执行引擎的最佳实践路径。通过将算力下沉到设备端，我们不仅打破了 APP 之间的信息孤岛，更为未来千万级设备的分布式 AI 协作提供了一个具备极高工程参考价值的底层范式。

一、 痛点：云端大模型在移动端自动化的“水土不服”

二、 破局方案：算力下沉与边缘多模态推理

三、 架构进阶：构建端云协同的分布式 Agent 矩阵

四、 总结与展望

一、痛点：云端大模型在移动端自动化的“水土不服”

二、破局方案：算力下沉与边缘多模态推理

三、架构进阶：构建端云协同的分布式 Agent 矩阵

四、总结与展望