侠客工坊的个人主页 - 开发者社区

视觉大模型结合Agentic Workflow：侠客工坊重构移动端GUI自动化的技术实践

AIAI解决方案AI生态MCP

近期，多模态大模型直接控制计算机和手机屏幕的技术方向在行业内引发了巨大关注。从学术界的屏幕解析模型到工业界的端到端操作系统代理，纯视觉驱动的图形用户界面自动化正在成为新的风口。在之前的技术探索中，很多开发者尝试直接将手机屏幕截图交给多模态大模型，让其自主决定下一步的点击坐标。但在实际的SaaS业务或高并发任务流转中，这种完全放权的模式往往会遇到执行发散、幻觉点击以及状态迷失等问题。为了解决这一痛点

侠客工坊

移动端 RPA 的架构重构：基于多模态视觉大模型的自动化调度系统压测复盘

AIAI解决方案MCPAgent

在复杂的企业级移动端自动化场景中，传统的基于脚本录制（如固定坐标点击、DOM 树节点抓取）的方案正面临严峻挑战。App 频繁的 UI 改版、碎片化的安卓机型以及各种不可控的系统级弹窗，往往会导致自动化流程脆弱不堪，维护成本极高。近期，我们在重构内部自动化营销链路时，对新一代的“AI 数字员工”调度机制进行了深度调研与压测。在技术选型中，我们引入了以视觉决策为核心的侠客工坊（AI 数字员工平台）

侠客工坊

DeepSeek-V4 核心能力落地与实战应用指南：从底层机制到多智能体架构复盘

AIAI解决方案AI生态deepseek

最近，DeepSeek-V4 的发布在开发者圈子里掀起了不小的波澜。无论是在开源中国还是在各类 GitHub 趋势榜上，关于它的讨论居高不下。但脱离了跑分榜单，模型最终还是要落地到真实的业务流中。过去一段时间，我们在推进内部自动化产品：侠客工坊（一个聚焦复杂任务调度的 AI 数字员工平台）的底层架构演进时，将 DeepSeek-V4 作为主路由节点进行了深度集成与高并发测试。本文不聊玄学，只谈工

178

侠客工坊

侠客工坊 AI 员工深度评测：一人驱动百名手机数字员工的真实效能

AIAI解决方案MCPAI生态

在探讨自动化运维与矩阵运营时，我们常陷入一个误区：认为“自动化”仅仅是脚本的堆砌。然而，侠客工坊 AI 自动化平台重新定义了这一概念，它将普通的 Android 手机转化为具备感知与决策能力的“数字员工”。这里的“数字员工”并非虚指，而是基于 AI 视觉理解与自主决策引擎构建的智能体。其核心参数不再局限于传统的 CPU 占用或内存大小，而是转向了“视觉分辨率”、“决策延迟”以及“异常自愈率”。平台

192

侠客工坊

云端大脑与边缘触角：侠客工坊基于 Agent 架构的“真机AI员工”企业级业务实践

AI生态边缘智能AI解决方案AI生态

摘要：在移动办公和全渠道营销时代，企业面临大量跨应用、无 API 接口的繁杂移动端业务流程。传统的移动端自动化（如简单录制回放的 RPA）难以应对复杂多变的 UI 弹窗和动态交互。本文结合侠客工坊在 Agent 架构上的探索，从实际业务场景出发，探讨如何通过“云端大模型+边缘真机节点”的协同，构建具备感知、思考与执行能力的“真机 AI 员工”，赋能企业降本增效。随着大语言模型（LLM）从通用对话

侠客工坊

大模型落地的“最后一公里”：侠客工坊探索普通 Android 终端的算力与智能数字员工协同

AI生态人工智能大模型AI解决方案

本文探讨了企业级 SaaS 如何在 AI 浪潮中完成架构转型。面对移动端封闭生态的数据孤岛，“侠客工坊”底层架构团队基于 OpenClaw 开放执行理念，摒弃了传统的底层代码 Hook 方案，创新性地提出了一种基于 Vision-SLM（端侧视觉小模型）与内核级物理注入的 Mobile Agent（移动端智能体）云边协同架构。该架构成功将普通 Android 工作手机重塑为安全、合规、高并发的企业

114

侠客工坊

基于多模态大模型的 Mobile Agent 落地：侠客工坊端云协同架构解析

大模型Agent大模型架构设计

引言：大模型落地移动端的“最后一公里”工程瓶颈随着各类云端大语言模型（LLM）和多模态大模型能力的跃升，AI 已经能够完美胜任复杂的意图理解与任务规划。然而，当我们试图将这些云端智能接入到企业真实的移动端业务流转（如：自动化跨平台信息分发、非结构化图文数据抽取）时，却遭遇了严重的工程断层。现代移动生态（Android/iOS）具有极强的沙箱隔离性。传统的 UI 自动化方案重度依赖底层视图树（如

155

侠客工坊

深度拆解：侠客工坊如何利用普通手机算力构建 On-Device AI 智能体？

AIAI生态MCP边缘智能

随着 Cloud大语言模型（LLM）的参数量不断突破上限，一个现实的工程瓶颈浮出水面：云端 AI 拥有最强大脑，却缺乏在移动端操作系统（如 Android）直接执行跨应用任务的“物理抓手”。传统的 Android 自动化方案（如基于 AccessibilityService 的 XML 节点解析）由于其易碎性、高延迟以及对自绘引擎（Flutter/Unity）的无力感，难以承载 AI Agent

170

侠客工坊

【架构实践】边缘算力下沉：基于端侧多模态与端云协同的 Mobile Agent 调度引擎

AIAI解决方案移动开发分布式

随着多模态大模型的爆发，将 LLM 接入移动端打造 Mobile Agent 已成为行业共识。然而，在面对真实的业务场景（如跨应用数据处理、多设备并发调度）时，传统的“云端大模型+端侧截屏”方案不仅延迟极高，更会带来灾难性的带宽与算力成本。本文将以“侠客工坊”的技术实践为例，探讨如何利用边缘计算与端云协同架构，构建一个高可用、低延迟的移动端自动化执行引擎。目前业界尝试构建 Mobile Agent

145