最近玩GUI模型到上头，手搓打卡神器，附教程 - 文章 - 开发者社区

大家好，我是刘聪NLP。

前阵子终于拿到了心心念念的豆包手机，狠狠爽玩了一下。

picture.image

整体体验说实话非常不错，唯一比较遗憾的是，不少常用 App 都不能用，这点确实有点可惜。

但即便如此，AI手机这件事本身，已经足够让我兴奋了。

我拿到豆包手机做的第一件事，其实非常俗，就是让它帮我解决上班打卡的问题。。。

为了不漏信息，我用个人飞书简单模拟了一下流程。

实际上操作非常直接，只需要设置一个每日定时任务，把手机放在公司抽屉里，剩下的事情它自己就会完成。

picture.image

对我来说十分挺刚需，

冬天实在太冷，又爱赖床，经常就差那么几分钟，结果要请一小时假，亏麻了。。

我跟我老婆说完之后，她立马要复购，解决她的打卡问题，哈哈哈

但问题马上就来了。

她公司用的不是飞书，是钉钉，没法用。那就直接开始邪修，用GUI模型，复刻一下。

前段时间我其实已经分享过两篇 GUI 相关的文章，

为了节省资源，我们用前阵子分享的Step-GUI-edge（GELab-Zero-4B改名了），详细如何ollama部署，ADB的安装，就看上一篇文章吧，很详细了，我这了就不再重复了。

用 GUI 模型解决打卡这类问题，本质上非常简单。只需要vibe一个定时任务，在指定时间调用对应的服务，即可。

很简单对不对，但有趣的事情发生了，手机会熄屏。

一旦熄屏，外部自动化操作是无法重新解锁并输入密码，

而我的华为手机，竟然不允许一直亮屏，最长时常只有10min，

picture.image

邪修来了，那就再写个脚本每9min开启打开一次软件就可以了，哈哈哈，虽然看起来很蠢。。。

当然，如果你的手机本身支持常亮，那这一段可以直接跳过。

当然其实上面的，跟上次share的差不多，就是简单的命令执行。

这次给大家带来一个有意思的，就是阶跃他们Step GUI还搞了一个MCP，

这意味着，

你可以用任何一个你信任的大模型，通过 MCP 去调用这个 GUI Agent，把它直接接入到你现有的 Agent 系统里，顺利10min就能快速部署完成。

更关键的是，

还在 MCP 层面把隐私边界这件事处理得很好，

返回给系统Agent的内容，是经过语义提取和摘要后的非敏感抽象信息流，

所有真实的界面操作，截图和敏感内容，都只发生在本地设备或者你信任的服务器上，根本不会外泄，

这件事的意义非常大，

它实际上解决了我们之前反复提到的一个矛盾，端侧 GUI 模型参数太小，智能不足，但如果直接因素数据交给云端大模型，你又不放心。

现在这条路径被拆开了，云端的大模型负责理解、规划和复杂决策，端侧的小模型只负责极其原子化、确定性的界面操作。

我们来看看，如何操作（默认code你已经 clone好了），

  
python ./mcp\_server/simple\_gelab\_mcp\_server\_withcaption.py

picture.image

就成功了，

但你会发现，你用官方代码，MCP Inspector是不通的，你需要把最后一行的"http"改成"streamable-http"

picture.image

想用MCP Inspector看，

  
npx @modelcontextprotocol/inspector node build/index.js

然后，装好之后，会自动跳链接，

picture.image

然后你就可以把这个MCP配置到任何工具里，我这了用cherrystudio，其他的也一样，配置任意一个大模型，就能调用

picture.image

所以，有了这个MCP之后，你就可以接到n8n里，上面定时任务，你也不需要写代码了，直接做个定时的触发的工作流就可以，

我这里就不过多演示了。

还有，社区里已经开始出现很多二创玩法了，

比如，接入语音控制@小曹同学，

比如，机械臂联动@图图，

真正的高手，确实都在社区里，哈哈哈。

如果你自己也有一些有意思的 GUI 模型应用场景，欢迎在评论区一起交流。

PS：都看到这里了，来点个关注、点个赞吧！您的支持，是我最大的动力~