最近玩GUI模型到上头,手搓打卡神器,附教程

大模型机器学习算法

大家好,我是刘聪NLP。

前阵子终于拿到了心心念念的豆包手机,狠狠爽玩了一下。

picture.image

整体体验说实话非常不错,唯一比较遗憾的是,不少常用 App 都不能用,这点确实有点可惜。

但即便如此,AI手机这件事本身,已经足够让我兴奋了。

我拿到豆包手机做的第一件事,其实非常俗,就是让它帮我解决 上班打卡 的问题。。。

为了不漏信息,我用个人飞书简单模拟了一下流程。

实际上操作非常直接,只需要设置一个每日定时任务,把手机放在公司抽屉里,剩下的事情它自己就会完成。

picture.image

对我来说十分挺刚需,

冬天实在太冷,又爱赖床,经常就差那么几分钟,结果要请一小时假,亏麻了。。

我跟我老婆说完之后,她立马要复购,解决她的打卡问题,哈哈哈

但问题马上就来了。

她公司用的不是飞书,是钉钉,没法用。 那就直接开始邪修,用GUI模型,复刻一下。

前段时间我其实已经分享过两篇 GUI 相关的文章,

为了节省资源,我们用前阵子分享的Step-GUI-edge(GELab-Zero-4B改名了), 详细如何ollama部署,ADB的安装,就看上一篇文章吧,很详细了,我这了就不再重复了。

用 GUI 模型解决打卡这类问题,本质上非常简单。只需要vibe一个定时任务,在指定时间调用对应的服务,即可。

很简单对不对,但有趣的事情发生了, 手机会熄屏。

一旦熄屏,外部自动化操作是无法重新解锁并输入密码,

而我的华为手机,竟然不允许一直亮屏,最长时常只有10min,

picture.image

邪修来了,那就再写个脚本每9min开启打开一次软件就可以了,哈哈哈,虽然看起来很蠢。。。

当然,如果你的手机本身支持常亮,那这一段可以直接跳过。

当然其实上面的,跟上次share的差不多,就是简单的命令执行。

这次给大家带来一个有意思的,就是阶跃他们Step GUI还搞了一个MCP,

这意味着,

你可以用任何一个你信任的大模型,通过 MCP 去调用这个 GUI Agent,把它直接接入到你现有的 Agent 系统里,顺利10min就能快速部署完成。

更关键的是,

还在 MCP 层面把隐私边界这件事处理得很好,

返回给系统Agent的内容,是经过语义提取和摘要后的非敏感抽象信息流,

所有真实的界面操作,截图和敏感内容,都只发生在本地设备或者你信任的服务器上,根本不会外泄,

这件事的意义非常大,

它实际上解决了我们之前反复提到的一个矛盾,端侧 GUI 模型参数太小,智能不足,但如果直接因素数据交给云端大模型,你又不放心。

现在这条路径被拆开了,云端的大模型负责理解、规划和复杂决策,端侧的小模型只负责极其原子化、确定性的界面操作。

我们来看看,如何操作(默认code你已经 clone好了),

  
python ./mcp\_server/simple\_gelab\_mcp\_server\_withcaption.py  

picture.image

就成功了,

但你会发现,你用官方代码,MCP Inspector是不通的,你需要把最后一行的"http"改成"streamable-http"

picture.image

想用MCP Inspector看,

  
npx @modelcontextprotocol/inspector node build/index.js  

然后,装好之后,会自动跳链接,

picture.image

然后你就可以把这个MCP配置到任何工具里, 我这了用cherrystudio,其他的也一样,配置任意一个大模型,就能调用

picture.image

所以,有了这个MCP之后,你就可以接到n8n里,上面定时任务,你也不需要写代码了,直接做个定时的触发的工作流就可以,

我这里就不过多演示了。

还有,社区里已经开始出现很多二创玩法了,

比如,接入语音控制@小曹同学,

比如,机械臂联动@图图,

真正的高手,确实都在社区里,哈哈哈。

如果你自己也有一些有意思的 GUI 模型应用场景,欢迎在评论区一起交流。

PS:都看到这里了,来点个关注、点个赞吧!您的支持,是我最大的动力~

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
veRL for Training Coding Agent
随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论