大家好,我是刘聪NLP。
前阵子终于拿到了心心念念的豆包手机,狠狠爽玩了一下。
整体体验说实话非常不错,唯一比较遗憾的是,不少常用 App 都不能用,这点确实有点可惜。
但即便如此,AI手机这件事本身,已经足够让我兴奋了。
我拿到豆包手机做的第一件事,其实非常俗,就是让它帮我解决 上班打卡 的问题。。。
为了不漏信息,我用个人飞书简单模拟了一下流程。
实际上操作非常直接,只需要设置一个每日定时任务,把手机放在公司抽屉里,剩下的事情它自己就会完成。
对我来说十分挺刚需,
冬天实在太冷,又爱赖床,经常就差那么几分钟,结果要请一小时假,亏麻了。。
我跟我老婆说完之后,她立马要复购,解决她的打卡问题,哈哈哈
但问题马上就来了。
她公司用的不是飞书,是钉钉,没法用。 那就直接开始邪修,用GUI模型,复刻一下。
前段时间我其实已经分享过两篇 GUI 相关的文章,
为了节省资源,我们用前阵子分享的Step-GUI-edge(GELab-Zero-4B改名了), 详细如何ollama部署,ADB的安装,就看上一篇文章吧,很详细了,我这了就不再重复了。
用 GUI 模型解决打卡这类问题,本质上非常简单。只需要vibe一个定时任务,在指定时间调用对应的服务,即可。
很简单对不对,但有趣的事情发生了, 手机会熄屏。
一旦熄屏,外部自动化操作是无法重新解锁并输入密码,
而我的华为手机,竟然不允许一直亮屏,最长时常只有10min,
邪修来了,那就再写个脚本每9min开启打开一次软件就可以了,哈哈哈,虽然看起来很蠢。。。
当然,如果你的手机本身支持常亮,那这一段可以直接跳过。
当然其实上面的,跟上次share的差不多,就是简单的命令执行。
这次给大家带来一个有意思的,就是阶跃他们Step GUI还搞了一个MCP,
这意味着,
你可以用任何一个你信任的大模型,通过 MCP 去调用这个 GUI Agent,把它直接接入到你现有的 Agent 系统里,顺利10min就能快速部署完成。
更关键的是,
还在 MCP 层面把隐私边界这件事处理得很好,
返回给系统Agent的内容,是经过语义提取和摘要后的非敏感抽象信息流,
所有真实的界面操作,截图和敏感内容,都只发生在本地设备或者你信任的服务器上,根本不会外泄,
这件事的意义非常大,
它实际上解决了我们之前反复提到的一个矛盾,端侧 GUI 模型参数太小,智能不足,但如果直接因素数据交给云端大模型,你又不放心。
现在这条路径被拆开了,云端的大模型负责理解、规划和复杂决策,端侧的小模型只负责极其原子化、确定性的界面操作。
我们来看看,如何操作(默认code你已经 clone好了),
python ./mcp\_server/simple\_gelab\_mcp\_server\_withcaption.py
就成功了,
但你会发现,你用官方代码,MCP Inspector是不通的,你需要把最后一行的"http"改成"streamable-http"
想用MCP Inspector看,
npx @modelcontextprotocol/inspector node build/index.js
然后,装好之后,会自动跳链接,
然后你就可以把这个MCP配置到任何工具里, 我这了用cherrystudio,其他的也一样,配置任意一个大模型,就能调用
所以,有了这个MCP之后,你就可以接到n8n里,上面定时任务,你也不需要写代码了,直接做个定时的触发的工作流就可以,
我这里就不过多演示了。
还有,社区里已经开始出现很多二创玩法了,
比如,接入语音控制@小曹同学,
比如,机械臂联动@图图,
真正的高手,确实都在社区里,哈哈哈。
如果你自己也有一些有意思的 GUI 模型应用场景,欢迎在评论区一起交流。
PS:都看到这里了,来点个关注、点个赞吧!您的支持,是我最大的动力~
