不止 Computer Use,AI 的「Phone Use」时刻也来了

大模型关系型数据库智能应用

picture.image

相比于电脑,「放不下」的手机陪伴我们的时间更长,离我们的生活更近。

如果说「Computer Use」开启了人机交互的新范式,那么「Phone Use」则更进一步,解锁更多应用的可能性,让 AI 真正惠及每一个人。

今天,基于 GLM 技术团队在语言模型、多模态模型和工具使用方面的努力和研究成果,我们推出 GLM 第一个产品化的智能体(Agent)—— AutoGLM,只需接收简单的文字/语音指令,它就可以模拟人类操作手机 ,进而帮你:

  • 在微信上「给老板的朋友圈点赞并写评论」……

  • 在淘宝上「购买某一款历史订单产品」……

  • 在携程上预订酒店……

  • 在 12306 上购买火车票……

  • 在美团上点个外卖......

先看一个短片:

AutoGLM 的应用场景还远不止于此。

理论上,通过对 GUI 的深刻理解,AutoGLM 可以完成人类在可视化电子设备(电脑,手机,平板……)上能做的任何事。

它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常生活、工作中辅助人类。

项目地址:https://xiao9905.github.io/AutoGLM

体验

这一次,我们依旧不发「期货」,大家可以通过:

  1. Chrome 或 Edge 安装「智谱清言」插件 ,来体验 AutoGLM-Web。「智谱清言」插件是一个能模拟用户访问网页、点击网页的浏览器助手,大模型可以根据用户指令在网站上自动完成高级检索、总结与内容生成。

  2. 在手机端,首批开放给部分清言用户(暂时仅支持安卓系统), 欢迎大家提交内测申请 。值得一提的是,我们 也与荣耀等手机厂商基于 AutoGLM 开展深度合作

picture.image

AI 的「phone use」时刻,让我们在通往通用人工智能(AGI)的道路上,再次向前迈了一小步。

AutoGLM 技术

AutoGLM 基于智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」,克服了大模型智能体任务规划和动作执行存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题,加之自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。就像一个人,在成长过程中,不断获取新技能。

AutoGLM 解决了大模型作为智能体时的两个关键挑战:

挑战一:「动作执行」不够精确

训练大模型智能体的一大难题,在于如何让模型学会精准地操作屏幕上显示的元素。端到端训练联合训练「动作执行」和「任务规划」能力,受制于轨迹数据获取成本高昂,数据总量严重不足,导致需要高精度的动作执行能力训练不充分。

为了解决这一问题,AutoGLM 引入了「基础智能体解耦合中间界面」设计,将「任务规划」与「动作执行」两个阶段通过自然语言中间界面进行解耦合,实现了智能体能力的极大提升。例如,在手机上点外卖,需要点击「提交订单」按钮时,对比传统和「中间界面」方案如下:

picture.image

挑战二:「任务规划」不够灵活

另一个主要挑战在于,GUI 智能体训练轨迹数据极其有限和成本高昂。而且在面对复杂任务和真实环境时,智能体需要具备灵活的即时规划和纠正能力。这并非能通过例如模仿学习(Imitation Learning)和有监督微调(SFT)等传统大模型训练方法所能轻易获得。为此,我们以 Web 浏览器作为实验环境,研发了一种「自进化在线课程强化学习框架」以在真实在线环境中,从头开始学习和提升大模型智能体在 Web 和 Phone 环境中的能力。

通过引入自进化学习策略,模型不断自我考察、鞭策、提升。通过课程强化学习方法,该框架根据智能体当前迭代轮次的能力水平,动态调整学习的任务难度,以最大程度利用模型潜能。而通过 KL 散度控制的策略更新以及智能体置信度经验回放,我们减轻和避免了迭代训练中出现模型遗忘先前学习任务的问题。基于该方法训练的开源版 GLM-4-9B,就可以在 WebArena-Lite 评测基准中相对 GPT-4o 提升超过 160%,达到总体 43% 的任务成功率。

通过综合应用智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」策略,AutoGLM 在 Phone Use 和 Web Browser Use 上都取得了大幅的性能提升。例如,在 AndroidLab 评测基准上,AutoGLM 就显著超越了 GPT-4o 和 Claude-3.5-Sonnet 的表现。

picture.image

在 WebArena-Lite 评测基准中,AutoGLM 更是相对 GPT-4o 取得了约 200% 的性能提升,大大缩小了人类和大模型智能体在 GUI 操控上的成功率差距。

picture.image

AutoGLM 现以通过安卓应用的方式,在真实的安卓手机支持多个应用上的自动化任务执行。在简单任务的人工评测中,AutoGLM 表现令人满意。

picture.image

更详细的技术报告将在之后公布。

picture.image

0
0
0
0
关于作者
相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论