自主 agent 的「一小步」：今天，把电脑交给大模型 - 文章 - 开发者社区

picture.image

像人类一样感知环境、规划任务、执行动作（如使用工具/软件），最终完成特定任务，是人工智能行业的下一个前沿发展方向，也是迈向通用人工智能（AGI）、超级智能（Super Intelligence）的必由之路。

现在奇点已经临近。

我们基于在大语言模型（GLM 系列模型）、多模态模型和工具使用（Cog 系列模型）等方面的探索，在由自主智能体（Agent）驱动的人机交互新范式方面取得了一些阶段性成果：

基于CogAgent的应用：

基于AutoGLM-Web的应用：

上面这些工作，主要基于以下两项研究：

1、CogAgent： 一个替代终端用户 理解、使用图形用户界面（GUI） ，完成 信息获取 和 功能触发 的智能体，更具泛化性和拟人性，目前支持在 Windows、macOS 软件上进行自然语言交互（包括打字输入和语音输入）、截图交互和划词交互；

2、AutoGLM-Web： 一个能 模拟用户访问网页 、 点击网页的浏览器助手 ，可以根据用户指令在私域网站上 完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页 ，结合历史邮件信息回复邮件。

目前，CogAgent 已经在智谱公司内部和部分合作伙伴中使用，AutoGLM-Web 已经 通过「智谱清言」插件对外开放使用 。

CogAgent 和 AutoGLM-Web 是智谱构建 GLM-OS（以大模型为中心的通用计算系统）的不同尝试，尽管基于不同的技术路线，但两者均瞄向同样一个目标：实现模仿人类的 Plan-Do-Check-Act 循环，形成自我反馈和自我提升——恰如人类自己所做的一样。

Co gAgent：Our Computer Use

早在去年 12 月，我们便提出 CogAgent ：

论文： https://arxiv.org/abs/2312.08914

Demo： http://36.1 03.203.44:7861/

代码： https://github.com/THUDM/CogVLM

模型：

Huggingface：https://huggingface.co/THUDM/cogagent-chat-hf

魔搭社区：https://modelscope.cn/models/ZhipuAI/cogagent-chat

CogAgent 具备视觉问答、视觉定位（Grounding）、GUI Agent 等多种能力，可以在不依赖 API 调用的条件下，实现跨应用、跨网页的功能调用来执行任务。

基于我们推出的多模态模型 CogVLM，可以在不牺牲任何 NLP 任务性能的情况下，实现视觉语言特征的深度融合。

picture.image

图｜CogAgent 的模型架构

在现有研究基础上，我们力求突破。目标是以CogAgent为核心，打造一个能全面理解并使用通用GUI的模型，实现现有应用到新型交互界面的自动转换。

发布于CVPR （2024年6月）

目前，CogAgent 已经可以通过串联GUI信息的收集、处理、分发流程，提供多轮、跨应用、上下文相关的服务，来协助用户处理以下事项：

1、用户“不想做”的事： 包括重复繁琐的GUI操作（如批量信息收集、会议预定）和复杂认知活动（如界面内容总结）。

2、用户“不知道”的事： 涵盖困难或不熟悉的GUI操作（如首次使用应用或功能）及超出用户认知能力的任务（如界面内容翻译）。

此外，我们还为CogAgent开发了 “虚拟屏幕”功能 ，确保在信息搜集过程中不干扰用户使用电脑，并避免采集主屏幕信息，以保护用户隐私。

整体而言，相比于传统方法，CogAgent 能够感知多模态交互信息、并据此执行对应的 GUI 任务，同时打破信息间的隔离，串联信息的收集、处理和分发，极大地降低了终端用户的交互负担。

一句话操控电脑的时代，即将到来。

AutoGLM-Web：帮你网上冲浪

长久以来，人们已经习惯于通过搜索框来查找资料。

我们能否提出需求后，让大模型帮我们去执行所有网页操作？

我们最近研发了 AutoGLM 模型，该模型能够在仅接收简单的文字/语音指令，就可以模拟人类与电子设备的交互方式，完成给定任务。

例如在GitLab上，搜索项目，并自动给项目的merge request进行评论；在小红书/知乎/知网等平台进行检索、筛选、打开网页、阅读并总结；一次性快速浏览多个网页等。

AutoGLM-Web 基于「 自进化在线课程强化学习框架 WEBRL 」，克服了训练任务稀缺、反馈信号稀少和策略分布漂移等网页智能体研究和应用难题，加之自适应学习策略，能够在迭代过程中不断改进、持续稳定地提高自身性能。

picture.image

据我们所知， WEBRL 是第一个能够让 LLM 网页智能体在在线网络环境中从初始化开始就进行有效强化学习的系统性框架 。

理论上，基于 WEBRL 的强大能力，AutoGLM-Web 可以完成人类在电子设备上可以做的任何事，它不受限于简单的任务场景或 API 调用，也不需要用户手动搭建复杂繁琐的工作流，操作逻辑与人类类似，真正做到在日常，生活、工作中辅助人类。

作为其能力的体现，我们将 AutoGLM-Web 嵌入到「智谱清言」插件对外开放使用。

picture.image