论文题目:OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
论文链接:https://arxiv.org/pdf/2402.07456.pdf
Github:https://os-copilot.github.io
介绍了一个名为OS-Copilot的框架,
旨在构建能够在操作系统(OS)中与各种元素交互的通用智能体(agents),包括网络、代码终端、文件、多媒体以及各种第三方应用程序
。OS-Copilot通过提供一个通用接口来加速在Linux和MacOS上构建计算机智能体,这个接口整合了操作系统操作的常见实践,如Python代码解释器、bash终端、鼠标/键盘控制和API调用。
OS-Copilot框架概览
基于OS-Copilot框架,研究者们创建了一个名为FRIDAY(Fully Responsive Intelligence, Devoted to Assisting You)的自我改进智能体,它能够无缝集成到操作系统中,自动化计算机任务。FRIDAY通过自我指导学习(self-directed learning)模块,能够自主提出关于不熟悉应用程序的任务课程,并通过解决这些任务来学习控制这些应用程序。在GAIA(一个通用AI助手基准测试)上,FRIDAY在最易级别的任务中取得了40.86%的成功率,比之前的最佳系统提高了35%,在最困难的任务中也取得了6.12%的成功率。
FRIDAY在MacOS上部署并执行任务的运行示例,包括a、准备一个专注的工作环境,b、在Excel中进行计算和绘制图表,以及c、为OS-Copilot创建一个网站
论文还展示了FRIDAY在Excel和PowerPoint上的自我指导学习能力,即使在最初无法完成任务的情况下,通过自我学习,FRIDAY能够达到60%的成功率,甚至超过了专门设计用于电子表格控制的最先进的模型。OS-Copilot框架和FRIDAY的实证发现为未来研究更有能力和通用的计算机智能体提供了基础设施和见解。
FRIDAY执行构建PowerPoint幻灯片任务的示意图
此外,论文还讨论了OS-Copilot的局限性,包括对提示工程的依赖以及在面对封闭源应用程序时的不足。 研究者们提出了未来的研究方向,包括在强化学习和微调方面的挑战、多模态能力的扩展、评估通用计算机智能体的挑战、以及确保系统的透明度、可解释性和安全性。
推荐阅读
- • TinyGPT-V:小而强大,轻量级骨架打造高效多模态大语言模型
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • 2023年最新LLM发展时间线一览(ChatGPT、LLaMA等)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
