2025进入Agent开发的热度快速升温,OpenAI先前已经发布了Deep Research、Operator这样的Agent产品,但迟迟没有面向开发者提供Agent构建能力,而多agent构建的框架swarm也仅仅是一个原型展示版本(Swarm:一个OpenAI开源的multiAgent框架,简单哲学的代表),但开发者对Agent的热情,不得不让OpenAI加速了开放API的进程,今日凌晨,宣布推出一系列Agent构建API和SDK,以帮助开发者构建自定义智能体。Agent API 即 响应 API
(opens in a new window)
,内置了网络搜索工具、文件搜索工具以及计算机使用工具。
网络搜索工具允许模型访问互联网上的实时数据,提供最新和事实性的响应。这一工具与 ChatGPT 搜索相同,背后由一个经过微调的模型驱动,能够高效地检索网络数据,查找相关信息和引用。 GPT-4o 搜索预览在 SimpleQA 基准测试中达到了 90% 的准确率,这是一个令人瞩目的成就。
文件搜索工具则适用于与智能体相关的 RAG(检索增强生成)场景,支持元数据过滤和直接搜索端点,可以直接对接现有向量数据库。
计算机使用工具则类似于通过 API 可用的 Operator,允许您控制操作的计算机,并配备了计算机使用模型,其性能达到了SOTA水平。
此外,响应 API(Response API),与传统的聊天完成 API (chat completions API)不同,这个新的 API 足够灵活,可以支持多轮对话和工具的原生使用。响应 API 是聊天完成 API 支持的超集,可以与文件搜索等工具配合使用,以便形成统一的接口便于迁移和开发。而对话完成API也将计划在2026年废弃。
OpenAI 还决定将他们的智能体编排框架 Swarm 打造成更适合生产的版本,并将其重新命名为 Agents SDK 。这个开源的 SDK 支持开箱即用的多智能体构建,并且支持监控和追踪,便于调试智能体。
开发者可以通过 Python SDK 快速集成这些工具: pip install openai-agents
。 JavaScript 版本即将推出。
同时,Agents SDK 支持开箱即用的监控和跟踪UI,便于调试Agentic Workflow。除此之外,还提供包括护栏和生命周期事件回调等能力。
OpenAI推出构建Agent应用的API和SDK即是本身规划中的日程,也是近来日趋激烈的竞争和LLM应用开发趋势推动,它之前发布的聊天完成API已经是行业构建ChatBot的标准,现在响应API 和Agent SDK 的推出也是想要继续保持现有优势的关键举措,但由于OpenAI日趋缩小的优势,以及当前已有的Agent生态,能否继续维持以OpenAI为中心的开发生态标准就有了一定的悬念,接下来就看各个厂商是否跟进适配,对于那些已经上路的Agent开发者是否推倒跟进也成了新的选择题。
有关manus的思考:传统浏览器的回光返照!AGI应用到底将以什么形式出现?
新书推荐:
公众号回复“进群”入群讨论。