AI Agent领域已经从早期的“技术演示”阶段,进入了“产品化落地”的激烈竞争阶段。
相关从业者该如何跟随或者借鉴优秀 AIAgent 框架的设计思路呢?希望这篇文章能给您一些启发。
以下是目前市场上最具代表性的几类典型玩家。
Manus
核心定位/特点:高性能浏览器原生 Agent:速度快、执行可靠、UI 流畅,深度集成浏览器,对网页自动化有优势。
主要应用场景:复杂网页自动化、数据抓取与整合、跨 Web App 操作。
MultiOn
核心定位/特点:个人 AI 生活助理:浏览器原生,专注多步骤现实任务(订票、购物、预约),打造“万能私人助理”。
主要应用场景:个人生活任务自动化、在线购物比价、旅行规划与预订。
Adept
核心定位/特点:企业级软件自动化专家:聚焦企业内部复杂系统(Salesforce、Oracle、Excel)的深度连接与操作。
主要应用场景:企业流程自动化(E-RPA)、数据同步、跨软件协作、报告生成。
LangChain / LlamaIndex
核心定位/特点:开发者框架(非终端产品),为构建各类 Agent 提供“军火库”和“脚手架”。
主要应用场景:供开发者构建自定义 AI Agent 应用。
我们能很明显看到AIAgent市场正在分化。
从结果上可以看到,以Manus和MultiOn在通用浏览器自动化赛道上领跑,而Adept则瞄准了更高价值的企业市场。
所有这些产品的背后,都离不开开发者框架的支撑。
早期的Auto-GPT之所以“不好用”,是因为它空有“大脑”(LLM),却没有经过优化的“身体”和“神经系统”。
像Manus这样的新一代Agent之所以强大,关键在于它们在以下几个方面做了大量的优化。
性能与速度优化:模型级联(Model Cascading)
如果所有步骤都用最强的模型(如GPT-4o),响应会非常慢且成本高昂。方法就是,采用模型级联策略。
简单理解就是专人专用,简单任务普通模型,高级任务上贵的。
当然这部分 AIAgent 平台是不会暴露他们每个阶段使用的模型的。
- 第一层(意图理解):
使用一个极快、极便宜的小模型(如Claude 3 Haiku或本地轻量模型)来快速解析用户的初始指令(例如“帮我订一张去上海的机票”)。
- 第二层(规划与拆解):
使用一个中等模型来将复杂任务拆解成一系列可执行的子步骤
(1.打开航旅App -> 2.输入目的地 -> 3.选择日期...)。
- 第三层(复杂推理/执行):
只有在遇到需要复杂推理或与不确定环境交互的关键步骤时,才调用最强大的模型(如GPT-4o或Claude 3 Opus)。
Manus的响应速度远快于单纯调用大模型的Agent。这表明它极有可能在内部使用了高效的模型级联和调度系统,将“好钢用在刀刃上”。
- 可靠性优化:计划-执行-验证-修正(PEVC Loop)
-
问题: Agent在执行网页操作时,经常因为页面加载延迟、UI变化等原因而失败或“卡住”。如何才能自动修复和修正呢?
-
优化策略: 列出清单,实施严格的闭环验证与修正机制。
这是一个使用 Manus 创建网站的任务。Manus 拆解任务后,创建了一个 todo.md 的任务清单。每一项任务完成后,才会执行下一项。然而,并不是每一项任务都能一把过,所以,单任务节点有 执行-验证-修正 的过程。
1- Plan (计划): “我计划点击‘下一步’按钮。”
2-Execute (执行): 执行点击操作。
3-Verify (验证): (这是关键) 点击后,Agent会立刻检查网页状态,验证操作是否达到了预期效果。“我预期的页面标题是‘确认订单’,现在的页面标题是吗?”
4-Correct (修正): 如果验证失败(例如页面没跳转),Agent不会卡住,而是会启动修正流程:“点击失败,我将尝试另一种方法,比如通过ID定位按钮再次点击,或者刷新页面。”
Manus的体现: Manus在演示中能流畅地处理复杂的网页流程,这背后必然有一套强大的状态验证和自修正逻辑,确保了其在动态环境中的高执行成功率。
- 用户体验优化:人机协同(Human-in-the-Loop)
-
问题: 一个全自动的“黑盒”Agent会让用户感到失控和不信任。
-
优化策略: 将Agent从一个“全自动工具”设计成一个“交互式助手”。
-
可视化执行过程: 在界面上清晰地展示Agent的“思考过程”、当前步骤和总体计划,让用户一目了然。
- 关键节点确认: 在执行敏感操作(如“确认支付”、“删除文件”)或者需要确认信息前,主动暂停并请求用户授权或者确认。
- 允许中途干预: 用户可以随时暂停Agent,并给出新的指令来修正其行为。
Manus的UI设计非常出色,它会在网页上高亮显示当前正在操作的元素,并用简洁的语言描述自己的意图,用户感觉像是在和一个透明的、可控的伙伴一起工作。
- 环境理解优化:专有模型与环境特化
-
问题: 通用LLM并不擅长理解特定环境的“语言”,比如网页的DOM结构。
-
优化策略: 训练或微调专有的小模型来处理特定环境。
-
浏览器Agent: 训练一个专门用于理解网页DOM结构、识别可交互元素(按钮、输入框)并进行“视觉定位”的模型。这个模型不需要懂莎士比亚,但它必须是全世界最懂HTML和CSS的“专家”。
-
API Agent: 训练一个专门理解OpenAPI/Swagger文档,并能自动生成和调用API请求的模型。
-
Manus的体现: 作为浏览器原生Agent,Manus的核心护城河之一很可能就是它拥有一个高度特化的、用于网页理解的内部模型。这使得它在解析和操作网页时的准确性和效率,远超那些仅仅把网页HTML作为文本喂给通用LLM的Agent。
像Manus这样的顶级AI Agent,其成功秘诀已经不再是“连接了哪个强大的LLM”,而是在于如何通过一系列复杂的工程和产品优化策略,构建一个高效、可靠、可信的“神经系统”,来驾驭那个强大的“大脑”。
对于想进入这个领域的玩家来说,理解并实践这些优化策略,远比单纯地追求更大的模型要重要得多。
接下来,我们先分分类,区分两种类型的应用。
一个是Dify/n8n这类低代码/无代码平台;
LangChain这类代码优先框架。在构建AI Agent时,借鉴头部玩家策略的思路和方法有很大不同。
我们来展开讲讲。
1-在Dify / n8n 中借鉴高级策略
关键字, “编排”与“连接”。
它们的核心优势在于可视化和易用性。你像一个“交通指挥官”,通过拖拽节点来设计数据和逻辑的流向。
限制非常明显:你无法轻易改变每个节点(如LLM调用、HTTP请求)的底层行为。你是在使用平台提供的积木,而不是制造积木。更多地是通过巧妙的工作流设计来“模拟”或“仿真”高级策略。
在这些平台中,你的目标是利用现有的节点,创造性地组合出高级工作流。
1. 模型级联 (Model Cascading) - 可实现 ✅
可以在不牺牲处理复杂任务能力的前提下,大幅降低简单、高频任务的成本和延迟。
-
第一步(分类/路由节点): 使用一个速度快、成本极低的LLM节点(例如,在n8n中配置使用Groq的Llama3-8b,或Dify中选择的快速模型)。让它只做一个简单的任务:意图分类。例如,判断用户请求是“简单查询”、“复杂分析”还是“执行操作”。
-
第二步(Switch/If节点): 使用平台提供的逻辑判断节点。根据第一步输出的分类结果,将工作流导向不同的分支。
-
第三步(分支处理):
-
“简单查询”分支连接到一个普通的API调用或知识库检索节点。
-
“复杂分析”或“执行操作”分支,才连接到昂贵但强大的LLM节点(如GPT-4o或Claude 3 Opus)。
2. 计划-执行-验证-修正 (PEVC Loop) - 仿真实现 ⚠️
这是在低代码平台中最难完美实现的策略,但可以仿真。
- Plan (计划): 一个LLM节点,输出一个包含多个步骤的JSON数组或文本计划。
- Execute (执行): 使用“Split in Batches”或“Loop”节点,对计划中的每一步进行循环。在循环内部,执行相应的操作(如HTTP请求)。
- Verify (验证): 这是关键。在执行节点后,紧跟一个“If”节点。验证的逻辑可以很简单(如:HTTP请求的statusCode是否为200),也可以很复杂(用一个Code节点检查返回的数据是否包含特定关键词)。
- Correct (修正): 如果“If”节点验证失败,将工作流导向一个“修正分支”。这个分支可以是一个LLM节点,它接收错误信息并重新生成计划,或者只是简单地向人工发送一条告警(如Slack通知)。
但是,这种循环和条件分支会让你的工作流变得非常庞大和复杂,像一张“意大利面条”,难以维护。它无法像代码一样实现优雅的、状态化的自我修复。
3. 人机协同 (Human-in-the-Loop) - 平台优势 ✅
这是Dify和n8n的强项。
-
Dify: 在Agent编排中,可以直接插入“人工审核”节点。
-
n8n: 可以使用“Wait”节点,或者设计一个工作流,在关键步骤(如付款前)通过Slack/Email节点向指定人员发送一个包含“批准”和“拒绝”链接的消息。工作流会暂停,直到收到回调。
对于处理敏感、高风险任务的Agent,这是确保安全和用户信任的必备功能,而低代码平台让实现这一点变得异常简单。
4. 环境特化 (Environment Specialization) - 仿真实现 ⚠️
你无法训练专有模型,但可以特化模型的“输入”。
-
高度优化的提示词工程: 在LLM节点中,使用极其详细的、包含大量上下文和“Few-Shot”示例的提示词模板。例如,在处理网页时,不要把整个HTML丢给LLM,而是先用Code节点(或专门的HTML提取节点)提取出关键信息(如、标签),然后将这些结构化信息喂给LLM。
-
知识库作为“外挂大脑”: 将特定领域的知识(如公司内部API文档)灌入Dify的知识库。Agent在执行任务时,会优先从这个“特化大脑”中检索信息,而不是依赖通用LLM的模糊记忆。
2- 在 LangChain 中借鉴高级策略
LangChain它提供的是一套高度灵活、可组合的“乐高零件”(模块、链、工具)。
问题是,上手门槛高,需要扎实的编程能力。所有逻辑都需要自己用代码实现。
好处是,你可以从根本上实现甚至创新这些高级策略,拥有完全的控制权。
在LangChain中,你拥有完全的自由度,可以从底层构建这些策略。
1. 模型级联 (Model Cascading) - 原生实现 ✅
使用LangChain表达式语言(LCEL)中的RunnableBranch。你可以轻松构建一个逻辑链,它接收输入,由一个快速模型处理,然后根据结果,将处理权无缝地交给不同的、使用更强模型的子链。代码逻辑清晰,维护性远超可视化工作流。
2. 计划-执行-验证-修正 (PEVC Loop) - 核心优势 ✅
这是LangChain(尤其是LangGraph库)的“杀手级”应用场景。你可以构建出真正意义上鲁棒(Robust)的Agent,而不是一个只能“一次性”尝试的脆弱脚本。
LangGraph这个库就是为了构建有状态、可循环的Agent而生的。你可以将“Plan”、“Execute”、“Verify”、“Correct”定义为图中的不同节点。Agent的状态(如已尝试次数、历史错误)可以在图的循环中被持续跟踪和更新。这使得构建一个能从失败中学习、不断尝试直到成功的复杂Agent成为可能。
3. 人机协同 (Human-in-the-Loop) - 灵活实现 ✅
在代码中实现暂停和等待非常简单。
-
命令行工具: 一个简单的input("请确认下一步操作:")就能实现。
-
Web应用: 可以将Agent的状态持久化到数据库中,执行到需要人工确认的步骤时,API返回一个“待确认”状态。前端轮询或通过WebSocket接收到这个状态后,展示确认按钮。用户点击后,再调用另一个API端点来继续执行。LangChain的回调(Callbacks)机制也为这类操作提供了便利。
4. 环境特化 (Environment Specialization) - 终极实现 ✅
- 微调(Fine-tuning)专有模型: 这是最强大的方式。
你可以使用Hugging Face等库,在一个开源模型(如Llama 3)的基础上,用你特定领域的数据(如几千个网页DOM结构和对应操作的示例)进行微调。然后,将这个微调过的、小而精的“专家模型”作为自定义LLM集成到LangChain中,专门负责环境理解。
- 构建高度专业的工具(Tools):为Agent创建一系列极其专业的工具。例如,与其给Agent一个通用的requests工具,不如创建一个Salesforce_API_Tool。这个工具的内部代码封装了所有关于Salesforce认证、数据结构、错误处理的复杂逻辑。LLM的任务从“思考如何调用API”简化为“知道何时调用这个高度可靠的工具”。
如果你想快速验证一个商业想法,尤其是那些涉及多个SaaS应用连接的工作流,请从Dify或n8n开始。利用它们在“模型级联”和“人机协同”上的优势,快速搭建一个MVP。
当你的Agent业务被验证,但你发现它的可靠性(经常失败)和智能性(无法处理复杂环境)成为瓶颈时,就是转向LangChain的最佳时机。利用LangGraph和自定义工具,从根本上解决这些问题,构建你的核心技术壁垒。
