从扣子,看 AI Agent 产品开发范式演进

大模型向量数据库云通信

本播客由扣子空间(coze.cn)一键生成

得益于推理模型的诞生及能力性能提升,Agent 解决问题的能力进一步增强。扣子作为一个专注 Agent 的产品, 早在2024年2月上线国内版本。在短短的一年多时间里,扣子见证了 AI Agent 开发范式的持续演进迭代,从野蛮生长的状态快速进化成为了精耕细作的系统化工程方法。扣子空间(space.coze.cn),也正是在这样的工程方法加持下快速诞生的新产品。

本文将带领大家,从扣子的视角,看 AI Agent 产品开发范式演进。

AI Agent 开发范式演进的三重阶段

初期:好奇心驱动下的野蛮生长

关键词:娱乐化、碎片化、实验性

自2023年大模型爆火后,“Agent”、“智能体”作为新鲜事物, 快速引起了大家强烈的好奇心。如何开发智能体的话题,成为了科技博主的流量密码。由于泛娱乐的场景最能吸引 C 端用户的眼球,所以这个阶段的智能体很多以社交、娱乐、个人提效作为切入点,各方脑洞大开,涌现了很多创意十足的智能体,譬如:角色扮演的陪聊、星座占卜、游戏NPC、段子生成等等;

picture.image

在扣子开发平台(coze.cn/studio)的低代码环境下, 通过 Prompt Engineering + 插件 + LLM 就能在几分钟内快速“捏”出一个智能体,使得智能体的搭建快速渗透到各类用户群体。但在这个阶段,由于大模型存在幻觉,智能体的输出存在随机性、不可控的问题,无法很好地承载严肃场景的需求。

探索期:严肃场景下的流程革命

关键词:Workflow 化、场景闭环、稳定性

从 2024 年中开始,扣子平台上越来越多的开发者对严肃场景有了更强烈的诉求,希望利用 Agent 真正解决一些实际工作和业务中的具体问题。这个阶段的开发者进入了探索期,开始探索 Agent 的实用性, Agent 从“好玩”向“好用”迈进。

picture.image

在这样的需求下,Agent 开发范式也做了进一步升级,从单轮对话升级到多步骤任务流,如一些智能客服的场景;从单人构建 Agent 升级到团队协作构建 Agent;而在 Agent 形态上也更趋多元化,从简单的 ChatBot 到更丰富的 GUI/LUI 应用形态。

在技术特征上,基于 LLM 的意图识别和流程控制成为主流,同时因为交互形态的升级,需要一套 UI Builder 组件,高效的构建产品界面和交互。

爆发期:系统工程的精耕时代 ,诞生 AI Agent 开发新范式

关键词:全生命周期

2025 年伊始,AI Agent 真正进入爆发期,Agent 的热度进一步增加。随着 Agent 能解决的问题越来越多和越来越复杂。Agent 的开发工作真正驶向深水区,不再只是搭建,而是要持续的优化、迭代和全生命周期运营。

picture.image

一个 Agent 的全生命周期,分为这四个阶段:

Agent 开发: 包括 Prompt Engineering、Workflow 编排、知识库搭建、MCP,或者完全基于 Full Code 构建。

效果评测: 开发完成后,要通过评测来量化 Agent 效果,看 Agent 是否达到一个准出的标准。准出后 Agent 发布上线,获得线上流量。

线上观测: Agent 在线上运行后,我们要持续不断的对线上运行情况保持关注,将线上数据采集回流下来,并通过一些指标看板、Query 分析等了解整体,通过 Trace 等发现 Bad Case 和定位问题,给后续迭代调优一些输入。

效果优化: 基于线上的 Bad Case 做下钻分析后,引导对 Agent 做进一步的迭代优化,比如 Prompt 的优化,比如将 Trace 经过人工清洗标注后沉淀为训练集,做模型 SFT。

AI Agent 开发新范式

在新的开发范式下,开发者的精力将会从过去的侧重开发转向“开发+调优”并行投入的模式,本文着重分享一下效果评测、线上观测、效果优化。

效果评测

为了做好效果评测,需要构建评测体系,就是让 AI Agent 效果可量化。比如,在上学期间,如何评价每个学生学的好与不好,如何量化每个学生的能力?答案是:考试。类似的, AI Agent 的效果评测也可以理解为考试,考试分为三个部分组成:考卷、学生答卷、老师阅卷。

picture.image

Agent 的评测也对应分为三部分组成:评测集、评估器、评测执行。

评测集即为考卷,包括Query、参考答案(可选)等组成;评测执行即考试,Agent 根据评测集的 Query 做执行,拿到实际输出;

评估器即为阅卷老师,在评估阶段,最重要的是评估器,评估器有多种方式,一般来说分为人评、代码评估、大模型评估(LLM as a Judge)。人评相对准确率会高一些,但效率和成本也会更高;代码评估更适合一些基于规则可以用代码写出来的评估;大模型评估效率最高,但需要写一个高质量的 Prompt 。

测评执行即是阅卷过程,阅卷老师根据评测集的 Query、参考答案(可选)、Agent 的实际输出,再结合评测标准,判断 Agent 的输出是否符合预期,并给出分数。

Agent 评测并不仅仅是最后端到端的评测,应该贯穿到 Agent 开发的各个阶段,从模型选型,到原型验证,到迭代开发、生产部署等等阶段。

线上观测

一般来说 可观测包括如下三部分组成, Trace、Metrics、Analysis。

AI Agent 的运行过程中会产生运行数据,这些运行数据可以基于统一协议,如 Open Telemetry,上报到平台,沉淀为Trace。一条 Trace 就是一次 Query&Answer的一轮交互。每条 Trace 里又包含多种 span 组成,即节点,如模型调用的 span、插件执行的 span、retrieve 的 span 等等。基于 Trace,我们又可以通过 ETL 进一步清洗为 Metrics,并通过指标看板的形式展现给消费者,如 TTFT、TPOT、Token 消耗、Score,等等。最后基于线上 Trace 和指标,我们又可以进一步下钻分析 Bad Case、分析 Query 分布、给出线上运行预警,等等。

picture.image

AI Agent 在线上运行过程中会遇到各种各样的问题,比如幻觉、不符合预期的输出、安全合规问题、多轮交互中的复杂度问题等等。针对这些问题,都需要有一个可观测平台来帮助开发者发现问题,定位问题。

效果优化

而经过评测和观测,下一步就是如何基于线上数据构建 AI Agent 效果优化的数据飞轮。我这里以模型优化为例子讲述数据飞轮的构建,线上 Trace 数据经过上报后并经过评估,区分为 Good Case 和 Bad Case,Good Case 可以直接沉淀为训练集,并作为模型蒸馏 或者 self-training的训练数据进行 sft。而 Bad Case 可以经过人工标注后生成 Ground Truth,并沉淀为模型微调的训练集,对模型进行定向效果纠偏。模型训练完成并准出后,部署到线上,再进一步收集数据,进入下一个迭代循环。

picture.image

关于扣子罗盘

扣子在今年4月份进行了品牌升级,同时推出了产品矩阵,分别为扣子空间、开发平台、扣子罗盘及 Eino 框架。

其中扣子罗盘的定位是服务于任何搭建形式的 Agent 调优,侧重在 Agent 评测、观测、效果调优、数据飞轮等能力建设,帮助低代码开发者和全代码开发者持续迭代运行 Agent。

picture.image

字节的两个大家比较熟悉的 AI 产品扣子空间和 Trae,也都是基于扣子罗盘构建和调优,正是因为有了罗盘的助力,才能让两个产品快速迭代、快速优化。

picture.image

AI Agent 的未来趋势

对于未来 AI Agent 的趋势,我们从技术方向和产业趋势两方面看。

技术方向上:

从“Single Agent” 到 “Multi Agent”,通过 Multi Agent 协同的方式,实现任务拆解,让不同的子 Agent 协同解决一个复杂的任务。

从“流程自动化”到“自主Agent的跨越”,面向无固化流程的场景,需要由 AI 主导自主决策,自己规划、调整和执行。

从“指令驱动”到“目标驱动” ,未来的 Agent 更偏目标驱动,只需要给出一个你想要的目标,由 Agent 自行推理、分析和拆解。

多模态能力融合(语音、视觉、具身交互),Agent 的长远交互形态一定不仅局限于文字,随着多模态能力的融合,能更进一步扩充 Agent 的能力边界,甚至跟物理世界进行交互。

产业挑战上:

随着开发范式的演进,对各种平台、框架也提出了更新更高的要求,平台如何快速跟进和适配,帮助开发者更加高效的搭建和迭代 Agent,是相关平台需要考虑的。

而随着 AI Agent 的发展,未来一定是跨平台、跨领域、多 Agent 协同解决问题的形态,在 Agent 通信协议上,A2A 已经给出了解法,而Agent 更大范围的生态急需建设,是否有一个中心化的 Agent Marketplace,或者去中心化通过统一协议各自交互,也都是我们要考虑的问题。

总结

从应用场景,AI Agent 已经完成了从玩具到工具的升级,场景深度与工程能力得到了双重进化,开发范式也从开发为主转向“开发+调优”并重的模式。通过扣子罗盘,我们可以快速演进到 “开发 - 评测 - 观测 - 优化” 的全生命周期管理范式。Prompt 和模型双数据飞轮持续迭代的方法论,也即将成为 AI Agent 领域的新趋势。

🙋 回复「罗盘」,加入扣子罗盘交流群

关注扣子Coze 公众号,后台回复「罗盘」,加入扣子罗盘交流群,获取“开发+调优”更 多 信息。

picture.image

🤖 加入扣子

我们持续寻找志同道合的伙伴,后台回复「加入扣子」,了解在找的社招、实习岗位。

关注扣子Coze 公众号,获取更多活动信息!

合作&转载:bd@coze.cn

点击**「阅读原文」** ,一键直达扣子罗盘

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论