点击上方👆蓝字关注我们!
引言
扣子罗盘 (Coze Loop) 是 Coze 产品体系下的 AgentOps 平台。基于数据驱动 Agent 效果洞察及调优,为开发者提供调试、评测、观测、调优等 AI Agent 全生命周期管理能力,帮助开发者系统化地提升 AI Agent 质量,降低运营成本,加速迭代优化。
无论设计精确的 Prompt,还是持续优化 AI Agent 性能,扣子罗盘都能提供全方位支持,帮助企业在竞争激烈的 AI Agent 领域中脱颖而出。
作为国内领先的 AgentOps 平台, 扣子罗盘已经服务于字节内部大量的 Agent 运维优化的场景, 沉淀了大量的优势亮点功能,下面带大家一起来解锁罗盘的 5 大核心技能!
BadCase 自动识别
应用上线后,在上报的大量 Trace 数据中,人工进行查看、筛选、回流将变得繁琐与不现实。
扣子罗盘支持用户基于 Trace 数据设置自动化任务,允许在特定时间范围内,自动采样 Trace 数据,获取输入、输出并进行在线评测,帮助开发者在应用发布到线上后的运维过程中,及时了解应用质量、洞察问题并进行优化,降低人工干预成本。
-
线上质量监控:应用部署上线后,用户在 Trace 模块设定自动化评测规则,扣子罗盘将对应用的真实输出进行评测实验,并在 Trace 列表和详情页展示评测结果。通过自动评测结果,能够发现 AI 应用在面对部分 Query(Input)时,表现(Output)不佳,从而进行线上应用调优。
-
迭代效果比对:在 AI 应用迭代的过程中,需要常态化了解迭代后的应用版本表现是否更加优异,用户在平台设定自动评测任务后,能够在持续查看该任务下,不同时间周期内、同一评估指标的的评测结果,进而比对迭代效果。
-
提升数据质量:通过筛选自动评测中的低分 Trace,并回流成评测集,能够将线上真实数据沉淀为评测基准,不断丰富评测数据库,覆盖更多的场景和边界情况,提升评测的全面性和准确性。
设定自动化任务
回流低分 BadCase
Trace 数据上报
Trace 上报通过记录系统运行中的详细轨迹数据,为问题的排查与调优提供真实、可追溯的依据。
扣子罗盘支持多种形式的 Trace 数据上报,为后续的分析和优化提供全面、真实的数据基础。
- 平台自动上报:对于在扣子平台上创建的智能体、工作流、AI 应用、以及 Coze Loop 管理的 Prompt,系统会自动上报 Trace,无需额外配置;
- 基于 SDK 上报:提供多语言 SDK(Go、Python、Node.js 等),支持与主流框架(如 Eino、Langchain)无缝集成;
- 支持 OpenTelemetry:兼容 OpenTelemetry 这一开源、中立的可观测框架。支持通过 OpenTelemetry SDK 完成 Trace 的上报,也支持适配了 OpenTelemetry 协议的 AI 框架 (比如 Spring AI) 进行 Trace 的自动上报。
灵活的数据上报机制确保了扣子罗盘可以适应各种开发环境,为后续的分析和优化提供全面、真实的数据基础。
Prompt 优化&管理
扣子罗盘提供了强大而直观的 Prompt 管理功能,支持多人协作场景下 Prompt 开发和调试。
- 灵活直观的对比调试模式:支持并排展示不同 Prompt 配置或模型参数的效果,开发者可调整提示词、模型等参数并直观对比差异。该功能帮助快速筛选适配业务场景的最优提示词与参数组合,提升开发效率;
- 灵活的Prompt版本管理,打通线上服务:工程师可在独立环境中优化 Prompt,业务场景通过 Prompt Key 调用指定稳定版本,既保障开发灵活性又确保线上调用稳定性;同时,该能力支持与 Eino、Langchain 等主流框架集成,实现 Prompt 修改后线上服务自动热更新;
- 支持一键优化:选中系统提示词区域,然后单击出现的一键优化图标,扣子罗盘会基于底层优化算法自动帮你改进系统提示词;
- 根据反馈结果进行优化:支持通过反馈输出结果的问题的方式来优化提示词,在人工评估区域输入期望修改方向后点击开始优化,再根据 AI 优化建议选择采纳或丰富意见重新优化。
这些功能大大简化了 Prompt 工程的复杂性,使开发者能够更高效地进行实验和优化。
设对比调试模式
Prompt 版本管理
一键优化
根据反馈结果进行优化
开箱即用的评估器
一次高质量的评测,需要依赖高质量的评估器, 罗盘内置了大量的标准优质的评估器模板帮助用户快速启动评估实验。
评估器(Evaluator)是用于自动化或半自动化评估 AI Agent 效果的工具。评估器通过预定义的规则,对评估对象的输出进行多维度分析,生成可量化的指标和归因结论。 目前,扣子罗盘支持使用大型语言模型 (LLM) 评估器对评估对象进行自动化评估。扣子罗盘内置了多种评估器 Prompt 模板,开发者可以直接使用这些模板或进行二次开发后,用于评测实验。
在执行评测实验时,LLM 评估器会根据 Prompt 中预设的标准和规则对评估对象的输出进行打分,并提供得分原因。得分范围从 0.0 到 1.0,1.0 表示完全满足评分标准,0.0 表示完全不满足评分标准。
注意:LLM 评估器的得分和原因由 AI 生成,可能存在偏差。扣子罗盘支持对评估器的得分进行人工校准和修改。
轨迹评测
端到端的评测不能满足深度评测的场景需求, 结合轨迹评测可以洞察 Agent 执行的中间过程。
轨迹评测是扣子罗盘针对 AI 智能体(Agent)执行过程的深度评测能力,通过记录并分析智能体从接收输入到生成输出的完整决策与执行路径(即 “轨迹”),实现对执行过程的透明化评估。其核心是打破传统仅关注最终输出的 “黑盒” 评测局限,覆盖智能体执行全链路,包括意图识别、工具调用决策、模型响应等关键环节。
扣子罗盘作为国内首家实现 “轨迹评测” 商业化的平台,提供了模板化工具降低使用门槛,平台内置四大轨迹评估模板(工具选择质量、工具参数正确性、任务完成度、轨迹质量),用户可直接选用或二次开发。在评估器创建界面,点击 “选择模板”,根据业务场景筛选适配模板并调整提示词(如补充行业规则)。
进入实验页面,新建实验并关联已沉淀的评测集(可通过线上 Trace 数据回流构建);选择需评测的智能体及版本,配置字段映射(如输入参数、实际输出等);最后关联已配置的轨迹评估器,发起实验。
总结
扣子罗盘作为 AI Agent 全生命周期评估与优化平台,为开发者提供了一套完整的解决方案。遵循以上最佳实践,开发团队能够显著提升开发效率、优化应用质量、降低运营成本并加速迭代优化。
在 AI 技术日新月异的今天,扣子罗盘不仅是一款工具,更是企业数字化转型的战略伙伴,它将持续进化,引领 AI Agent 开发迈向更高水平的精确性、可靠性和创新性。
扫码👆进入罗盘交流群
点击【阅读原文】立即体验扣子罗盘!
