Agent 可观测性——从 Trace 到回放，构建生产级智能体的全链路观测体系

场景背景

如果说 2025 年是“百模大战”的收官之年，那么 2026 年无疑是企业级 AI Agent 的落地决战之年。然而，Gartner 在 2026 年初的报告中明确指出：超过 68% 的企业在 AI Agent 生产化过程中遇到的最大障碍不是模型能力，而是可观测性和可靠性工程。更值得关注的数据来自另一份行业调研——虽然 80% 的企业应用已嵌入至少一个 AI Agent，但仅有 31% 的企业将其真正投入生产部署，这是一个 49 个百分点的“落地鸿沟”。

这一鸿沟的核心成因并不复杂：传统软件可观测性的三大支柱——指标（Metrics）、追踪（Traces）、日志（Logs）——不足以应对智能体的独特挑战。Agent 输出的非确定性、工具调用的隐蔽性、决策过程的高度动态，使得传统“固定输入→固定输出”的测试方法论失效。AI 可观测性不是对传统三大支柱的简单加法，而是需要重构的“新基础设施”——它的目标不仅是回答系统是否在运行（Liveness），更关键的是评估输出质量（Quality），并能定位模型为何给出特定回复。

在字节跳动的 AI 生态中，火山引擎已围绕这一挑战构建了一套从端到端可观测到工程化闭环的 Agent 质量保障体系，通过统一探针 OneAgent 实现从 App/Web/小程序到 AI 网关、Agent、工具乃至 LLM 的全链路 MTL 统一采集，打通了观测数据的孤岛。本文将从技术选型、架构设计与工程化实践三个维度，系统构建面向生产级 Agent 的可观测性体系。

技术选型与架构设计

Agent 可观测性的独特挑战

与传统软件系统相比，AI Agent 的可观测性面临三重独特的工程挑战：

1. 非确定性决策链路：同样的用户输入，Agent 可能因为上下文累积、工具调用顺序差异或模型概率采样而产生完全不同的执行路径。这使得传统的“固定输入→固定输出”断言式测试完全失效。

2. 智能体的可观测性需要同时覆盖代码执行、决策过程和环境交互三个维度，形成完整的“感知→分析→响应”闭环。这意味着观测层不仅要采集传统的基础设施指标（CPU、内存、网络），还必须捕获模型推理的思维链、工具的调用上下文以及环境的反馈信号。

3. 海量异构数据的实时处理：一次 Agent 会话可能包含数十轮 LLM 调用、数十次工具执行，每个步骤都可能产生数 KB 到数 MB 级别的 trace 数据。在千万级会话规模下，数据量将以 TB 为单位快速增长。

开源观测工具全景对比

截至 2026 年，LLM 可观测性市场已达 19.7 亿美元规模，预计到 2029 年将增长至 68 亿美元。在众多方案中，以下五类工具形成了主流的技术生态：

工具	定位	核心能力	与字节生态整合
LangSmith	Agent 工程平台	全链路追踪、LLM-as-Judge 评估、Playground 调试	原生支持火山方舟 API 接入
Langfuse	开源 LLM 工程平台	Trace 树结构、成本追踪、数据主权托管	开源方案，可自托管部署
Opik (Comet)	开源评估与观测平台	实验管理、运营漂移检测、合规追踪	2025 年获 Gartner 新兴专家认证
DeepFlow	eBPF 零侵扰观测	内核级网络采集、GPU 性能剖析	适合 Kubernetes + vLLM 推理集群
Helicone	轻量级代理观测	OpenAI 兼容 API 网关、成本优化	部署简单，适合快速接入

LangSmith 是 LangChain 官方出品，通过 LangChainTracer handler 可捕获每一个 Chain 启动、工具调用、LLM 请求和 Agent 步骤。最新发布的 LangSmith Fetch CLI 工具更是将 Trace 能力直接带入了终端和 IDE。LangSmith 的评估体系涵盖五种 Deep Agent 评估模式，支持 pytest 驱动的离线评估以及生产环境的在线监测。

Langfuse 作为 Thoughtworks 技术雷达重点推荐的开源平台，将 Agent 执行组织为 trace 树，每个节点代表一个类型化的观测（LLM 生成、检索查询、工具调用），并内置 LLM-as-Judge 评估器支持。其 SDK 已原生支持 Python、JavaScript/TypeScript、OpenAI、LangChain 和 LiteLLM 等主流框架。在数据主权敏感的企业场景中，Langfuse 支持全量自托管部署，Cresta 等公司已验证了多租户隔离和跨服务上下文传播的架构模式。

DeepFlow 采取了完全不同的技术路径——基于 eBPF 从操作系统内核层实现零代码侵入的全栈指标采集、全链路追踪与混合栈性能剖析。对于已经在 Kubernetes 环境中运行 vLLM、Ray 等推理引擎的团队，DeepFlow 能够在无需修改应用代码的前提下，同时覆盖网络通信、文件操作和 GPU 利用率的观测。它是火山引擎 OneAgent 方案的核心技术之一。

对于技术选型的决策，我建议遵循以下原则：

追求功能深度：优先选择 LangSmith，其评估与调试能力最强；
注重开源与数据主权：Langfuse 是最佳平衡点；
已经深度使用火山引擎生态：可关注火山方舟平台自带的观测能力与 ArkClaw 云端 Agent 服务的集成方案。

核心实现：构建 Agent 观测指标矩阵

基于多方案的实践经验，一个生产级 Agent 可观测性体系需要覆盖四个层次的指标：

第一层：基础设施指标

这类指标与传统微服务可观测性基本一致，包括 Token 消耗量、每请求延迟（P50/P95/P99）、错误率（按错误类型分类的 5xx 响应分布）、GPU 利用率（针对自托管推理集群）以及网络 I/O 吞吐量。Langfuse 提供了开箱即用的 token 用量、成本和性能指标追踪能力。

第二层：Agent 行为指标

这是 Agent 特有的观测维度，核心指标包括 Tool 调用序列与分布（Agent 在完成任务过程中调用了哪些工具、调用频率和顺序）、决策路径长度（从用户输入到最终输出所需的推理步数）以及 状态转换矩阵（Agent 在不同状态之间的跳转频率与成功率）。

第三层：质量评估指标

质量评估是可观测性体系中最关键也最复杂的部分。2026 年的主流实践采用 LLM-as-Judge 的评估范式：让一个评估模型对 Agent 的每一次响应进行打分或分类。Langfuse 内置了 LLM-as-Judge 评估器，支持一次配置后在所有 trace 上自动运行。

常用的评估维度包括：

相关性分数：回答是否直接回答了用户问题
幻觉检测：模型是否编造了不存在的信息
任务完成度：Agent 是否成功执行了用户预期的操作
安全性评分：是否存在注入攻击、越狱风险或不当内容

第四层：成本与效率指标

在 Agent 大规模部署后，成本成为可观测性无法回避的话题。核心指标包括 每会话成本（按模型计费标准计算）、Token 利用率（有效 token 占总 token 的比例）以及 人工介入率（需要人工审核或干预的比例）。LangSmith 和 Langfuse 均支持按项目、用户或会话维度的成本聚合分析。

评估样本的规模设计

关于“样本多大”这一问题，需要区分两类场景：

离线评估：从生产环境采样 500～2000 条代表性 trace，覆盖不同意图类型和边缘 case，用于模型版本发布前的质量把关。
在线监控：对生产流量进行 10%～100% 可配置采样，关键用户或高价值会话可强制 100% 全量 trace。

2026 年 5 月的一项大规模研究中，研究者评估了 38 个每日样本，每个样本包含 10 万条 ChatGPT 响应，总计覆盖 380 万条响应和超过 1 亿次源提及，这为行业的样本规模设计提供了参考基准。

落地验证：从数据孤岛到工程化闭环

火山引擎的端到端观测方案

火山引擎构建的 Agent 质量保障体系，以 OneAgent 统一探针为核心，实现了从 App/Web/小程序到 AI 网关、Agent 工具、乃至底层 LLM 的全链路 MTL（Metrics、Traces、Logs）统一采集，从根本上打通了传统架构中各层观测数据的孤岛问题。

这一方案的独特价值在于 上下文关联能力：当一条用户请求通过移动端入口进入 AI 网关，经 Agent 路由后调用多个工具和 LLM 模型时，OneAgent 能够在所有组件之间传播统一的 trace ID，将分散在不同服务中的观测日志自动关联为完整的会话 trace。在出现异常时，工程师可以一键从用户反馈直接定位到具体的模型调用和工具执行，大幅缩短故障定位时间。

部署架构参考

一个典型的 Agent 可观测性生产部署采用分层架构：

text

用户层（App/Web）→ 可观测 SDK → 
AI 网关层（请求汇聚与路由）→ 
Agent 执行层（LangGraph 工作流）→ 
工具/模型服务层（内部 API、第三方 API、LLM 网关）

其中：

用户层：集成前端观测 SDK，捕获用户交互行为
AI 网关：火山方舟 API 网关自带请求追踪与速率控制能力
Agent 层：LangGraph 提供内置的持久化执行追踪
工具/模型层：通过统一 handler 注入 trace 上下文

评估闭环与持续优化

可观测性的最终目的不是“看”，而是“改”。构建从观测到优化的闭环：

采集：生产 trace 落盘
评估：离线 LLM-as-Judge 批量打分 + 在线规则引擎实时告警
分析：识别高延迟调用链、Token 浪费模式、常见失败模式
优化：调整 Prompt、更换模型版本、优化工具调用顺序
验证：A/B 测试优化效果
发布：灰度上线后继续观测

在字节跳动的实践中，这一闭环已被深度整合进内部 AI 工作平台和 Agent 开发流程中，飞书构建的 AaaS（AI as a Service）体系提供了一个全链路的“AI 调度中枢”，为智能体的持续生长提供了系统级支撑。

未来方向

展望 2026 年下半年及 2027 年，Agent 可观测性领域将迎来三个关键演进方向：

1. eBPF 的深度应用：DeepFlow 等基于 eBPF 的方案正从网络层扩展到完整的全栈可观测，未来将实现对 GPU/RDMA 网络的零侵扰性能剖析，解决异构智算的观测黑盒问题。

2. 智能化的 anomaly detection：观测数据量过大后，人工排查不再可持续。Agent 自身将开始承担可观测性数据的“自诊断”职责，自动识别异常模式并建议根因。

3. 联邦观测架构：随着 Agent 跨企业边界调用外部工具和服务，可观测性必须支持跨组织的 trace 上下文传播和隐私合规的数据共享。Langfuse 已经验证了跨服务传播的可行性。