点击上方👆蓝字关注我们!
在数字化浪潮席卷各行各业的今天,企业系统规模持续扩张,服务间调用关系日益交错,这使得许多“看不见的问题”正逐渐成为业务稳定性的巨大隐患。
你是否也曾遇到过这些棘手的场景?
-
偶发错误难量化: 用户反馈“系统偶尔会出错”,但通过零散的日志或链路数据,无法评估其真实影响范围,决策只能凭感觉?
-
核心体验难追踪: 用户注册、商品下单、AI 推理等关键流程,缺少长期精细化的体验数据(如 P95 响应时长、成功率 ),优化方向全凭“体感”。
-
监控系统各自为战: 日志、链路、指标等数据分散在不同平台,形成数据孤岛。排查问题时如同“盲人摸象”,效率低下。
传统监控体系擅长捕捉已知故障,但在面对这类“不确定性”问题时,往往力不从心。要填平这些盲区,我们需要一种新能力——从海量的原始观测数据(如日志、链路 Span )中,动态、实时地提炼出能真正反映业务健康的“生产指标”。
火山引擎应用性能监控全链路版(APMPlus )的“生产指标”功能,正是为此而生 。它让你不再受困于零散数据,而是将原始日志与链路资产抽丝剥茧,转化为高价值、可度量、可告警的业务指标。让“看不见”的隐患,尽在掌控。
一
转指标:两种方式,盘活已有数据资产
APMPlus 的“生产指标”功能提供两种核心数据转化路径:日志转指标与链路转指标。它们能在不改造现有系统的前提下,盘活已有数据资产。
1. 日志转指标:让存量日志活起来
在许多系统中,业务最完整的信息,往往沉睡在应用日志里。日志转指标 适用于仅有日志但缺乏量化手段的场景,它可以把这些零散文本,实时转化为结构化的业务指标,无需重新上报,就能在更长的时间维度上洞察业务趋势、量化对业务的影响。
- 典型场景: 从访问日志中提取“核心页面访问量”“错误日志占比”,或从订单日志中提取“下单成功率”“取消原因分布”等。
- 实现方式: 只要应用已通过 apmplus-opentelemetry-collector 上报日志,即可在规则中配置过滤条件(如日志级别、服务名、关键字 ),再结合字段提取与聚合函数生成所需指标。
- 核心价值:
-
完全复用:无需修改代码或重新上报,现有日志直接可用。
-
低门槛:通过简单规则编排(过滤条件 + 字段提取 + 聚合 ),即可生成可视化看板与告警。
2. 链路转指标:用 Span 数据量化业务体验
链路(Trace )数据天然携带服务拓扑、调用方向和时延信息,是衡量业务体验与稳定性的绝佳原料。APMPlus“生产指标”功能支持将满足特定条件的 Span 数据 转化为指标,用于量化服务质量。
-
典型场景: 从链路中提取“服务间调用成功率”“下游依赖错误率”以及“关键链路 P95 响应时长”等。
-
实现方式: 只要链路数据已通过 apmplus-opentelemetry-collector 上报,便可在规则中按服务名、接口名、状态码、甚至“是否为 AI 应用”等维度筛选 Span,再结合字段提取,直接生成指标并配置看板与告警。
-
AI 观测场景示例: 在大模型或 RAG 应用中,链路 Span 通常包含丰富的上下文标签,但很少会上报专门的业务指标。此时,可直接利用“生产指标”功能,从 Span 中提取如“调用成功率”“P95 推理时延”“Token 成本”等核心指标,用于精细化监控模型体验与成本。
二
能力亮点:从原始数据到业务洞察
APMPlus“生产指标”提供了一套灵活、声明式的规则,无需复杂编码或搭建数据管道,即可实现从数据筛选、加工到指标聚合的全链路自动化。只要业务已接入 APMPlus 并上报日志和链路数据,仅需两步即可构建可量化的业务指标。
亮点一:基于日志 / 链路的统一生产
-
一句话价值: 打破数据孤岛,从最鲜活的源头提炼指标。
-
核心解读: 无论是业务逻辑丰富的文本日志,还是描绘服务交互的分布式链路(Span ),均可作为统一数据源,确保指标的实时性与准确性。
亮点二:高维过滤与白 / 黑名单
-
一句话价值: 精准圈定数据范围,聚焦核心业务场景。
-
核心解读: 支持基于服务名、接口、状态码、日志级别、“是否为 AI 应用”等数十种维度筛选数据。通过白名单 / 黑名单机制,精确控制数据处理范围,有效过滤噪音干扰。
亮点三:灵活的字段提取与值翻译
-
一句话价值: 从非结构化数据中“榨取”黄金维度。
-
核心解读: 支持通过正则或边界符,从日志内容或链路属性中提取关键字段(如用户 ID、订单号 )。“值翻译”功能可将提取的原始值归一化处理(如将状态码 200 翻译为“Success” ),显著提升指标的可读性。
亮点四:异步下发与秒级感知
-
一句话价值: 规则异步稳定下发,指标与告警联动实现秒级异常感知。
-
核心解读: 创建或更新的指标规则将异步下发至采集端(最长 5 分钟更新一次 ),无需重启服务。规则生效后,新生成的指标可实时呈现在看板,并与告警系统联动,实现对业务异常的秒级感知。
亮点五:与自定义看板 / 告警无缝联动
-
一句话价值: 将洞察转化为行动,构建监控与响应闭环。
-
核心解读: 所有生产指标均可无缝对接自定义看板,进行可视化展示与趋势分析。同时支持基于这些指标创建告警任务,当业务出现异常波动(如错误率突增、时延超标 )时,第一时间发出通知。
亮点六:跨集群应用的统一管理
-
一句话价值: 一次配置,全局生效,轻松应对大规模部署。
-
核心解读: 生产指标规则可应用于账户下的所有集群,或指定部分集群生效。在拥有多个生产环境或微服务集群的场景下,依然能保持监控口径的一致性,极大简化管理成本。
三
三步完成:从接入到消费指标
1. 生产数据
首先,确保应用已接入 APMPlus 并上报了日志或链路数据。
- 接入文档:如何接入应用性能监控
(https://www.volcengine.com/docs/6431/81121)。
- 请将 apmplus-opentelemetry-collector 组件升级到最新版本,参见:安装组件
(https://www.volcengine.com/docs/6460/101014)。
2. 生产指标
通过生产指标功能配置日志或链路的转换规则。
- 详细配置流程参见:生产指标
(https://www.volcengine.com/docs/6431/2122010)。
3. 消费指标数据
指标生成后,你可以在多个场景下消费和使用这些新生成的指标。例如,在生产指标详情页、自定义看板中查看数据趋势,或基于指标配置告警规则。
-
在生产指标详情页查看数据:
-
在自定义看板中进行可视化分析:
-
在告警中心为指标创建告警规则:
四
典型应用场景:将数据转化为决策力
理论结合实践,才能真正释放数据的价值。以下是四个典型的应用场景,展示了 APMPlus“生产指标”功能如何在不同业务领域中发挥关键作用。
场景一:
AI 观测——精准度量大模型应用的“黑盒”
随着 AGI 时代的到来,基于大语言模型(LLM )和检索增强生成(RAG )的应用正以前所未有的速度涌现。然而,这些应用的内部逻辑通常是“黑盒”,传统的监控手段难以衡量其真实的服务质量和成本。
生产指标让这一切变得透明。 通过对 AI 推理链路的 Span 数据进行精细化加工,您可以轻松生产一系列高价值的业务指标,实现对 LLM/RAG 应用端到端的观测。
可生产的指标示例:
-
LLM 调用成功率: 通过过滤 status_code 并使用 COUNT 聚合,实时计算调用成功率。
-
P95 推理时延: 提取 duration_microseconds 字段,使用 PCT95 聚合,持续追踪用户感知的推理耗时。
-
Token 成本: 提取 gen_ai.usage.output_tokens 字段,结合 SUM 与计费模型,估算并监控模型调用输出成本。
将这些指标展示在自定义看板上,你就能清晰地看到业务体验的长期变化趋势,为模型迭代、Prompt 优化提供坚实的数据支撑。
场景二:
数据库慢 SQL 洞察——从应用侧定位性能瓶颈
数据库慢 SQL 不仅会拉长请求响应时间,还会占用大量数据库资源。若只依赖数据库侧的慢查询日志,我们往往难以回答“是哪个业务接口”“在什么调用上下文下触发了这些慢 SQL?”。
APMPlus “生产指标”将慢 SQL 分析前移到应用侧,沉淀为可视化、可告警的高价值指标。
-
前置过滤: 筛选出数据库调用的客户端 Span(如 db.system = mysql ),并设置慢 SQL 阈值(如 duration_microseconds > 500000 )。
-
字段提取: 从 Span Tags 中抽取 db.statement(SQL 文本 )、db.sql.table(表名 )、sql_pattern(SQL 模板 )等维度,将慢 SQL 与 service.name、api_name 等业务上下文关联。
-
指标定义: 围绕慢 SQL 设计一套指标体系,如慢 SQL 比率、P95/P99 执行时长、TopN 慢语句/慢表。
-
趋势查看与下钻: 在看板中发现慢 SQL 指标异常时,可一键下钻到相关的 Trace 列表,回溯具体的 Span 与 SQL 语句上下文,实现从宏观趋势到微观根因的快速定位。
场景三:
突发流量与 SLO——护航大促活动的稳定性
在电商大促等场景下,系统流量会在短时间内急剧飙升,对稳定性提出严峻考验。此时,快速建立起核心业务的 SLO(服务等级目标 )监控至关重要。
生产指标是您应对洪峰流量的“定心丸”。
面临的挑战
-
跨集群监控难: 服务部署在多个 K8s 集群,难以获得统一的全局视图。
-
维度爆炸: 用户 ID、商品 ID 等高基数维度导致传统监控方案失效。
-
口径不一: 不同服务对成功、失败的定义可能存在差异。
生产指标的解法
-
跨集群统一生产: 规则可应用于所有集群,一键建立全局 SLO 指标。
-
白名单与缩维: 通过白名单圈定核心接口,避免维度爆炸。
-
值翻译与归一: 利用值翻译功能,将不同服务的状态码统一映射为“成功”或“失败”,确保指标口径一致。
通过以上能力,你可以迅速建立起如**“核心接口可用性”“支付链路错误率”“P95 响应时延”** 等关键生产指标,将其可视化到大促作战室的看板上,并配置精准的阈值告警,确保任何风吹草动都能在第一时间被发现和处理。
场景四:
微服务问题定位——从“大海捞针”到“按图索骥”
在复杂的微服务架构中,一个用户请求可能会流经数十个服务。当出现性能瓶颈或偶发错误时,从海量的 Trace 数据中找到“罪魁祸首”无异于大海捞针。
APMPlus“生产指标”可以绘制问题的“藏宝图”。 基于链路数据,通过对服务名、接口名、状态码、下游服务名等维度进行组合筛选和聚合,生产出直指问题根源的“热区指标”。
-
慢请求占比: 筛选出 duration > 500ms 的 Span,计算其占总请求的比例,快速发现变慢的服务或接口。
-
错误拓扑热区: 聚合服务名和下游服务名,并筛选状态码为错误的请求,定位出最常发生错误的上下游服务对。
-
关键路径瓶颈指标: 针对核心业务链路(如登录、下单 ),生产每个环节的耗时指标,精准识别性能瓶颈。
当这些指标在看板上出现异常波动时,你可以直接点击图表,一键下钻到相关的 Trace 列表或日志上下文 ,实现从宏观问题发现到微观根因定位的无缝衔接,极大提升排障效率。
五
不只是换个名字:
生产指标 vs. 传统监控指标
那么,APMPlus“生产指标”与我们熟知的传统“监控指标”(如 CPU 使用率、QPS 等 )到底有什么本质区别?我们用一个表格来展示它们的核心差异。
维度
|
生产指标 (Production Metrics)
|
传统监控指标 (System/Infra Metrics)
| |
指标来源
|
源自业务过程的原始数据,如日志 (Log) 和链路 (Trace Span) 。
|
通常由基础设施或标准组件直接暴露,如操作系统、中间件、Agent。
| |
核心价值
|
直接度量业务体验与结果。 回答“用户的支付成功率是多少?”、“AI 应用的推理速度如何?”等业务问题。
|
反映系统资源与负载状况。 回答“服务器的 CPU 够不够用?”、“数据库连接池是否满了?”等资源问题。
| |
生成方式
|
动态、按需生产。 通过灵活的规则引擎,从海量原始数据中实时聚合、提炼而来。
|
静态、预定义。 通常由监控系统或探针预先定义好,种类和维度相对固定。
| |
灵活性与维度
|
极高。 可根据业务需求,任意组合过滤条件、提取高基数业务维度(如用户等级、渠道来源 ),实现无限下钻。
|
有限。 维度通常局限于实例、集群、IP 等基础设施标签,难以关联具体业务场景。
| |
问题定位能力
|
从现象到根因。 指标异常时,可直接下钻至产生该指标的原始日志或 Trace,实现端到端排查。
|
间接关联。 系统指标异常(如 CPU 飙高 )往往是“结果”而非“原因”,需结合其他工具进一步定位。
|
总而言之,传统监控指标守护的是“机器”的健康,而**“生产指标”守护的是“业务”的健康** 。两者相辅相成,共同构成了现代可观测体系的完整拼图。
六
价值落地:从指标生产到决策闭环
APMPlus“生产指标”的最终价值在于驱动行动,并为业务带来可量化的长期收益:
-
降低监控成本: 在无需代码改造的前提下,让业务、运营和研发团队共同参与指标建设,显著提升监控需求的响应效率。
-
填补监控盲区: 覆盖传统预设指标难以触达的个性化业务场景,提升对偶发错误和体验异常的捕捉能力。
-
提升决策效率: 统一监控口径,让业务、研发、运维围绕同一套数据和指标协同决策。
-
保障业务稳定: 通过更快的异常发现与响应,减少潜在业务损失。
你可以将这些高价值指标轻松融入日常工作流:
-
在自定义看板中集中展示: 将来自不同数据源的生产指标,与系统监控指标、业务大盘数据放在同一个看板中,创建专属于您的“作战指挥室”,获得洞察全局的统一视图。
-
配置精细化的告警规则: 为核心生产指标(如“订单创建成功率”、“P99 推理时延” )设置动态或静态阈值告警。一旦业务健康度出现波动,相关团队就能在第一时间收到通知。
-
与现有监控体系无缝配合: 生产指标是对现有监控能力的有力补充,可以帮助您快速填补因业务逻辑复杂、监控维度缺失而导致的“监控盲区”,以极低的成本从源头化解潜在风险。
在数字化系统日益复杂的今天,业务的每一次异常、用户的每一次卡顿,都不该成为“看不见的黑盒”。APMPlus 生产指标正是打破这一困局的关键:从监控盲区走向业务洞察,以全链路可观测能力为基石,以业务价值为核心,让每一次数据观测,都成为业务增长的底气。
关注公众号回复:ArkClaw 攻略 ,领取“养虾宝典”,开启 AI 进化之旅。
