DataLeap的全链路智能监控报警实践(二):概念介绍

大数据数据中台

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

概念介绍

基线监控

根据监控规则和任务运行情况,DataLeap的基线监控能够决策是否报警、何时报警、如何报警以及给谁报警。它保障的是任务整体产出链路,核心目标包括:

  • 覆盖链路中的所有任务;
  • 降低任务监控配置成本;
  • 避免无效报警。

保障任务

一般选择有SLA要求的任务作为保障任务加入基线,DataLeap通过保障任务的依赖拓扑图自动监控上游任务,形成需要监控的任务链路。

时间定义

承诺时间:最晚完成时间,即SLA。

预警余量:基线SLA Buffer,消耗预警余量即触发基线预警。

预警时间:任务承诺时间 - 预警余量,即任务预期最晚完成时间。

预测运行时长:基于任务历史的执行情况预测当前任务执行的运行时长。

承诺最晚开始时间:承诺时间-任务预测运行时长。

预警最晚开始时间:预警时间-任务预测运行时长。

各时间的关系如下图所示:

picture.image

监控范围

DataLeap的基线默认监控的范围包括:基线保障任务及保障任务上游的所有任务。如下图所示,保障任务D,E及它们所有的上游节点都会纳入基线监控范围,而任务C,F不受基线监控。值得说明的是,DataLeap的基线监控允许用户配置基线监控只覆盖“指定项目”下的任务,此时基线监控的范围就只包含了保障任务及这些项目下的上游任务。

picture.image

基线实例

和任务类似,基线也有业务时间的概念。对任务来说,一个业务时间会生成一个任务实例;而对基线来说,一个业务时间会生成一个基线实例,负责监控同一业务时间下保障任务的实例及其依赖的所有上游任务实例的运行状态。天基线和小时基线每天生成实例的规则如下:

天基线:每天生成一个基线实例,其业务时间与该基线保障任务的业务时间相同;

小时基线:承诺时间有两种设置方式:统一承诺和分时承诺。如果是统一承诺,则生成基线实例的个数为24个,每个基线实例的承诺时间一致;如果是分时承诺,则每天生成N个基线实例,其中N为用户配置的监控业务时间范围包含的业务时间数量,N的范围是[1,24]。

基线实例状态

安全:任务在预警时间之前完成。

预警:任务在预警时间未开始运行,但还未达到承诺时间。

破线:任务在承诺时间仍未运行完成。

其他:基线实例关闭或者基线没有关联任务时,基线实例所处的状态。

报警类型

基线监控支持非常丰富的报警类型:

基线预警

基线监控的链路上,首个没有在基线预警时间节点开始运行的节点。

基线破线

“基线破线”报警需满足以下两个条件:

  1. 任务节点的上游(包含直接和间接上游)没有出现过破线;
  2. 该任务没有在破线时间节点开始运行。 破线加剧

“执行变慢导致破线加剧”报警触发需满足以下两个条件:

  1. 任务所在链路已发送首次“基线破线”报警

  2. 任务运行耗时相较于预测运行耗时有所增加,具体来说:

a. 当任务实际开始时间早于基线破线开始时间时,将“破线开始时间 + (预测运行耗时 * (1 + N%))”作为检测时间点,如果任务到达检测时间点时还没有运行完成,则触发告警;

b. 当任务实际开始时间晚于破线开始时间时,将“任务实际开始时间 + (预测运行耗时 * (1 + N%))”作为检测时间点,如果任务到达检测时间点时还没有运行完成,则触发告警。

保障任务预警时间未完成

基线预警时间到达(承诺时间-预警余量),检查基线所有保障任务是否完成运行,若有保障任务未运行完成,且基线之前无预警、破线报警,则触发报警。

保障任务承诺时间未完成

基线承诺时间到达,检查基线所有保障任务是否完成运行,若有保障任务未运行完成,则触发报警。

任务失败事件: 基线监控链路上,任意任务,重试结束仍失败,则触发失败事件。监控链路上的任务,发生失败事件则触发该报警。

基线事件

基线监控任务(保障任务及其上游任务),在执行过程中,若出现失败、变慢等情况,将被当作基线的异常事件,进行记录。

变慢事件: 识别基线监控任务(保障任务及其上游)运行变慢的情况。识别条件为:任务运行时长较该任务的预测运行时长上涨了X%,则视为一个变慢事件。

失败事件: 识别基线监控任务(保障任务及其上游)运行失败的情况,识别条件为:任务运行过程中出现过失败,则视为一个失败事件。

基线事件的状态包含“新发现”和“已恢复”两种。当基线监控的任务产生变慢或者失败事件时,基线事件状态更新为“新发现”;但如果任务最终完成了的话,基线事件的状态会被更新为“已恢复”。

点击跳转大数据研发治理套件 DataLeap了解更多

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论