扫码进入官方交流群
群内定期进行干货分享
技术交流、福利放送
字节跳动数据平台
基于字节跳动分布式治理的理念,数据平台数据治理团队自研了SLA保障平台 , 目前已在字节内部得到广泛使用,并支持了绝大部分数据团队的SLA治理需求,每天保障的SLA链路数量过千,解决了数据SLA难对齐、难保障、难管理的问题。 本文将分为上、下篇发布。上篇点击回顾,下篇重点介绍数据SLA如何进行复盘管理以及保障平台的架构设计。
文 | 录铸
来自字节跳动数据平台开发套件团队
复盘管理详解
复盘管理是本平台提供的响应式治理服务的实现方式,是数据治理方的重点关注对象。复盘管理又分为问题管理与事故管理,问题管理侧重于“为什么”——即整理分析SLA破线的原因,事故管理侧重于“怎么做”——即SLA破线事故之后该怎么治理。
01 - 问题管理
问题管理模块的整体目标是满足数据治理团队对SLA问题的登记管理,支持对登记后的问题数据进行不同维度根因数据分析,辅助用户对问题根因进行治理,沉淀治理问题经验。
平台在进行系统保障监控时,会在SLA延迟时进行通知播报,并持续提醒负责人进行问题登记。在问题登记时,平台提供了一组根因树辅助登记,明确问题根因类别,方便统计分析。任务负责人进行问题登记后,累积数据展示在问题看板上,数据治理方由此做问题分析归纳总结。
平台保证了 SLA 延迟记录与问题之间是一一对应的关系,并在问题看板上关联了 SLA 详情信息,包括任务链路、负责人、任务起止时间等。
问题登记往往是一个从多到少的过程,前期出现的问题在逐一治理解决后,将对后期的治理起到很好的参考警示作用,它的数据价值如下:
- 不同 SLA 问题类型的趋势分布,针对性的治理问题
- 相同根因引发了多少 SLA 问题,涉及影响多少数据资产
- 哪些数据资产经常出现 SLA 问题,问题的分类以及是什么根因造成的
- SLA 问题经验总结,方便类似问题发生后,后期做推荐辅助快速定位根因
根据平台运营的记录显示,常见的问题有资源队列阻塞、上游任务故障、数据倾斜等。某数据团队双月问题登记总结如下,问题数量和问题根因种类得到了有效的收敛:
02 - 事故管理
事故管理用于记录 SLA 破线事故的复盘与改进管理,每个事故至少对应一条 SLA 问题记录,而每个 SLA 问题不一定会造成事故。
事故可以在任意节点进行,一般在 SLA 破线并造成实际的业务影响之后,需要进行事故登记,事故登记同样会关联相关的 SLA 信息。一个事故的处理流程如下所示:
如图所示,事故主要包含 SLA 事故明细、SLA 事故根因、改进计划及 SLA 消耗这几部分,在这其中可以关注以下几点:
-
事故在登记时,会根据事故明细确认事故根因,并让相应负责人提出改进计划
-
用户可以订阅事故,在事故的复盘状态及其改进计划的完成状态变化时,都会通知订阅人
-
任务的改进计划在完成前,每日都会提醒计划负责人,直到计划完成为止
SLA 事故管理平台的数据是数据治理方治理成果的重要依据,也是整个 SLA 保障平台使用效果的体现,它的数据价值如下:
- 对事故的复盘归档管理,方便后期随时查阅,定位相关 SLA 信息
- 针对不同数据团队发生 SLA 事故的整体情况进行对比查看,互相借鉴
- 对事故的改进计划管理跟踪,验收 SLA 的治理效果
以下是某个团队的双月事故统计:
通过上述数据可知,本平台有效保障了核心任务的稳定产出,辅助降低了稳定性事故发生的概率,现在每双月该类型事故数量长期维持在个位数。
平台架构总结
平台整体主要分为基础组件、规划式治理服务、响应式治理服务三大块,系统组件架构图如下:
01 - 规划式治理服务
所谓“规划式治理”,即在问题发现前治理,通过主动规划约定 SLA 的形式保障任务产出。规划式治理是 SLA 相关问题发现的过程。
规划式治理服务即“提供以申报单签署的方式达成 SLA 协议的服务”,包括在此过程中申报单的生命周期管理操作,申报任务的链路分析,以及达成 SLA 之后的系统保障监控,服务于“申报签署流程”。
02 - 响应式治理服务
响应式治理是指通过复盘管理模块对 SLA 相关的事故/问题进行登记、管理、复盘的过程。在发现 SLA 相关问题之后,需要对问题进行处理,形成一个完整的闭环,在发现问题后进行的治理成为响应式治理。
响应式治理服务模块抽象出问题登记和事故管理两个模块,更加灵活的服务于数据 SLA 的问题归因与事故统计。
03 - 基础组建
基础组件提供了配置、播报、看板等基本功能模块服务,为规划式、响应式治理服务提供了必要支撑,是整体 SLA 保障服务不可或缺的一环。
系统配置
- 治理团队配置
治理团队为 SLA 的管理团队,每个申报单都需要绑定一个治理团队,治理团队主要负责审批申报单。
- 数据团队配置
数据团队为数据的归属方,一个数据团队对应一个业务团队,数据团队的设计保障了各个业务团队独立治理的需求。平台通过对数据团队的灵活配置支持,可以更细粒度的划分数据与任务的归属,解决权责不清的问题。
- 订阅配置
订阅管理是配置订阅信息的平台,本平台的订阅为 SLA 监控的通知播报,通过订阅管理可以将通知指定发动到个人或者群组。订阅管理是 SLA 监控保障服务不可或缺的一环。
通知播报
通知播报是本平台所提供的基础通知能力,是降低沟通成本、实现保障服务、提升用户体验的重要手段。在重要节点变更、用户操作、SLA 状态变化等情况下,都会进行通知播报。通知播报形式多样,根据不同的场景,有普通文本消息、加急消息、卡片通知、邮件通知、电话通知等。
SLA 大盘展板
SLA 大盘展板是数据治理方最为关心的部分,展板提供当日 SLA 整体统计信息、SLA 延迟趋势分析信息、SLA 等级分布明细、任务健康度明细、团队 SLA 达成信息统计等丰富信息,是很多团队数据治理指标重要参照来源。
未来展望
未来字节跳动数据治理团队将持续打磨 SLA 保障平台,在卡点策略优化、SLA 推荐算法优化、基于 SLA 的任务管理机制上持续提升技术能力:
- 卡点策略优化:卡点计算作为优化签署流程中核心一环,卡点策略优化代表着签署流程进一步的简化,未来可以探索利用更多有效的信息优化卡点策略。
- SLA 推荐算法优化:SLA 推荐算法是本平台的核算算法之一,已经申请了专利。随着业务的拓展,以及不同种类任务的支持,此算法还有广阔的提升空间,如进一步提升自动签署率,进一步提升准确率等。
- 基于 SLA 的任务管理机制:任务签署 SLA 信息之后,即可依托 SLA 信息进行资源调度优化,并进行资源分配倾斜。
同时,文中阐述的部分能力已经通过火山引擎 DataLeap 产品向企业客户开放,欢迎关注。
开发套件团队正在招人,
点击 阅读原文
了解
产品介绍
火山引擎大数据研发治理套件DataLeap
一站式数据中台套件,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。 后台回复数字“2”了解产品
- End -
扫码进入官方交流群
群内定期进行干货分享
技术交流、福利放送
字节跳动数据平台