一文了解字节跳动如何解决数据SLA治理难题(下)

技术

picture.image

扫码进入官方交流群

群内定期进行干货分享

技术交流、福利放送

字节跳动数据平台

基于字节跳动分布式治理的理念,数据平台数据治理团队自研了SLA保障平台 目前已在字节内部得到广泛使用,并支持了绝大部分数据团队的SLA治理需求,每天保障的SLA链路数量过千,解决了数据SLA难对齐、难保障、难管理的问题。 本文将分为上、下篇发布。上篇点击回顾,下篇重点介绍数据SLA如何进行复盘管理以及保障平台的架构设计。

picture.image

文 | 录铸

来自字节跳动数据平台开发套件团队

picture.image

复盘管理详解

复盘管理是本平台提供的响应式治理服务的实现方式,是数据治理方的重点关注对象。复盘管理又分为问题管理与事故管理,问题管理侧重于“为什么”——即整理分析SLA破线的原因,事故管理侧重于“怎么做”——即SLA破线事故之后该怎么治理。

01 - 问题管理

问题管理模块的整体目标是满足数据治理团队对SLA问题的登记管理,支持对登记后的问题数据进行不同维度根因数据分析,辅助用户对问题根因进行治理,沉淀治理问题经验。

平台在进行系统保障监控时,会在SLA延迟时进行通知播报,并持续提醒负责人进行问题登记。在问题登记时,平台提供了一组根因树辅助登记,明确问题根因类别,方便统计分析。任务负责人进行问题登记后,累积数据展示在问题看板上,数据治理方由此做问题分析归纳总结。

picture.image

平台保证了 SLA 延迟记录与问题之间是一一对应的关系,并在问题看板上关联了 SLA 详情信息,包括任务链路、负责人、任务起止时间等。

问题登记往往是一个从多到少的过程,前期出现的问题在逐一治理解决后,将对后期的治理起到很好的参考警示作用,它的数据价值如下:

  • 不同 SLA 问题类型的趋势分布,针对性的治理问题
  • 相同根因引发了多少 SLA 问题,涉及影响多少数据资产
  • 哪些数据资产经常出现 SLA 问题,问题的分类以及是什么根因造成的
  • SLA 问题经验总结,方便类似问题发生后,后期做推荐辅助快速定位根因

根据平台运营的记录显示,常见的问题有资源队列阻塞、上游任务故障、数据倾斜等。某数据团队双月问题登记总结如下,问题数量和问题根因种类得到了有效的收敛:

picture.image

02 - 事故管理

事故管理用于记录 SLA 破线事故的复盘与改进管理,每个事故至少对应一条 SLA 问题记录,而每个 SLA 问题不一定会造成事故。

事故可以在任意节点进行,一般在 SLA 破线并造成实际的业务影响之后,需要进行事故登记,事故登记同样会关联相关的 SLA 信息。一个事故的处理流程如下所示:

picture.image

如图所示,事故主要包含 SLA 事故明细、SLA 事故根因、改进计划及 SLA 消耗这几部分,在这其中可以关注以下几点:

  1. 事故在登记时,会根据事故明细确认事故根因,并让相应负责人提出改进计划

  2. 用户可以订阅事故,在事故的复盘状态及其改进计划的完成状态变化时,都会通知订阅人

  3. 任务的改进计划在完成前,每日都会提醒计划负责人,直到计划完成为止

SLA 事故管理平台的数据是数据治理方治理成果的重要依据,也是整个 SLA 保障平台使用效果的体现,它的数据价值如下:

  • 对事故的复盘归档管理,方便后期随时查阅,定位相关 SLA 信息
  • 针对不同数据团队发生 SLA 事故的整体情况进行对比查看,互相借鉴
  • 对事故的改进计划管理跟踪,验收 SLA 的治理效果

以下是某个团队的双月事故统计:

picture.image

通过上述数据可知,本平台有效保障了核心任务的稳定产出,辅助降低了稳定性事故发生的概率,现在每双月该类型事故数量长期维持在个位数。

picture.image

平台架构总结

平台整体主要分为基础组件、规划式治理服务、响应式治理服务三大块,系统组件架构图如下:

picture.image

01 - 规划式治理服务

所谓“规划式治理”,即在问题发现前治理,通过主动规划约定 SLA 的形式保障任务产出。规划式治理是 SLA 相关问题发现的过程。

规划式治理服务即“提供以申报单签署的方式达成 SLA 协议的服务”,包括在此过程中申报单的生命周期管理操作,申报任务的链路分析,以及达成 SLA 之后的系统保障监控,服务于“申报签署流程”。

02 - 响应式治理服务

响应式治理是指通过复盘管理模块对 SLA 相关的事故/问题进行登记、管理、复盘的过程。在发现 SLA 相关问题之后,需要对问题进行处理,形成一个完整的闭环,在发现问题后进行的治理成为响应式治理。

响应式治理服务模块抽象出问题登记和事故管理两个模块,更加灵活的服务于数据 SLA 的问题归因与事故统计。

03 - 基础组建

基础组件提供了配置、播报、看板等基本功能模块服务,为规划式、响应式治理服务提供了必要支撑,是整体 SLA 保障服务不可或缺的一环。

系统配置

  • 治理团队配置

治理团队为 SLA 的管理团队,每个申报单都需要绑定一个治理团队,治理团队主要负责审批申报单。

picture.image

  • 数据团队配置

数据团队为数据的归属方,一个数据团队对应一个业务团队,数据团队的设计保障了各个业务团队独立治理的需求。平台通过对数据团队的灵活配置支持,可以更细粒度的划分数据与任务的归属,解决权责不清的问题。

  • 订阅配置

订阅管理是配置订阅信息的平台,本平台的订阅为 SLA 监控的通知播报,通过订阅管理可以将通知指定发动到个人或者群组。订阅管理是 SLA 监控保障服务不可或缺的一环。

picture.image

通知播报

通知播报是本平台所提供的基础通知能力,是降低沟通成本、实现保障服务、提升用户体验的重要手段。在重要节点变更、用户操作、SLA 状态变化等情况下,都会进行通知播报。通知播报形式多样,根据不同的场景,有普通文本消息、加急消息、卡片通知、邮件通知、电话通知等。

SLA 大盘展板

SLA 大盘展板是数据治理方最为关心的部分,展板提供当日 SLA 整体统计信息、SLA 延迟趋势分析信息、SLA 等级分布明细、任务健康度明细、团队 SLA 达成信息统计等丰富信息,是很多团队数据治理指标重要参照来源。

picture.image

未来展望

未来字节跳动数据治理团队将持续打磨 SLA 保障平台,在卡点策略优化、SLA 推荐算法优化、基于 SLA 的任务管理机制上持续提升技术能力:

  • 卡点策略优化:卡点计算作为优化签署流程中核心一环,卡点策略优化代表着签署流程进一步的简化,未来可以探索利用更多有效的信息优化卡点策略。
  • SLA 推荐算法优化:SLA 推荐算法是本平台的核算算法之一,已经申请了专利。随着业务的拓展,以及不同种类任务的支持,此算法还有广阔的提升空间,如进一步提升自动签署率,进一步提升准确率等。
  • 基于 SLA 的任务管理机制:任务签署 SLA 信息之后,即可依托 SLA 信息进行资源调度优化,并进行资源分配倾斜。

同时,文中阐述的部分能力已经通过火山引擎 DataLeap 产品向企业客户开放,欢迎关注。

picture.image

开发套件团队正在招人,

点击 阅读原文

了解

产品介绍

火山引擎大数据研发治理套件DataLeap

一站式数据中台套件,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。 后台回复数字“2”了解产品

- End -

picture.image

扫码进入官方交流群

群内定期进行干货分享

技术交流、福利放送

字节跳动数据平台

61
0
0
0
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论