敏捷研发、分布自治:火山引擎业务为先的数据中台新模式

数据中台大数据数据湖仓
导语

2021年12月2日,云产品发布会「数智引擎」分论坛上,火山引擎数据平台产品总监张辉带来了题为《敏捷研发、分布自治:业务为先的数据中台新模式》的演讲

picture.image 火山引擎数据平台产品总监张辉

以下为演讲正文:

大家好,我是张辉,今天分享的主题是关于“数据中台”。我们在这个领域沉淀了多年经验,也积累了一些思考,希望能借今天这个机会与大家交流。今天的分享有三个关键词:业务为先、敏捷研发、分布自治

  • 业务为先:这是字节做“数据中台”过程中的核心思想,我们希望数据中台的核心是为业务服务,支撑业务发展是我们的第一要务。
  • 敏捷研发、分布自治:这两个关键词是我们在实践过程中,对数据中台服务及工具体系的思考。

字节的业务很多,每个业务的发展阶段、发展过程都不同,这给字节的数据中台提出了更多挑战。我们需要适应不同类型的业务、适应业务的各种发展阶段,帮助业务构建适合自身增长的数据中台模式。同时,业务发展也累积了大量数据,数据增长带来的管理和治理压力非常大。

业务为先的数据中台核心解决两个问题

我们认为“业务为先”的数据中台核心要解决两个问题:

  • 组织协同问题

改善组织中数据管理者与数据使用者之间的数据流动,这其中的核心是与数据消费者(业务方)构建更好的合作关系,帮助业务增长;

  • 加速数据价值交付

我们不但要解决交付问题,而且要确保最终交付的数据是有价值的。这不是简单地把数据提供给业务,而是要产出有质量保障的可靠数据。

在解决这两个核心问题的过程中,字节的数据中台工具经历了三个发展阶段,这三个阶段也是当下很多企业正在经历的。

picture.image

  • 第一阶段:缺什么补什么

以解决一些单点问题为目标,比如增加了调度系统、数据同步系统等。

  • 第二阶段:工具整合,提供统一的数据开发平台

数据开发平台是研发导向的,目标是提高数据研发效率,从而帮助开发者提效。

  • 第三阶段:全链路数据中台

这里要解决的核心问题是如何支撑业务。一方面要解决数据全生命周期的问题,覆盖从数据需求提升到最终交付的全过程;另一方面要体现价值,数据交付要做到又准又好。

1个服务评价体系+2个闭环

picture.image

我们总结了数据中台的三个核心关键点:1个体系、2个闭环。

  • 服务评价体系。 核心是用于衡量中台效率和成绩。采取BP(Business Partner)模式,在内部称为数据BP。从这个名称里,可以看到我们希望与业务走得更近;
  • 全链路数据研发闭环。 提供从需求、开发、测试、发布、运维到价值验证等全链路能力,支撑整个数据全链路的价值交付;
  • 数据治理闭环。 基于分布式治理这一核心,完成从发现数据问题,到诊断、执行,最后到复盘的全过程。

服务评价体系

为什么一个数据中台团队要做服务评价体系?很多公司发展过程中肯定遇到过以下问题:我组建的数据中台团队要带来什么样的价值?我如何说清楚?怎么做才算有价值?如何评价事情的好坏优劣?

针对这些问题,我们总结了一套 “0987”高质量服务评价体系,从多个维度综合论证数据中台的价值、成功与否

  • “0”:第一维度,关注稳定性指标,指数据中台产生数据要稳定,做到故障数SLA故障清零;
  • “9”:第二维度,关注需求满足度,业务需求满足率要达到90%;
  • “8”:第三维度,关注数据中台数仓完善度,分析师查询覆盖率达到80%;
  • “7“:第四维度,关注用户满意度,我们用NPS指标来看服务满意度,向业务同学收集调查问卷,目标NPS是70%。

敏捷数据研发闭环

敏捷数据研发主要用于解决质量与效率问题,有三个关键点:

picture.image

  • 全链路覆盖

数据研发的链路比较长,我们需要对全链路进行分析,才能找到在链路中有哪些是可以通过工具建设、流程优化来解决的,最终实现整个链路效率的完善,使得业务交付时间变成小时级别。

同样,业务流程不是一成不变的,而是千人千面的。不同业务处于不同阶段,数据量和质量标准也都不一样。因此,我们需要能够找到属于业务自身的标准,基于此构建业务全链路标准。

  • CI/CD 能力

在CI/CD能力里,有一个概念是“DataOps”,是参考了DevOps的能力并结合数据研发特性构建出来的。CI/CD能力的建设,核心是保证研发同学专注于写代码,其他诸如建表规范、研发规范、安全审核等,则通过工具以自动化的方式来解决。

  • 治理的结合

在治理中,会获取和存储大量的元数据信息,这些元数据可以用来优化体验,并且当我们将这些元数据信息提供给研发系统后,就可将“事后治理”转变为“事前治理”。

下面是敏捷研发产品的架构图。

picture.image

我们构建了大量的插件能力,可以选择相关能力进行业务整合,包括建模规范、开发代码规范、使用参数规范、安全规范、安全扫描等,都可以自由组合,实现提效。

数据治理闭环

在数据治理闭环中,我们提出了 “分布式”的理念。分布式的概念来源于大数据系统,核心是建立一个无中心、且各节点可以单独运行的机制。

字节每个业务发展不一样,用一套治理方案让业务去参考执行是有问题的。结合字节的数据治理经验,我们认为数据治理也应该根据业务需要灵活处理。

因此我们提出了“分布式”治理的理念。也就是说,各业务不需要按照统一模式去执行,可以按照自己的情况进行治理,随着业务增长螺旋式地将业务治理提升到一个高水位。

picture.image

我们也总结了关于治理的三个观点:

  • 治理核心一定是组织问题

我们对组织问题的观点是需要构建一个更高效的组织模式。组织模式可以体现在建立更加轻量化的治理委员会,而不是中心制的管理模式。

治理委员会核心要解决规范、对多团队协作且无法达成的共识做快速决策。当大家有问题时需要上升,这时候治理委员会就会发挥作用,大多数时候问题是不需要上升的;

另外,各业务可以自下而上去驱动,主动做治理。这里体现的依旧是组织协同的问题。在字节,每个人都希望可以发挥主观能动性去做事。基于这个逻辑,我们通过产品化的方式让每个人都可以拉动资源处理问题,这样就能把不定时治理变成日常治理。

  • 治理一定要为业务服务

数据治理一定要将对业务发展的影响缩小到最小范围。核心在于业务可以自己发现问题,并愿意主动治理,实现业务自驱地确认目标、达成目标。

相应地,对产品来说,要能将治理产品的能力分拆出来,业务可以自由选择最核心需要治理的部分,优先解决核心问题。

  • 工具一定是为了降本提效

治理需要保证最高效的执行效率。如何保证?我们沉淀了两个关键点:系统智能和专家经验

系统智能是通过元数据,自动分析解决问题。专家经验则是指各个团队沉淀下来的治理相关经验。成熟团队可以沉淀很多专家经验,不那么成熟的团队则可以参考经验构建自己的逻辑。

所以经验协同也是产品需要承载的能力,把治理从中心化、统一的治理委员会需要完成的事情转变成全集团各个业务自治,形成较好协同的事情。

picture.image

以分布式治理中SLA治理能力为例。实际上这是一个“稳定性保障定义”,比如任务是否每天6点产出就是典型的SLA保障任务,如果没有产生就是一个故障。

稳定性SLA治理核心是解决全链路稳定问题。很多公司觉得这很好解决,大家拉群说一下就可以。但对于大公司或复杂业务来说,就没那么容易了。

有可能一个6点产出的任务,会涉及到几十个团队,拉几十个人的群去协商,过程极其费力、费时,且口头协商也很难真的得到保障。

所以我们通过产品构建全链路SLA保障,对整个闭环进行控制:

  • 业务可以按需在系统里进行申报
  • 任务全部签署之后,剩下的问题全部交给系统。

我们通过系统级的保障,确保签署任务可以及时完成。比如从调度到引擎的全链路优先级调控,进行资源倾斜,以及故障复盘与跟进。通过一段时间的不断迭代,就可以实现整个业务的SLA保障。我们仅用一年时间就完成了字节内所有业务的SLA全链路保障,比同类实践至少快了两三倍。

picture.image

通过敏捷研发链路结合分布式治理,我们构建了事前、事中、事后的完整治理闭环。

三大产品能力介绍

这次围绕企业数据中台能力的构建,我们发布了三个产品:一站式大数据治理研发套件(DataLeap)、湖仓一体分析服务 LAS、开源 Hadoop 生态大数据平台 EMR。

  • 一站式大数据治理研发套件(DataLeap)

picture.image

DataLeap提供了研发、治理、资产全链路能力,包括全链路研发、全生命周期治理能力。希望可以沉淀数据规范,把字节经验给到大家,同时企业也可以共享数据规范。

另外,DataLeap还提供企业级的数据安全保障能力,包括相关审核、安全合规能力。现在数据安全已经成为了企业需要具备的基本数据能力。DataLeap提供了多样部署能力,包括私有化部署、公有云PaaS服务,支持多元部署,并且完成了CDH的支持,未来也会支持更多底座。

  • 湖仓一体分析服务 LAS

picture.image

LAS全称是湖仓一体分析服务。LAS产品基于弹性容器架构,提供极致弹性能力,通过Serverless能力帮助企业降低成本。

LAS提供了SparkSQL,支持引擎自动选择,提供一体化的体验;同时还提供湖仓一体的整体能力,通过底层数据实时更新,数据更新从小时级别降低到分钟级别内。另外,LAS也支持批流一体,通过流批一体存储格式,帮助企业整体降低流批一体的入手和使用门槛。

  • 开源 Hadoop 生态大数据平台 EMR

picture.image

EMR是一个开源大数据平台,重点在于对开源完美的兼容,EMR集成了常见的开源组件,包括集成开源Apache Spark,Flink,Hive、Presto等主流组件;通过Kerberos认证,组件安全加固,Master&元数据高可用设计、统一细粒度数据权限控制等来实现企业级安全可靠。

另外EMR简单易用、成本更优。我们做到了分钟级创建和扩容集群,集群管理运维和日志统一查询服务。同时EMR是无缝集成DataLeap,用户可以自由选择不同引擎。

总结
  • 敏捷研发

敏捷研发的逻辑是基于 DataOps 思想,完善整个全链路数据研发的体验,包括从数据的需求管理到模型设计、开发、发布、运维,到最后完整的效果评估体系,帮助构建数据研发闭环,数据价值高效交付。

  • 分布式治理

通过分布式治理理念,让治理能够适配于各种不同阶段的业务,各个业务都可以自己利用产品和工具进行治理,根据自己当前的发展阶段设定自己的治理目标,最终在最小化影响业务的基础上完成治理工作。

  • 湖仓引擎

这次发布的两个引擎类产品,EMR 和 LAS,分别是半托管的开源数据平台以及全托管的数据计算服务,如果对开源更加感兴趣可以选择 EMR,如果目标就是为了业务为先,建议选择 LAS。

  • 敏捷服务

我们希望与企业合作过程中,提供一套更加高效、敏捷的服务模式,帮助企业构建自身的敏捷研发体系,同时帮助企业把数据治理变成日常。

另外,我们也希望能帮助企业提升数据中台团队能力,达到和字节一样的“0987”高标准,快速搭建数据中台,助力企业实现数字化转型。

0
0
0
0
关于作者
相关资源
湖仓一体加速引擎 Bolt 及在 LAS 的应用实践
Spark、Presto等引擎原Java执行的性能优化进入瓶颈期,而基于向量化和编译优化的native引擎,可获两倍性能加速比,降低资源成本。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论