火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。
产品迭代一览
大数据研发治理 套件 DataLeap
【公有云-华东区2(上海)开服】
- 数据开发:支持 EMR HSQL、Shell、Python 任务,支持临时查询、任务模板、元数据
- 资源/函数库、任务发布、运维中心等能力
- 数据地图:支持 EMR Hive 元数据检索、采集、血缘图谱等能力。
- 资源组:支持开通公共调度资源组、公共计算资源组、独享计算资源组
【私有化 V2.3 版本发布】
- 全面支持对接 ByteHouse CE
- 新增组件能力并入:数据标准、分布式数据自治
- 底座组件升级至V1.9,支持语言切换全英文版本
【公有云-功能迭代更新】
- 数据开发:支持临时查询功能,新增 EMR Doris SQL 查询类型,EMR MapReduce 任务类型,基于 EMR 引擎提供 MapReduce 任务
- 数据集成:新增 PostgreSQL、Mongo 数据源,新增 PostgreSQL_Hive、Las_PostgreSQL、Mongo_Hive 通道任务
- 数据地图:新增 EMR Doris 元数据采集,并对 ByteHouse CDW 元数据采集进行标准化改造。支持字段探查,LAS 表编辑时不允许字段名和历史重复,支持检索新增的数据类型 EMR Doris。支持 EMR Doris 和 ByteHouse CDW 数据。
云原生数据仓库 ByteHouse
【新增 ByteHouse 云数仓版功能】
- 支持生态集成页面,集中展示 BI 工具,ETL 工具和开发者工具的使用说明
- 正式发布 MaterializedMySQL 支持从 MySQL 数据源中实时同步数据
- 优化 OpenAPI 参数和文档体验,便于客户更好地进行调用
- 优化升级 Go driver,优化客户使用体验并提供功能更新
【新增 ByteHouse 企业版功能】
- 私有化版本全面支持监控告警:飞书告警,邮件告警等
- 私有化版本支持节点替换功能,可在线替换故障节点
- 网关模块更新,全面支持 TCP 协议的负载均衡
- 支持集群健康度巡检,通过操作系统指标、ByteHouse 软件健康指标,查询健康指标等多维度,总结集群当前的健康度评分与改进事项
- 配置下发功能优化,设置时提供配置的最佳实践参考
云原生开源大数据平台 E-MapReduce
【更新 EMR 平台功能】
- 新版本集群对接火山引擎云监控产品,集群对应的节点监控告警、服务告警均可在云监控配置告警规则,同时可展示在告警中心页面。
- 新增 Doris、StarRocks、Impala、Kudu、ClickHouse、Presto、Trino 组件监控指标
【更新 EMR 软件栈】
- 新增软件栈 3.2.1:Doris升级至1.2.1;Kafka升级至2.8.1;Hudi升级至0.12.2;Flink升级至1.16.0,引入StarRocks、Doris、HBase和ByteHouse Connector,支持MySQL Sink,优化多个配置,达到开箱即用;支持avro,csv,debezium-json和avro-confluent等格式;Presto、Trino优化进入客户端方式。
- 新增软件栈 2.2.0:HBase集群中集成Knox组件用于访问代理,并集成了YARN和MapReduce2;Flink引擎支持avro,csv,debezium-json和avro-confluent等格式。
重点功能课堂
大数据研发治理 套件 DataLeap
【分布式自治】 包括工作台、规划、诊断、复盘等全流程治理环节。在治理场景中,提供数据质量安全、资源优化、报警、企业复盘管理等一系列垂直场景。在底层,包含数据全生命周期流程,从数据采集、数据传输、数据存储、数据处理、数据共享到数据销毁。
分布式验收:全员视角可以看到公司级资产,包括整体的健康分体系以及核心指标。团队视角中,主要由业务自己梳理,包括内部的评价体系。
- 权责与规划分布式: 支持自定义治理域,灵活自治,提供多种维度,自定义组合和圈选资产范围。支持创建治理方案及治理规则管理
- 复盘管理: 业务根据自身需要去识别任务是否需要复盘,或者仅仅做问题登记。除此之外,业务还可以用复盘管理能力做内部管理
- 报警归因: 提供所有报警明细,方便查看是否有重复规则,是否有高频报警规则,帮助用户发现无效报警和重复规则,降低告警量和跟起夜率。
- 资源优化: 基于每个团队实际执行情况,提炼出通用的规则。例如,近 90% 认为近 30 天无查询识别。
- 数据安全: 主要专注于清理冗余权限,完善分类分级,提供自定义能力,由业务内部发起 review,完成冗余权限的识别和定义规则,识别之后复用诊断能力。
- SLA 治理: 业务按需申报,发起之后在团队内部进行审核,之后是完成签署,每个节点时间都有实时监控,如果产生延迟和破线情况,会推动业务登记。
更多内容请点击:https://mp.weixin.qq.com/s/_XQI2U2Htng9WzjDRk74pg
云原生数据仓库 ByteHouse
【HaMergeTree】 ClickHouse 使用 ReplicatedMergeTree 引擎来实现数据同步。由于 ReplicatedMergeTree 对 ZooKeeper 的使用比较重,除了每组副本一些表级别的元信息,还存储了逻辑日志、part 信息等潜在数量级较大的信息。当ZooKeeper 在相对较高的负载情况下运行时,往往性能表现并不佳,甚至会出现副本无法写入,数据也无法同步的情况。为此,ByteHouse 自研了高可用数据同步引擎 HaMergeTree,通过 HaMergeTree 降低对 ZooKeeper 的请求次数,减少在 ZooKeeper 上存储的数据量,提高系统稳定性。
HaMergeTree 可以实现:
- 保留ZooKeeper上表级别的元信息;
- 简化逻辑日志的分配;
- 将 part 信息从 ZooKeeper 日志移除。
在保持和 ReplicatedMergeTree 完全兼容的前提下,新的 HaMergeTree 极大减轻了对 ZooKeeper 的负载,实现了 ZooKeeper 集群的压力与数据量不相关。上线后,因 Zookeeper 导致的异常大量减少。无论是单集群几百甚至上千节点,还是单节点上万张表,都能保障良好的稳定性。
更多内容请查看:https://mp.weixin.qq.com/s/nyxOMkTlJZ9BlXIXhTv9nQ
湖仓一体分析服务 LAS
【统一 SQL 访问层】 一套标准 SQL 支持多引擎智能选择和查询加速。
业务痛点:各业务场景需要不同分析引擎,引擎之间语法差异增加用户使用成本。Hive 任务的升级迁移需求。
- 统一 SQL 语法: ANSI 2011标准,统一 SQL 语法,统一权限管控。屏蔽多计算引擎差异,同时支持异构数据源查询,提供统一的查询体验。
- 引擎适配: 将 Query 适配为为各引擎表示,并生成执行计划。其中 Hive/Presto UDF 使用统一的实现,并提供提供通用的 Wrapper。
- SQL 语法解析层: 所有 SQL 执行前均会提供解析,拦截非法或不合理语句,防止资源浪费,如笛卡尔积提前校验,分区校验等。
- SQL 智能路由: 根据数据源,复杂算子及算子数自动选择执行引擎,并提 供自动参数调优。
- Hive 升级诉求: SQL 语法兼容 95+% Hive 语法,字节内部完成全量 Hive 任务 -> SparkSQL 迁移 。
更多内容请查看:https://www.volcengine.com/docs/6492/111830
云原生开源大数据平台 E-MapReduce
【冷热数据分层】
- 成本管理
- 数仓开发者能够直接对表的生命周期,冷热策略做 DDL 管理
- 平台运维者能够定期一键管理存储成本
- 集群预算者能够对成本分布一目了然
- 自动化诊断
- 基于大数据【表/分区/文件】多维度的存储分析
- 提供存储分布和数据使用负载的全视角
- 多计算引擎统一访问信息统计
- 提供优化策略
- 针对存储位置、格式、大小、数据分布提供优化建议
- 优化规则手动+自动的调度执行,减轻运维压力
活动推荐
【活动】DataFunSummit 揭秘字节跳动数据质量前沿探索
【简介】从应用场景视角来看待数据质量问题,通过自动化、智能化技术让数据质量可以被“观测”。把数据质量融入在研发、协作的流程中。了解如何通过智能化的工具提升数据质量,交流数据可观测性的前沿进展
【活动回放】https://developer.volcengine.com/videos/7231391876291821605
【活动】DataFunSummit 火山引擎 DataLeap 计算治理自动化实践和思考
【简介】手动调优的局限性以及多参数相互影响的复杂性,认识到实时监控和反馈在调优过程中的重要性。通过实际案例,了解自动化解决方案在Spark任务调优中的应用和实施过程,以及所取得的成果和效果。思考计算治理自动化解决方案的优势与局限性,并对未来发展趋势和挑战
【活动回放】https://developer.volcengine.com/videos/7231397075932905529
【活动】Apache Hudi 中文社区技术交流会-第九期
【简介】Apache Hudi 是新一代流式数据湖平台,支持插入、更新、删除以及增量数据处理;可助力构建高效的企业级数据湖,目前已经在国内外多个大型公司生产落地。本期第一位嘉宾 徐昱 I vivo 计算平台中心 分享《数据湖化的新思考》,第二位嘉宾 管梓越 I 字节跳动推荐架构工程师 为大家讲解《基于数据湖的样本存储与样本生成》。
案例推荐 & 技术干货
【干货】揭秘字节跳动基于 Doris 的实时数仓探索
【简介】本文详细介绍了火山引擎 EMR 是一款怎样的产品,火山引擎 EMR 团队对 Doris 社区做出了哪些贡献,火山引擎 EMR Doris 目前具备了哪些能力优化,以及后续的规划方向有哪些。
【文章链接】 https://mp.weixin.qq.com/s/siZ-rjREN_s7FFEgPqRgpA
【干货】揭秘字节跳动对Apache Doris 数据湖联邦分析的升级和优化
【简介】本文主要介绍 Apache Doris 设计和开发数据湖联邦分析特性的思考和实践。全文分为三部分,首先介绍数据湖相关技术的演进,其次介绍 Apache Doris 数据湖联邦分析的整体设计和相关特性,最后介绍 Apache Doris 在数据湖联邦分析上的未来规划。
【文章链接】 https://developer.volcengine.com/articles/7341054515371573298
【干货】火山引擎 EMR StarRocks 场景案例分享
【简介】日前 ,火山引擎数智平台(VeDI)旗下产品 E-MapReduce(简称“EMR”)正式上线 StarRocks 集群,为企业客户带来业界领先的引擎性能和产品使用体验。本文将用两个基于火山引擎 EMR StarRocks 的具体实践,为大家详细介绍离线加速和实时分析这两个典型应用场景。
【文章链接】https://developer.volcengine.com/articles/7213611451859075127
【干货】Apache Pulsar 在火山引擎 EMR 的集成与场景
【简介】近年来,基于云原生架构的新一代消息队列和流处理引擎 Apache Pulsar 在大数据领域发挥着愈发重要的作用,其应用场景和客户案例也在不断地丰富与扩充。本文详细介绍了火山引擎 EMR 中 Apache Pulsar 的集成情况和应用场景。
【文章链接】https://mp.weixin.qq.com/s/4XLJ4PQKtIdNGyzhpPU7Ug
【干货】一家企业,如何0-1搭建数据治理体系?
【简介】经过十多年的发展, 数据治理 在传统行业以及新兴互联网公司都已经产生落地实践。字节跳动也在探索一种分布式的数据治理方式,揭秘业务背后的分布式数据治理思路。
【文章链接】 https://mp.weixin.qq.com/s/_XQI2U2Htng9WzjDRk74pg
【干货】火山引擎 DataLeap 专家总结:3个必看的“数据血缘”建设经验!
【简介】数据血缘是帮助用户找数据、理解数据以及使数据发挥价值的基础能力。本文将聚焦数据血缘存储和血缘导出,分享数据血缘的模型设计以及优化,并介绍字节跳动在数据血缘建设过程中所遇到的挑战和技术实现以及数据血缘的具体用例。
【文章链接】https://mp.weixin.qq.com/s/l5w34o9CWAc9n5mX8lPl-A
【干货】DataLeap 数据资产实战:如何实现存储优化?
【简介】本文主要讲述了使用存储后端时,在设计上面的思考,以及在实际过程中遇到的问题经验分享。
【文章链接】https://mp.weixin.qq.com/s/3PeYsOhnJRohuyOsGjq0jw
【干货】湖仓一体架构在 LAS 服务的探索与实践
【简介】LAS 服务是什么?LAS 有哪些优化特性?本文将从基础概念、数据库内核特性优化、数据服务化、业务实践等角度全方位介绍湖仓一体架构在 LAS 的探索与实践。
【文章链接】 https://mp.weixin.qq.com/s/h_qPA8uIRf_RHAx8MdCveQ
【干货】火山引擎 LAS 专家:浅谈数据存储与计算
【简介】存储与计算支撑、推动着数据的生产、留存与应用,是数据智能的基础模块。
那么,存储和计算在大数据架构的实践应用中的现状如何?会遇到哪些挑战?为此,DataFun 与火山引擎 LAS 产品化技术负责人杨诗旻进行了对谈,探讨了上述问题。