火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。
双月更新,您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~
接下来让我们来看看 1-2 月数据中台产品有什么大事件吧~
产品迭代一览
大数据研发治理套件 DataLeap
-
【新增通道任务功能】
- 数据集成任务新增 PostgreSQL 数据源,支持从 LAS to PostgreSQL 的集成同步。
- 新增 MongoDB 数据源,支持 Mongo to EMR hive 通道作业。
- 扩充 PG 数据同步能力,支持 PostgreSQL to EMR hive 通道作业。
-
【优化 数仓 开发建表规范】
- 控制台智能市场优化,增加代码规范预检查页面,接入并支持数据地图组件。
-
【数据研发体验增强】
- LAS SQL 任务支持对接 LAS Spark STS 模式,降低作业执行时冷启动的时间成本。
- 提交 LAS SQL 任务新增队列水位校验,预览队列及服务资源使用情况,以便适配更合适的资源。
- 资源组策略调整,支持按需扩充资源并发。
- 数据资产地图中 LAS 表支持同步显示数据安全中的敏感列信息。
云原生数据仓库ByteHouse
-
【新增ByteHouse云数仓版功能】
- ByteHouse 云数仓开通 AWS us-east-1 美东地域,助力国内出海企业更好的发展业务。
- 支持 Lambda 和 Python UDF,允许用户自定义函数,精简 SQL 语句,提升查询效率。
- 支持 MaterializedMySQL(灰度中)支持从 MySQL 数据源中实时同步数据。
- ByteHouse Python Driver 支持 SQL alchemy,加速数据 ETL 过程,让数据查询、访问迁移和模型设计更加便捷。
-
【新增ByteHouse企业版功能】
- 在社区版本 MaterializeMySQL 库引擎的基础上支持了集群模式(Distributed_mode),支持将 MySQL 中的库同步到集群并自动分布到每个节点。
- 新增导入数据源:Hive 数据源导入,ClickHosue 数据源导入。
- 新增配置变更功能,可以对集群节点规格实现 scale-up。
湖仓一体分析服务 LAS
-
【新增Presto定时扩缩容功能】
- 队列中交互式分析(Presto)部分支持定时扩缩容。定时 Resize ,超过 Min 部分的费用使用 CU 时收费,同时不可超过 MIN / MAX 配置范围,帮助用户节约计算资源。
-
【新增内部表UI增删字段功能】
- 基于 UI 支持对表增加字段,删除字段。
- 支持 LAS 内表修改表结构,包括增加列、删除列。
-
【新增物化视图自动构建功能】
- 支持自动化物化视图构建与物化视图的自动更新。
- 支持自动加速,支持用户自定义物化视图的加速规则,包括加速范围、加速条件、构建频率、存储上限与清除规则。
-
【新增数据加密应用产品化功能】
- 支持字段级数据加密,加密后,支持在权限管理配置解密权限。
- 支持使用 LAS 托管密钥,内置加密算法,写入及查询时无需手动指定密钥。
云原生 开源 大数据 平台 E-MapReduce
-
【更新 EMR 平台功能】
- Presto,Trino 集群支持 Public History Server(简称“PHS”),集群释放后,仍然可以通过 PHS 查看查询作业日志。
- 包年包月集群支持对集群退订,便于用户更加灵活的创建、退订集群。
-
【更新 EMR 软件 栈 】
- 新增 EMR 软件 栈 3.1.1: StarRocks 集群全量公开发布;新增 Phoenix 组件,版本为 5.1.3,作为 Hadoop 集群的可选组件,HBase 的必选组件;Impala、Kudu、ClickHouse、Doris、StarRocks 等服务的核心指标接入监控和告警管理;HBase 中的表支持 Snappy 压缩;Hive,组件行为与开源保持一致,不再支持中文的表字段名;Doris,版本升级至1.1.5;Hudi,修复开源社区版本存在潜在数据丢失等问题。
- 新增 EMR 软件 栈 2.1.1: Impala、Kudu、ClickHouse、Doris 等服务的核心组件接入告警管理;为 Oozie 系统用户赋予 HDFS 全路径、Hive 库表、YARN 队列等资源的权限;在 Ranger 中默认为系统用户配置 HDFS 等资源的权限。
说明文档链接 :https://www.volcengine.com/docs/6491/72143
重点功能课堂
大数据研发治理套件DataLeap
【数仓建表规范】 DataLeap 智能市场上线“数仓建表规范”功能,该功能通过规范数仓场景下的建表流程,提升项目开发效率,实现快速追踪数据链路,并有效保障交付质量。
- 规则录入: 支持表描述、表存储格式等物理数据检查和表状态、产品线、业务域等标签元数据检查。通过 HSQL DDL 建表或数据地图中导航式/DDL 建表时,均可实现表名规范的自动化检查。
- 自动校验: 数据研发工作流任务,通过 HSQL 类型的节点新建表,在调试或上线时若表名不符合规范,则触发表名规范校验,出现错误提示。
- 生效范围: 通过数据地图导航式或 DDL 新建表,点击解析或提交,若表名不符合规范,触发表名规范校验,出现错误提示。 通过数据地图新建表时,需先选择项目,表名规范检查才会生效。
云原生数据仓库ByteHouse
【查询优化器】 ByteHouse 从零开始自研的了查询优化器,在实现了完善的优化器之后可以直接运行全部 TPC-DS 原始 SQL,并且效率也得到了很大的提升,相对在没优化器的情况下手动改写的 SQL ,性能提升 6 倍以上。在内部的一些业务场景中性能也有近 10 倍的提升。查询优化器具备以下方面的能力:
- RBO: 支持列裁剪、分区裁剪、表达式简化、子查询解关联、谓词下推、冗余算子消除、Outer-JOIN 转 INNER-JOIN、算子下推存储、分布式算子拆分等常见的启发式优化能力。
- CBO : 基于 Cascade 搜索框架,实现了高效的 Join 枚举算法,以及基于 Histogram 的代价估算,对 10 表全连接级别规模的 Join Reorder 问题,能够全量枚举并寻求最优解,同时针对大于 10 表规模的 Join Reorder 支持启发式枚举并寻求最优解。CBO 支持基于规则扩展搜索空间,除了常见的 Join Reorder 问题以外,还支持 Outer-Join/Join Reorder,Magic Set Placement 等相关优化能力。
- 分布式计划优化: 面向分布式 MPP 数据库,生成分布式查询计划,并且和 CBO 结合在一起。相对业界主流实现:分为两个阶段,首先寻求最优的单机版计划,然后将其分布式化。我们的方案则是将这两个阶段融合在一起,在整个 CBO 寻求最优解的过程中,会结合分布式计划的诉求,从代价的角度选择最优的分布式计划。对于 Join/Aggregate 的还支持 Partition 属性展开。
- 高阶优化能力: 实现了 Dynamic Filter pushdown、单表物化视图改写、基于代价的 CTE (公共表达式共享)。
说明文档链接:https://mp.weixin.qq.com/s/P5BfuKRXzgb6Lfwx5iCY7w
湖仓一体分析服务 LAS
【LAS 统一元数据:数据高效管理,消除数据孤岛】
- 业务痛点: N 个计算引擎产品,使用分散的元数据、权限,难以保障数据一致性,系统对接也更加困难。
- 统一 元数据 : 屏蔽了下层各个系统的元数据的异构性,统一对接 BI 工具及计算引擎(Spark/Presto)。
- Hive 兼容:API 与 Hive (Hive Metastore,HMS)兼容。
- 单一来源:自研 Hudi Metastore Server 提供多租户的、中心化的元数据服务,保证元数据的单一来源。
- 特性结合:自研 Hudi Metastore Server 融合了 HMS 和 Hudi MetaData 管理的优势,LAS 表不仅可以提供基于 Hudi 的高效更新、删除、增量消费能力,也具备 Hive 表的元数据获取及分区 TTL 清理能力。
- 高效并发:自研并发控制模块,提供高效的并发更新能力。解决在 Hive 数仓中遇到的数据更新成本高的问题,支持对海量的离线数据做更新删除。
云原生开源大数据平台E-MapReduce
【存算分离】
-
更低成本,更优架构:
- 更少的存储:对象存储没有 HDFS 副本概念,按照默认 3 副本,计算存算分离占据的存储容量只有 HDFS 的三分之一。
- 按需的计算: 无需常驻 DataNode,按需弹性使用计算节点,减少常驻节点,成本减少三分之一。
-
缓存加速,性能保障:
- 原生对象存储 : 不使用任何缓存加速,使用原生对象存储,性能损耗控制在本地 HDFS 存储 到 10% 以内。
- 缓存加速: 开启缓存服务,加速查询,速度达到 HDFS 速度的 100%。
- 元数据加速: 元数据不再存储于集群内的节点,可达到亿级元数据管理能力。
活动推荐
【活动】超话数据 · 线上直播:高效分析 · 智能决策,教你复制「字节跳动」数据驱动路径
【简介】 随着企业数据规模与日俱增,企业需要一套数据中台辅助看数、算数和用数,实现降本增效、辅助决策。本次分享聚焦字节跳动数据中台实践,从算数(计算引擎优化)到用数(智能化决策场景)切入,并结合金融领域解决方案和实践案例,为大家带来数据中台建设思考。
- 议题一:从业务出发,解读字节跳动万亿级数据 中台 实战
- 议题二:轻松管数,一站式 数据治理 助力企业数字化升级
- 议题三:如何算数?计算引擎提速, ByteHouse 实时计算能力升级
- 议题四:「高效看数」智能决策,解密企业级可视化 BI 平台
【活动回放】https://developer.volcengine.com/videos/7206220316496887865**
【活动】Doris Summit 2022
【简介】 近两年,Apache Doris 社区的开发者和用户规模持续呈现增长状态,全球范围内已上千家用户正在使用 Apache Doris 构建他们的数据分析平台和服务。为帮助全体用户更好地使用 Apache Doris,社区发起并组织了首次峰会 - Doris Summit 2022,火山引擎很荣幸成为这次峰会的合作伙伴。峰会预期于 2023 年 1 月 6 日-1 月 7 日举行,议程将涵盖技术深度解析、业务最佳实践和数据生态联合解决方案等方面内容。火山引擎开源大数据平台 E-MapReduce 团队杜军令和黄昭伟两位技术专家受邀在峰会上进行分享。
【活动回放】
《Apache Doris数据湖联邦分析特性揭秘》: https://www.volcengine.com/docs/6491/173932
《火山引擎EMR基于Doris的实时数仓探索》: https://www.volcengine.com/docs/6491/173933
【活动】 火山引擎 DataLeap 分布式数据自治分享与实践
【简介】 本期活动主要介绍了分布式数据自治。 以业务单元的实际需求为出发点,基于分布式自治,全生命周期数据治理方法论,提供规划式与响应式双路径的治理路径,协助业务内部进行治理过程线上化、规则化、自驱诊断与推进,提高治理效率,降低业务影响、将治理经验复用最大化。分布式自治以业务单元为数据治理闭环单元,通过完善的产品工具,将管理视角转化为监督视角,解决数据治理落地痛点。
【活动回放】 https://developer.volcengine.com/videos/7184299181803044923
【活动】火山引擎DataLeap入围《数据治理产业图谱 1.0》
【简介】 1 月 4 日,由中国信息通信研究院、云计算与大数据研究所、中国通信标准化协会,大数据技术标准推进委员会等权威机构主办的第五届「数据资产管理大会」上,发布了首届《数据治理产业图谱 1.0》火山引擎 DataLeap 作为数据治理产品深度入围综合治理产品-数据管理一体化平台、专项治理产品-数据集成及开发平台等多个细分领域。在推动数据治理市场及治理产业发展起到积极作用,未来将为市场和客户提供更优质的产品服务。
【活动回放】https://mp.weixin.qq.com/s/3Xpilltl18uShxpAt8Oyow
【活动】火山引擎 DataLeap 通过中国信通院测评,数据管理能力获权威认证!
【简介】 火山引擎大数据研发治理套件 DataLeap 通过中国信通院第十五批“可信大数据”测评,数据管理平台基础能力通过评测,本次评测包括数据源管理、元数据管理、数据质量管理、数据标准管理、数据共享服务管理、数据安全管理、兼容性测试与安全测试等多项测试用例,火山引擎大数据研发治理套件 DataLeap 在此次测评中全部通过。
【活动回放】https://mp.weixin.qq.com/s/iNPQnALGiEsOnWXhXKnpzQ
【活动】火山引擎DataLeap入选《2022爱分析 ·DataOps厂商全景报告》
【简介】 基于成熟的解决方案和扎实的落地能力,火山引擎数据产品覆盖敏捷数据管道、智能数据资产目录、指标中台、数据可观测行平台等全部领域,成功入选全景地图。除此之外,凭借旗下大数据研发治理套件产品 DataLeap,火山引擎荣膺一站式数据开发管理平台市场的代表厂商。
【活动回放】https://developer.volcengine.com/articles/7200716664835407932
案例推荐 & 技术干货
【干货】什么是瞬态集群?解读火山引擎 EMR Stateless 的创新理念以及应用
【简介】 什么是瞬态集群,什么是 Stateless 理念?本文从基础概念、架构体系、演进过程、实际运用场景 & 使用价值等多个角度全方位介绍 EMR Stateless 的创新理念以及应用。
【文章链接】https://mp.weixin.qq.com/s/FCj4Hx4rzpZeeoad5XIjaw
【干货】从云上 EMR 到 EMR Stateless,什么变了?
【简介】 EMR Stateless 作为火山引擎提出的理念,站在 EMR 自身视角,是对“On Cluster”形态的极致优化,支撑火山引擎 EMR 迈向更高阶的云原生时代。站在用户视角,EMR Stateless 通过将状态剥离实现轻量化的集群交付,在为用户节约成本、提高资源利用率的同时,也能够让用户从繁重的运维工作中解脱,更加聚焦自身业务,真正做到降本增效,为企业赋能。
【文章链接】https://mp.weixin.qq.com/s/GPEmmPd3lN7hVKg7IzpqGA
【干货】字节跳动基于 Apache Hudi 的数据湖实战解析
【简介】 作为新一代数据湖平台,Apache Hudi 在实时场景中广泛使用。但在应用过程中也存在同步执行、异步执行等问题。本文引入 Hudi 表服务面临的问题与挑战,将从技术架构、核心功能与未来规划等角度来进行对 LAS 表服务管理的剖析,介绍 LAS 内执行计划生成流程与异步生成执行计划,详细解读字节跳动基于 Apache Hudi 的优化方案和最佳实践。
【文章链接】https://mp.weixin.qq.com/s/IxDXTqII3FQTKDXjpTtW6A**
【干货】字节跳动在湖仓一体领域的最佳实践
【简介】 在企业数据湖的实践中,最主要的挑战不是构建数据湖,而是如何从数据湖的数据中获益。湖仓一体概念的提出,将用户熟悉的数仓方案与数据湖进行融合,在保留数据灵活性的同时,也纳入了更强的数据的管理能力、安全管控能力,让数据湖和数据仓库的边界变得模糊。而火山引擎的湖仓一体产品 LAS,基于湖仓一体架构构建的全托管大数据平台,解决了传统大数据平台开发难、运维难、成本高等痛点。
【文章链接】https://mp.weixin.qq.com/s/ikk_c5BOXqg_vVBK0xXQbQ
【干货】火山引擎 DataLeap「数据血缘」踩过哪些坑?来看看字节跳动内部进化史
【简介】 DataLeap 数据资产平台提供元数据搜索、展示、资产管理以及知识发现能力。数据血缘是帮助用户找数据、理解数据以及使数据发挥价值的重要基础。借助血缘变更实现数据监控 ,提高业务和技术人员感知,最终捕获血缘变化影响情况,为智能化场景链路提升决策效率。
【文章链接】 https://mp.weixin.qq.com/s/8dVRjRXLle7EJmOI8Sh9yQ
【干货】火山引擎 DataLeap 3 个关键步骤,复制字节跳动一站式数据治理经验
【简介】 火山引擎 DataLeap 是一站式数据研发治理平台,本期话题核心围绕实践展开分享,从数据治理思路、平台建设以及能力升级三个步骤出发,全面复制字节跳动数据治理经验。