「火山引擎」数据中台产品双月刊 VOL.04

火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。

产品迭代一览

大数据研发治理套件 DataLeap

【新增通道任务功能】
- 数据集成任务新增 PostgreSQL 数据源，支持从 LAS to PostgreSQL 的集成同步。
- 新增 MongoDB 数据源，支持 Mongo to EMR hive 通道作业。
- 扩充 PG 数据同步能力，支持 PostgreSQL to EMR hive 通道作业。
【优化 数仓 开发建表规范】
- 控制台智能市场优化，增加代码规范预检查页面，接入并支持数据地图组件。
【数据研发体验增强】
- LAS SQL 任务支持对接 LAS Spark STS 模式，降低作业执行时冷启动的时间成本。
- 提交 LAS SQL 任务新增队列水位校验，预览队列及服务资源使用情况，以便适配更合适的资源。
- 资源组策略调整，支持按需扩充资源并发。
- 数据资产地图中 LAS 表支持同步显示数据安全中的敏感列信息。

说明文档链接 ：https://www.volcengine.com/docs/6260/65395/?utm_source=wechat_dp&utm_medium=yuekan&utm_term=doc_link&utm_campaign=20230310&utm_content=datamidoff

云原生数据仓库ByteHouse

【新增ByteHouse云数仓版功能】
- ByteHouse 云数仓开通 AWS us-east-1 美东地域，助力国内出海企业更好的发展业务。
- 支持 Lambda 和 Python UDF，允许用户自定义函数，精简 SQL 语句，提升查询效率。
- 支持 MaterializedMySQL（灰度中）支持从 MySQL 数据源中实时同步数据。
- ByteHouse Python Driver 支持 SQL alchemy，加速数据 ETL 过程，让数据查询、访问迁移和模型设计更加便捷。
【新增ByteHouse企业版功能】
- 在社区版本 MaterializeMySQL 库引擎的基础上支持了集群模式（Distributed_mode），支持将 MySQL 中的库同步到集群并自动分布到每个节点。
- 新增导入数据源：Hive 数据源导入，ClickHosue 数据源导入。
- 新增配置变更功能，可以对集群节点规格实现 scale-up。

湖仓一体分析服务 LAS

【新增Presto定时扩缩容功能】
- 队列中交互式分析（Presto）部分支持定时扩缩容。定时 Resize ，超过 Min 部分的费用使用 CU 时收费，同时不可超过 MIN / MAX 配置范围，帮助用户节约计算资源。

picture.image

【新增内部表UI增删字段功能】
- 基于 UI 支持对表增加字段，删除字段。
- 支持 LAS 内表修改表结构，包括增加列、删除列。
【新增物化视图自动构建功能】
- 支持自动化物化视图构建与物化视图的自动更新。
- 支持自动加速，支持用户自定义物化视图的加速规则，包括加速范围、加速条件、构建频率、存储上限与清除规则。

picture.image

【新增数据加密应用产品化功能】
- 支持字段级数据加密，加密后，支持在权限管理配置解密权限。
- 支持使用 LAS 托管密钥，内置加密算法，写入及查询时无需手动指定密钥。

picture.image

云原生开源大数据平台 E-MapReduce

【更新 EMR 平台功能】
- Presto，Trino 集群支持 Public History Server（简称“PHS”），集群释放后，仍然可以通过 PHS 查看查询作业日志。
- 包年包月集群支持对集群退订，便于用户更加灵活的创建、退订集群。
【更新 EMR 软件栈】
- 新增 EMR 软件栈 3.1.1： StarRocks 集群全量公开发布；新增 Phoenix 组件，版本为 5.1.3，作为 Hadoop 集群的可选组件，HBase 的必选组件；Impala、Kudu、ClickHouse、Doris、StarRocks 等服务的核心指标接入监控和告警管理；HBase 中的表支持 Snappy 压缩；Hive，组件行为与开源保持一致，不再支持中文的表字段名；Doris，版本升级至1.1.5；Hudi，修复开源社区版本存在潜在数据丢失等问题。
- 新增 EMR 软件栈 2.1.1： Impala、Kudu、ClickHouse、Doris 等服务的核心组件接入告警管理；为 Oozie 系统用户赋予 HDFS 全路径、Hive 库表、YARN 队列等资源的权限；在 Ranger 中默认为系统用户配置 HDFS 等资源的权限。

说明文档链接 ：https://www.volcengine.com/docs/6491/72143

重点功能课堂

大数据研发治理套件DataLeap

【数仓建表规范】 DataLeap 智能市场上线“数仓建表规范”功能，该功能通过规范数仓场景下的建表流程，提升项目开发效率，实现快速追踪数据链路，并有效保障交付质量。

规则录入： 支持表描述、表存储格式等物理数据检查和表状态、产品线、业务域等标签元数据检查。通过 HSQL DDL 建表或数据地图中导航式/DDL 建表时，均可实现表名规范的自动化检查。
自动校验： 数据研发工作流任务，通过 HSQL 类型的节点新建表，在调试或上线时若表名不符合规范，则触发表名规范校验，出现错误提示。
生效范围： 通过数据地图导航式或 DDL 新建表，点击解析或提交，若表名不符合规范，触发表名规范校验，出现错误提示。通过数据地图新建表时，需先选择项目，表名规范检查才会生效。

picture.image

说明文档链接 ：https://www.volcengine.com/docs/6260/164793?utm_source=wechat_dp&utm_medium=yuekan&utm_term=doc_link&utm_campaign=20230310&utm_content=datamidoff

云原生数据仓库ByteHouse

【查询优化器】 ByteHouse 从零开始自研的了查询优化器，在实现了完善的优化器之后可以直接运行全部 TPC-DS 原始 SQL，并且效率也得到了很大的提升，相对在没优化器的情况下手动改写的 SQL ，性能提升 6 倍以上。在内部的一些业务场景中性能也有近 10 倍的提升。查询优化器具备以下方面的能力：

RBO： 支持列裁剪、分区裁剪、表达式简化、子查询解关联、谓词下推、冗余算子消除、Outer-JOIN 转 INNER-JOIN、算子下推存储、分布式算子拆分等常见的启发式优化能力。
CBO ：基于 Cascade 搜索框架，实现了高效的 Join 枚举算法，以及基于 Histogram 的代价估算，对 10 表全连接级别规模的 Join Reorder 问题，能够全量枚举并寻求最优解，同时针对大于 10 表规模的 Join Reorder 支持启发式枚举并寻求最优解。CBO 支持基于规则扩展搜索空间，除了常见的 Join Reorder 问题以外，还支持 Outer-Join/Join Reorder，Magic Set Placement 等相关优化能力。
分布式计划优化： 面向分布式 MPP 数据库，生成分布式查询计划，并且和 CBO 结合在一起。相对业界主流实现：分为两个阶段，首先寻求最优的单机版计划，然后将其分布式化。我们的方案则是将这两个阶段融合在一起，在整个 CBO 寻求最优解的过程中，会结合分布式计划的诉求，从代价的角度选择最优的分布式计划。对于 Join/Aggregate 的还支持 Partition 属性展开。
高阶优化能力： 实现了 Dynamic Filter pushdown、单表物化视图改写、基于代价的 CTE （公共表达式共享）。

picture.image

说明文档链接： https://mp.weixin.qq.com/s/P5BfuKRXzgb6Lfwx5iCY7w

湖仓一体分析服务 LAS

【LAS 统一元数据：数据高效管理，消除数据孤岛】

业务痛点： N 个计算引擎产品，使用分散的元数据、权限，难以保障数据一致性，系统对接也更加困难。
统一 元数据 ：屏蔽了下层各个系统的元数据的异构性，统一对接 BI 工具及计算引擎（Spark/Presto）。
Hive 兼容：API 与 Hive (Hive Metastore，HMS）兼容。
单一来源：自研 Hudi Metastore Server 提供多租户的、中心化的元数据服务，保证元数据的单一来源。
特性结合：自研 Hudi Metastore Server 融合了 HMS 和 Hudi MetaData 管理的优势，LAS 表不仅可以提供基于 Hudi 的高效更新、删除、增量消费能力，也具备 Hive 表的元数据获取及分区 TTL 清理能力。
高效并发：自研并发控制模块，提供高效的并发更新能力。解决在 Hive 数仓中遇到的数据更新成本高的问题，支持对海量的离线数据做更新删除。

picture.image

云原生开源大数据平台E-MapReduce

【存算分离】

更低成本，更优架构：
- 更少的存储：对象存储没有 HDFS 副本概念，按照默认 3 副本，计算存算分离占据的存储容量只有 HDFS 的三分之一。
- 按需的计算： 无需常驻 DataNode，按需弹性使用计算节点，减少常驻节点，成本减少三分之一。
缓存加速，性能保障：
- 原生对象存储 ：不使用任何缓存加速，使用原生对象存储，性能损耗控制在本地 HDFS 存储到 10% 以内。
- 缓存加速： 开启缓存服务，加速查询，速度达到 HDFS 速度的 100%。
- 元数据加速： 元数据不再存储于集群内的节点，可达到亿级元数据管理能力。

picture.image

活动推荐

【活动】超话数据 · 线上直播：高效分析 · 智能决策，教你复制「字节跳动」数据驱动路径

picture.image

【简介】 随着企业数据规模与日俱增，企业需要一套数据中台辅助看数、算数和用数，实现降本增效、辅助决策。本次分享聚焦字节跳动数据中台实践，从算数（计算引擎优化）到用数（智能化决策场景）切入，并结合金融领域解决方案和实践案例，为大家带来数据中台建设思考。

议题一：从业务出发，解读字节跳动万亿级数据 中台实战
议题二：轻松管数，一站式 数据治理 助力企业数字化升级
议题三：如何算数？计算引擎提速， ByteHouse 实时计算能力升级
议题四：「高效看数」智能决策，解密企业级可视化 BI 平台

【活动回放】 https://developer.volcengine.com/videos/7206220316496887865**

【活动】Doris Summit 2022

picture.image

【简介】 近两年，Apache Doris 社区的开发者和用户规模持续呈现增长状态，全球范围内已上千家用户正在使用 Apache Doris 构建他们的数据分析平台和服务。为帮助全体用户更好地使用 Apache Doris，社区发起并组织了首次峰会 - Doris Summit 2022，火山引擎很荣幸成为这次峰会的合作伙伴。峰会预期于 2023 年 1 月 6 日-1 月 7 日举行，议程将涵盖技术深度解析、业务最佳实践和数据生态联合解决方案等方面内容。火山引擎开源大数据平台 E-MapReduce 团队杜军令和黄昭伟两位技术专家受邀在峰会上进行分享。

【活动回放】

《Apache Doris数据湖联邦分析特性揭秘》： https://developer.volcengine.com/articles/7342493401847169074

《火山引擎EMR基于Doris的实时数仓探索》： https://developer.volcengine.com/articles/7344023080492089381

【活动】火山引擎 DataLeap 分布式数据自治分享与实践

picture.image 【简介】 本期活动主要介绍了分布式数据自治。 以业务单元的实际需求为出发点，基于分布式自治，全生命周期数据治理方法论，提供规划式与响应式双路径的治理路径，协助业务内部进行治理过程线上化、规则化、自驱诊断与推进，提高治理效率，降低业务影响、将治理经验复用最大化。分布式自治以业务单元为数据治理闭环单元，通过完善的产品工具，将管理视角转化为监督视角，解决数据治理落地痛点。

【活动回放】 https://developer.volcengine.com/videos/7184299181803044923

【活动】火山引擎DataLeap入围《数据治理产业图谱 1.0》

picture.image

【简介】 1 月 4 日，由中国信息通信研究院、云计算与大数据研究所、中国通信标准化协会，大数据技术标准推进委员会等权威机构主办的第五届「数据资产管理大会」上，发布了首届《数据治理产业图谱 1.0》火山引擎 DataLeap 作为数据治理产品深度入围综合治理产品-数据管理一体化平台、专项治理产品-数据集成及开发平台等多个细分领域。在推动数据治理市场及治理产业发展起到积极作用，未来将为市场和客户提供更优质的产品服务。

【活动回放】 https://mp.weixin.qq.com/s/3Xpilltl18uShxpAt8Oyow

【活动】火山引擎 DataLeap 通过中国信通院测评，数据管理能力获权威认证！

picture.image

【简介】 火山引擎大数据研发治理套件 DataLeap 通过中国信通院第十五批“可信大数据”测评，数据管理平台基础能力通过评测，本次评测包括数据源管理、元数据管理、数据质量管理、数据标准管理、数据共享服务管理、数据安全管理、兼容性测试与安全测试等多项测试用例，火山引擎大数据研发治理套件 DataLeap 在此次测评中全部通过。

【活动回放】 https://mp.weixin.qq.com/s/iNPQnALGiEsOnWXhXKnpzQ

【活动】火山引擎DataLeap入选《2022爱分析 ·DataOps厂商全景报告》

picture.image

【简介】 基于成熟的解决方案和扎实的落地能力，火山引擎数据产品覆盖敏捷数据管道、智能数据资产目录、指标中台、数据可观测行平台等全部领域，成功入选全景地图。除此之外，凭借旗下大数据研发治理套件产品 DataLeap，火山引擎荣膺一站式数据开发管理平台市场的代表厂商。

【活动回放】 https://developer.volcengine.com/articles/7200716664835407932

案例推荐 & 技术干货

【干货】什么是瞬态集群？解读火山引擎 EMR Stateless 的创新理念以及应用

picture.image

【简介】 什么是瞬态集群，什么是 Stateless 理念？本文从基础概念、架构体系、演进过程、实际运用场景 & 使用价值等多个角度全方位介绍 EMR Stateless 的创新理念以及应用。

【文章链接】 https://mp.weixin.qq.com/s/FCj4Hx4rzpZeeoad5XIjaw

【干货】从云上 EMR 到 EMR Stateless，什么变了？

picture.image

【简介】 EMR Stateless 作为火山引擎提出的理念，站在 EMR 自身视角，是对“On Cluster”形态的极致优化，支撑火山引擎 EMR 迈向更高阶的云原生时代。站在用户视角，EMR Stateless 通过将状态剥离实现轻量化的集群交付，在为用户节约成本、提高资源利用率的同时，也能够让用户从繁重的运维工作中解脱，更加聚焦自身业务，真正做到降本增效，为企业赋能。

【文章链接】 https://mp.weixin.qq.com/s/GPEmmPd3lN7hVKg7IzpqGA

【干货】字节跳动基于 Apache Hudi 的数据湖实战解析

picture.image

【简介】 作为新一代数据湖平台，Apache Hudi 在实时场景中广泛使用。但在应用过程中也存在同步执行、异步执行等问题。本文引入 Hudi 表服务面临的问题与挑战，将从技术架构、核心功能与未来规划等角度来进行对 LAS 表服务管理的剖析，介绍 LAS 内执行计划生成流程与异步生成执行计划，详细解读字节跳动基于 Apache Hudi 的优化方案和最佳实践。

【文章链接】 https://mp.weixin.qq.com/s/IxDXTqII3FQTKDXjpTtW6A**

【干货】字节跳动在湖仓一体领域的最佳实践

picture.image

【简介】 在企业数据湖的实践中，最主要的挑战不是构建数据湖，而是如何从数据湖的数据中获益。湖仓一体概念的提出，将用户熟悉的数仓方案与数据湖进行融合，在保留数据灵活性的同时，也纳入了更强的数据的管理能力、安全管控能力，让数据湖和数据仓库的边界变得模糊。而火山引擎的湖仓一体产品 LAS，基于湖仓一体架构构建的全托管大数据平台，解决了传统大数据平台开发难、运维难、成本高等痛点。

【文章链接】 https://mp.weixin.qq.com/s/ikk_c5BOXqg_vVBK0xXQbQ

【干货】火山引擎 DataLeap「数据血缘」踩过哪些坑？来看看字节跳动内部进化史

picture.image

【简介】 DataLeap 数据资产平台提供元数据搜索、展示、资产管理以及知识发现能力。数据血缘是帮助用户找数据、理解数据以及使数据发挥价值的重要基础。借助血缘变更实现数据监控，提高业务和技术人员感知，最终捕获血缘变化影响情况，为智能化场景链路提升决策效率。

【文章链接】 https://mp.weixin.qq.com/s/8dVRjRXLle7EJmOI8Sh9yQ

【干货】火山引擎 DataLeap 3 个关键步骤，复制字节跳动一站式数据治理经验

picture.image

【简介】 火山引擎 DataLeap 是一站式数据研发治理平台，本期话题核心围绕实践展开分享，从数据治理思路、平台建设以及能力升级三个步骤出发，全面复制字节跳动数据治理经验。

【文章链接】 https://mp.weixin.qq.com/s/iG728ny32XWhL695cnTcdw

产品迭代一览

大数据研发治理套件 DataLeap

云原生数据仓库ByteHouse

湖仓一体分析服务 LAS

云原生 开源 大数据 平台 E-MapReduce

重点功能课堂

大数据研发治理套件DataLeap

云原生数据仓库ByteHouse

湖仓一体分析服务 LAS

云原生开源大数据平台E-MapReduce

活动推荐

【活动】超话数据 · 线上直播：高效分析 · 智能决策，教你复制「字节跳动」数据驱动路径

【活动】Doris Summit 2022

【活动】 火山引擎 DataLeap 分布式数据自治分享与实践

【活动】火山引擎DataLeap入围《数据治理产业图谱 1.0》

【活动】火山引擎 DataLeap 通过中国信通院测评，数据管理能力获权威认证！

【活动】火山引擎DataLeap入选《2022爱分析 ·DataOps厂商全景报告》

案例推荐 & 技术干货

【干货】什么是瞬态集群？解读火山引擎 EMR Stateless 的创新理念以及应用

【干货】从云上 EMR 到 EMR Stateless，什么变了？

【干货】字节跳动基于 Apache Hudi 的数据湖实战解析

【干货】字节跳动在湖仓一体领域的最佳实践

【干货】火山引擎 DataLeap「数据血缘」踩过哪些坑？来看看字节跳动内部进化史

【干货】火山引擎 DataLeap 3 个关键步骤，复制字节跳动一站式数据治理经验

云原生开源大数据平台 E-MapReduce

【活动】火山引擎 DataLeap 分布式数据自治分享与实践