「火山引擎」数智平台 VeDI 数据中台产品双月刊 VOL.06

火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。

双月更新，您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~

接下来让我们来看看 5-6 月数据中台产品有什么大事件吧~

产品一句话介绍

火山引擎 大数据研发治理 套件 DataLeap

一站式数据中台套件，帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设，提升数据研发效率、降低管理成本。搭配 EMR/LAS 大数据存储计算引擎，加速企业数据中台及湖仓一体平台建设，为企业数字化转型提供数据支撑。（公众号后台回复数字“2”了解更多产品信息。 ）

火山引擎 云原生 数据仓库 ByteHouse

云原生数据仓库，为用户提供极速分析体验，能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力，极致分析性能和丰富的企业级特性，助力客户数字化转型。（公众号后台回复数字“6”了解更多产品信息。 ）

火山引擎 湖仓一体分析服务 LAS

面向湖仓一体架构的 Serverless 数据处理分析服务，提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力，兼容 Spark、Presto、Flink 生态，帮助企业轻松构建智能实时湖仓。（公众号后台回复数字“4”了解更多产品信息。 ）

火山引擎 云原生 开源 大数据 E-MapReduce

Stateless 云原生开源大数据平台，提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等大数据生态组件，100%开源兼容，支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构，帮助用户轻松完成企业大数据平台的建设，降低运维门槛，快速形成大数据分析能力。（公众号后台回复数字“3”了解更多产品信息。 ）

产品迭代一览

大数据研发治理套件 DataLeap

【 公有云 -华东区2 服务陆续部署】
- 数据质量支持 EMR 引擎的数据监控、数据探查、数据对比等能力
- 数据集成新增支持离线集成、流式集成任务
【私有化-功能迭代更新】
- 支持账号登录对接飞书、飞连、告警信息支持发送到飞书通知
- 数据集成 LAS->Redis,LAS->Mongo,LAS->SQLServer
- 全环境英文版及配套文档
【 公有云 -功能迭代更新】
- 控制台：独享计算资源组支持私有镜像仓库绑定、支持绑定 EMR StarRocks 集群类型、参数设置支持批式/流式关联任务
- 数据治理平台首发上云：包含治理全景、诊断规划、SLA 保障、资源优化、报警归因、复盘管理等重点模板
- 数据开发：EMR Spark 支持 Python 输出、Shell\Python 任务支持使用独享资源组私有镜像、临时查询支持 EMR StarRocks SQL 查询任务类型、流式任务监控，支持 Webhook 报警方式、实时运维概览，新增任务监控大盘和资源使用分析、FinkSQL 任务新增支持输入参数
- 数据集成：Hive->Doris、LAS->ES、PostgreSQL->Hive、Mongo->Hive、MySQL->EMR StarRocks、PostgreSQL->Doris
- 数据地图：支持接入 EMR StarRocks、支持 LAS 引擎创建普通 Hive 表、新增查询优化功能的协议配置功能

云原生数据仓库 ByteHouse

【 ByteHouse 云数仓 版新增功能 】
- 云数仓版支持离线加工任务（灰度），通过资源隔离，事务保障，助力复杂 ELT 任务执行，实现更完整的分析场景覆盖。
- 支持对 MySQL 的语义兼容（灰度），更好地适配 MySQL 源端数据
- 支持导出到火山 TOS 对象存储（正式发布）
- 上线火山引擎华东地域，支持多地域下单购买
- 支持 AWS S3 外表，对 S3 数据直接进行查询
- 上线生态集成页面，提供多种上下游服务的集成说明
- 提供长时有效的 Access Token 配置，便于更好地进行上游服务的对接（正式发布）
【 ByteHouse 企业版新增功能】
- 【重磅】支持集群水平扩容与数据重分布功能，可在线一键扩容集群，自动重分布数据；
- 【BETA】支持冷热分存功能，将低频数据存储至成本更低对象堆存介质中，降本增效；
- 支持可视化修改/下发系统配置；
- 私有化部署版支持集群自助升级引擎版本；
- 私有化部署版支持双因子认证登录。

湖仓一体分析服务 LAS

【新增系统能力】
- 新增近一周表热度统计功能，支持展示当前客户账号近一周访问最频繁的 TOP 10 表。
【新增数据管理功能】
- 数据活性分类 TTL 及冷热分层功能，支持基于 UI & SQL 配置数据保留时间（TTL）及智能冷热类数据分层存储，根据分区创建时间或者表访问时间作为依据，用于数据的自动冷热分层及过期数据删除。
- 支持对列级别的数据设置脱敏规则，并提供针对用户的脱敏权限配置，对不同用户进行不同的数据展示。
【新增失败作业 诊断 功能】
- 支持针对离线 SQL 查询报错信息，提供最常见的失败类型的诊断及错误原因。
【新增权限管理功能】
- 支持对表的脱敏权限进行权限授予、授权列表查看、历史授权的编辑、删除。
- 用户需要同时具备数据权限及加脱敏权限，才可查看未被脱敏的原始数据。
【新增血缘查询功能】
- 支持记录 SQL 作业中参与计算的所有表，并在作业管理页面展示。
【优化 JDBC 连接功能】
- JDBC 连接功能优化，增加功能说明 & 连接教程，提升用户体验。

云原生开源大数据平台 E-MapReduce

【 平台功能更新 】
- Hadoop 集群支持 Task 节点缩容
- DataLeap&EMR 的数据链路&数据开发功能、
  - DataLeap 支持项目绑定 Doris 和 StarRocks 独立集群
  - DataLeap 支持 Doris 和 StarRocks 元数据管理、临时查询、数据开发
- 新增 ECS AMD 第二代 g2a 实例类型，北京、上海、广州 Region 上线
- 新增 ECS Intel 第三代 g3i 机型，目前仅在北京 Region 上线
【 新增软件 栈 3.4.0 】
- 新增 Kyuubi 组件，版本为 1.7.1
- Iceberg 版本升级，从 0.14.0 升级至 1.2.0
- StarRocks 版本升级，从 2.4.1 升级至 2.5.8
- Hive 版本升级，从 3.1.2 升级至 3.1.3
- Presto 版本升级，从 0.267 升级至 0.280
- Trino 版本升级，从 392 升级至 412
- Flink 版本升级，从 1.16.0 升级至 1.16.1
- OpenLDAP 版本升级，从 2.4.58 升级至 2.5.13
- DolphinScheduler 版本升级，从 3.1.3 升级至 3.1.7
【 新增软件 栈 2.3.0 】
- 新增 Phoenix 组件，版本为 4.16.1
- Iceberg 版本升级，从 0.14.0 升级至 1.2.0
- Presto 版本升级，从 0.267 升级至 0.280
- Trino 版本升级，从 392 升级至 412
- Flink 版本升级，从 1.16.0 升级至 1.16.1
- OpenLDAP 版本升级，从 2.4.58 升级至 2.5.13
- DolphinScheduler 版本升级，从 3.1.3 升级至 3.1.7

点击查看更多介绍：https://www.volcengine.com/docs/6491/72143

重点功能课堂

大数据研发治理套件 DataLeap

【 火山引擎 DataLeap 数据安全提供分类分级、数据隐私保护 】

分类分级
- 主动发现敏感数据资产，系统识别提高效率统一数据标准，预置常见分类分级，统一管控扫描任务变更即时生效，在分类分级配置后，可手动设置安全级别和安全分类标签，也可在数据安全中配置识别规则、识别任务，触发系统进行数据识别并打标。在执行数据识别任务后，可在数据标签调整字段标签
数据保护
- 在敏感数据识别的基础之上隐私化，支持对敏感数据进行转换或者修改，防止敏感数据直接在不可靠的环境下使用，从而确保敏感数据泄露风险可控。
  - 数据存储加解密：用户在 SQL 任务/数据集任务中对数据进行 AES 等方式加解密，支持新增目标表
  - 数据脱敏：创建数据脱敏任务进行信息脱敏，支持用户在 SQL 任务中对数据进行哈希脱敏

picture.image

云原生数据仓库 ByteHouse

【 实时导入——HaKafka 】

原架构痛点
- 节点故障：当集群机器数量到达一定规模以后，基本每周都需要人工处理节点故障。对于单副本集群在某些极端 case 下，节点故障甚至会导致数据丢失。
- 读写冲突：由于分布式架构的读写耦合，当集群负载达到一定程度以后，用户查询和实时导入就会出现资源冲突——尤其是CPU和IO，导入就会受到影响，出现消费lag。
- 扩容成本：由于分布式架构数据基本都是本地存储，在扩容以后，数据无法做Reshuffle，新扩容的机器几乎没有数据，而旧的机器上磁盘可能已经快写满，造成集群负载不均的状态，导致扩容并不能起到有效的效果。
自研分布式架构消费引擎 HaKafka
- ByteHouse 团队基于分布式架构自研了一种分布式实时数据引擎——HaKafka。具备以下特点：
- 高可用：ByteHouse 通过 zookeeper 选出一个 Leader，让Leader来真正地执行消费流程，其他节点位于 Stand by 状态。当L eader 节点不可用了，可以在秒级将 Leader 切到 Stand by 节点继续消费，从而实现高可用能力。
- Low—Level 消费模式：HaKafka的消费模式从High Level调整到了Low Level模式。Low Level模式可以保证Topic Partition有序和均匀地分配到集群内各个shard；与此同时，Shard内部可以再一次用多线程，让每个线程来消费不同Partition。从而完全继承了社区Kafka表引擎两级并发的优点。
- Memory Table：Memory Table的做法就是每一次导入数据不直接刷盘，而是存在内存中；当数据达到一定量以后，再集中刷盘，减少 IO 操作。Memory Table可以提供对外查询服务的，查询会路由到消费节点所在的副本去读 memory table 里边的数据，这样保证了不影响数据导入的延时性。

picture.image

说明文档链接（微信域内链接）：https://mp.weixin.qq.com/s/mQSPsbyaawzZskQzkNwzBw

湖仓一体分析服务 LAS

【 LAS 批流一体：一张表同时处理批流数据，简化数据分析架构】

业务痛点
- 批流存储引擎不统一，采取 Lambda 架构，批流任务分开处理，数据存储浪费。
- 多引擎开发和维护复杂，可能造成实时与批量处理结果不一致。
- 复杂的业务逻辑由 Flink 实现、运维和回溯成本高。
解决方案
- 批量导入：历史成单、续约数据批量导入。
- 实时写入：新增订单、续约、退款等近 30 天的数据保持即时更新。
- LAS 存储引擎支持一张表同时支持批流处理两种场景，无需维护多套存储。
- LAS 支持离线+实时统一查询，微批处理，分钟级时效。

picture.image

云原生开源大数据平台 E-MapReduce

【 弹性伸缩策略 】

EMR 弹性伸缩功能，可以帮助您节省成本，提高执行效率，主要应用在以下场景：
- 业务计算负载曲线有明显的波峰波谷情况；
- 你对业务非常熟悉，可以规划固定时间段内集群的计算能力，使之满足业务需求的同时，还可以节省成本；
- 为确保重要作业按时完成，需要在某一时间段内按照某些负载指标扩充节点。
火山引擎 EMR 支持丰富的弹性伸缩策略：
- 基于时间规则的弹性：指定时间点进行弹性扩缩容，支持执行一次或重复执行，提供扩缩容成功后的指定时长的冷却机制；
- 基于集群负载的弹性：按集群负载情况进行弹性扩缩容，如当 YARN 的运行指标大于设定的某个值时，触发弹性扩容；
- 基于混合策略的弹性：在某个时间段内，且某些负载指标大于所指定的阈值时，触发弹性扩缩容，支持了复杂场景的弹性策略设置；
- 瞬态集群颗粒度的弹性：存算分离模式下，EMR 集群可以作为 Stateless 服务，以整个集群为粒度弹性伸缩，成本更优。

picture.image

说明文档链接（非微信域内链接）：https://www.volcengine.com/docs/6491/126106

活动推荐

【活动】DataFunSummit 2023：OLAP 引擎架构峰会 - OLAP 最佳实践论坛

picture.image

【简介】 本场活动中，火山引擎 EMR 研发工程师琚克俭解读了火山引擎 EMR 的产品定位，详细介绍了火山引擎EMR OLAP 云原生能力和引擎能力的最新情况和后续规划，并分享了在客户场景中的最佳实践。

【活动回放】（非微信域内链接） https://developer.volcengine.com/videos/7256713268926890041

【活动】Apache Hudi 中文社区技术交流会-第十一期

picture.image

【简介】 Apache Hudi 是新一代流式数据湖平台，支持插入、更新、删除以及增量数据处理；可助力构建高效的企业级数据湖，目前已经在国内外多个大型公司生产落地。本期第一位嘉宾 Apache Hudi Contributor 林明强分享《Hudi 在唯品会的探索实践》，第二位嘉宾 Apache Flink && Apache Calcite Committer，Apache HUDI Contributor 张静分享《数据湖技术在快手的生产实践》。

【活动回放】（非微信域内链接） Apache Hudi 中文社区技术交流会第十一期.mov

【活动】Apache Hudi 中文社区技术交流会-第十二期

picture.image

【简介】 Apache Hudi 是新一代流式数据湖平台，支持插入、更新、删除以及增量数据处理；可助力构建高效的企业级数据湖，目前已经在国内外多个大型公司生产落地。本期内容由嘉宾火山引擎数据平台研发工程师喻兆靖分享《高性能实时入湖在字节内部场景的实践》。

【活动回放】（非微信域内链接） Apache Hudi 中文社区技术交流会第十二期.mov

案例推荐 & 技术干货

【干货】字节跳动数据技术实战：Spark 性能调优与功能升级

picture.image

【简介】 本文为大家讲解字节跳动在 Spark 技术上的实践——LAS Spark 的基本原理，分析该技术相较于社区版本如何实现性能更高、功能更多，为大家揭秘该技术做到极致优化的内幕，同时，还会为大家带来团队关于 LAS Spark 技术的未来规划。

【文章链接】（微信域内链接） https://mp.weixin.qq.com/s/UUSn4MVsjwCHhJPTnOA8Tg

【干货】Apache Iceberg 中引入索引提升查询性能

picture.image 【简介】 Apache Iceberg 是一种开源数据 Lakehouse 表格式，提供强大的功能和开放的生态系统，如：Time travel，ACID 事务，partition evolution，schema evolution 等功能。

【文章链接】（微信域内链接） https://mp.weixin.qq.com/s/zxVJgfTACYZTNt3xKzKJAQ

【干货】3 步打造“指标管理”体系，幸福里数据中心是这么做的

picture.image

【简介】 从业务背景、业务痛点、幸福里指标数据实践、效果收益四个方面，介绍幸福里如何通过火山引擎DataLeap、DataWind 等数据产品，从 0-1 完成指标体系搭建，并获得显著收益。

【文章链接】（微信域内链接） https://mp.weixin.qq.com/s/u4eNfnFMrGG5lxeSLAOiCA

【干货】火山引擎 DataLeap 联合 DataFun 发布《数据治理知识地图》

picture.image

【简介】 火山引擎 DataLeap 和技术社区 DataFun 联合发布《数据治理知识地图专业版 V1》（以下简称“地图”），地图将数据治理的领域、流程、技术、工具等内容进行系统化整理和分类，为从业者提供全面的学习和思路参考

【文章链接】（微信域内链接） https://mp.weixin.qq.com/s/a7X1mTGV49MaGn39aw3p5g

【干货】火山引擎 Dataleap 治理实践：如何降低数仓建设成本

picture.image

【简介】 为了减轻资源负担，降低数仓维护成本，需要对数仓建设成本进行治理与优化。火山引擎 DataLeap 提供了 Hive 表的资源治理功能，包括 Hive 表的存储与访问次数等基本信息查询，用户可以根据该功能直接定位低频使用数据表并进行优化。

【文章链接】（微信域内链接） https://mp.weixin.qq.com/s/XDSwc50AUCJMgRvHGUVahQ

【干货】以 100GB SSB 性能测试为例，通过 ByteHouse 云数仓开启你的数据分析之路

picture.image

【简介】 从传统数仓、湖仓一体再到云数仓，技术快速迭代，云数仓已经成为数字化基础设施中的关键“底座”。如何才能丝滑使用一款云数仓产品，本篇文章用五个步骤教你搞定！

【文章链接】（微信域内链接） https://mp.weixin.qq.com/s/mc6IqVoVZ_yJBBJck0d6VQ

【干货】ClickHouse进阶｜如何自研一款企业级高性能网关组件？

picture.image

【简介】 使用原生ClickHouse集群进行节点数据查询和写入时，通常会配合使用chproxy来对查询进行负载均衡。但由于chproxy缺少TCP协议支持，导致性能、查询能力等受限。这也成为困扰众多ClickHouse开发者的一大难题。

究竟应该如何突破？本文将揭秘火山引擎ByteHouse企业版自研网关组件如何解决以上问题。

【文章链接】（微信域内链接） https://mp.weixin.qq.com/s/X9vIC8T07LSfpOX5v8beQg

产品迭代一览

大数据研发治理 套件 DataLeap

云原生 数据仓库 ByteHouse

湖仓一体分析服务 LAS

云原生 开源 大数据 平台 E-MapReduce

重点功能课堂

大数据研发治理 套件 DataLeap

云原生 数据仓库 ByteHouse

湖仓一体分析服务 LAS

云原生 开源 大数据 平台 E-MapReduce

活动推荐

【活动】DataFunSummit 2023：OLAP 引擎架构峰会 - OLAP 最佳实践论坛

【活动】Apache Hudi 中文社区技术交流会-第十一期

【活动】Apache Hudi 中文社区技术交流会-第十二期

案例推荐 & 技术干货

【干货】字节跳动数据技术实战：Spark 性能调优与功能升级

【干货】Apache Iceberg 中引入索引提升查询性能

【干货】3 步打造“指标管理”体系，幸福里数据中心是这么做的

【干货】火山引擎 DataLeap 联合 DataFun 发布《数据治理知识地图》

【干货】火山引擎 Dataleap 治理实践：如何降低数仓建设成本

【干货】以 100GB SSB 性能测试为例，通过 ByteHouse 云数仓开启你的数据分析之路

【干货】ClickHouse进阶｜如何自研一款企业级高性能网关组件？

大数据研发治理套件 DataLeap

云原生数据仓库 ByteHouse

云原生开源大数据平台 E-MapReduce

大数据研发治理套件 DataLeap

云原生数据仓库 ByteHouse

云原生开源大数据平台 E-MapReduce