「火山引擎」数智平台 VeDI 数据中台产品双月刊 VOL.07

火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。

双月更新，您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~

接下来让我们来看看 7-8 月数据中台产品有什么大事件吧~

产品迭代一览

大数据研发治理套件 DataLeap

【 公有云 -华南区服务部署】
- 基于 EMR、流式计算 Flink 引擎下的数据集成、数据研发、数据安全、数据质量、数据地图、数据服务模块
- 数据开发支持 EMR 引擎任务类型、通用任务、流式计算 Flink 版任务类型
- 数据集成新增支持离线集成、流式集成任务
- 数据安全支持权限管理、风险审计、审批中心
- 数据质量支持 EMR 引擎的数据监控、数据探查、数据对比等能力
- 数据地图支持数据检索、专题、血缘、元数据采集支持 EMR Hive/Doris/StarRocks
- 数据服务支持创建数据集、QUERY，并支持 API 监控运维、应用管理、系统管理等全量功能
【 公有云 -华东区服务部署】
- 支持 LAS、流式计算 Flink 引擎下的离线流式任务
- 数据地图、数据质量、数据安全支持 LAS 服务能力
【私有化-功能迭代更新】
- 离线数据集成支持 Gbase8S2LAS、OceanBase2LAS、实时集成 Kafka2LAS
- 数据开发支持 LAS Flink 任务类型
- 指标平台支持 HBase 数据源创建模型绑定
- 数据地图支持 GaussDB 元数据采集
- 数据安全新增审计日志功能
【 公有云 -功能迭代更新】
- 数据开发：新增 EMR Doris、EMR StarRocks 任务类型、Shell\Python\Notebook 任务支持 0.25CU/0.5CU 资源规格配置、临时查询支持交互式分析 Notebook 查询类型、LAS SQL 依赖推荐功能支持引导创建 Sensor 任务、Serverless Flink SQL 新增数据源登记支持自动解析、DAG 任务血缘查看、LAS、EMR 流式任务新增数据源登记类型、支持 EMR Doris、EMR StarRocks 元数据表查看及智能联想等
- 数据集成：整库离线同步：MySQL、PostgreSQL、SQLServer、Oracle 同步至 LAS、实时整库同步：MySQL、PostgreSQL、SQLServer 同步至 LAS、Doris 、 StarRocks
- 数据地图：EMR Hive、LAS 元数据支持以单库表形式进行采集、LAS/LAS Hive 支持 TTL 、支持 EMR Doris 库表管理
- 数据质量：新增支持质量订阅功能
- 数据安全：库表资源的历史权限查看、权限设置查看历史操作、按资源自动审批、审批流支持触发节点、支持批量上下载行枚举值、支持自定义问答&申请审批问答&批量设置问题、审批工单支持重新申请、新增资源包、自定义角色组，并支持应用在权限负责人、按角色代办等功能

云原生数据仓库 ByteHouse

【 ByteHouse 云数仓版新增功能 】
- [云数仓版 SaaS] 上线火山引擎华东地域，支持多地域下单购买（正式发布）
- [云数仓版 SaaS] 支持数据导入任务相关的监控和告警（正式发布）
- [云数仓版 SaaS] 新增定时任务功能，支持对计算资源定时弹性伸缩（灰度发布）
- [云数仓版 SaaS] 支持 SQL Editor，提供更完整的语义高亮支持，优化用户体验（灰度发布）
- [云数仓版 SaaS] 支持 AWS Glue (ETL)，支持导出到 AWS S3
- [云数仓版 SaaS] 完成与 ClickHouse PHP driver 兼容
【 ByteHouse 企业版新增功能 】
- [企业版 PaaS] 开放 MySQL 端口，支持兼容 MySQL 协议、语法、函数
- [企业版 PaaS] 支持创建时选择 3 副本及以上副本数

湖仓一体分析服务 LAS

【 公共云-功能迭代更新 】
- 服务区域：在华东区域全线开服，与原有华北区域组成 2 大服务区域，能更好服务更大范围的客户。
- 数据管理：新增 Table 类型，支持 Hive 内部表类型，开放 WareHouse 文件目录，快速帮助 Hadoop 用户无缝迁移至 LAS。
- 迁移工具：提供 Hadoop HDFS / Hive 迁移工具，加速 Hadoop 平滑迁移，保质保量。
- 查询分析：增强“SQL 编辑器”能力，智能补全包含库表联想、关键字填充、子句自动输入、语法自动识别等能力。
【 私有化 2.0 上线 】
- 更加面向 Hadoop 开源生态
  - 本次迭代统一管控了 Hadoop、HBase、Kafka、Hive、OpenSearch、Tez、Kerberos、ZooKeeper，元数据配置上新增了 Hive Meta 支持集群内置 MySQL、独立 RDS。
  - 面向生态提供开源组件的技术能力。
  - Hadoop 生态、CDH 体系向 LAS 2.0 的迁移更容易对标、集成更容易实现。
- LAS 湖仓能力、引擎增强
  - 存储引擎：新增非结构化文件的上传 / 存储 / 共享 / 处理 / HDFS 语义支持。
  - 资源调度：新增 YARN 资源管理编排能力。
  - 队列管理：支持创建及修改队列：配置队列 min、max 资源 quota、设置并发度、设置队列权重。
- 运维管控能力大幅提升
  - 底层平台：支持运行在基于国产芯片架构的服务器上，包括国产 ARM 架构-鲲鹏，以及其他架构（至少支持 Intel X86 架构）的服务器上。兼容主流的 Linux 操作系统，支持国产操作系统，例如麒麟。
  - 集群管理：提供图形化的集群部署能力；创建支持预置自定义参数。支持集群重启；查看重启日志：查看服务重启的进度、当前环节状态、日志信息重启下线。对集群软件资源进行监控，保证平台运行效率软硬件资源日志和报错信息等。
  - 搭建并不断完善的一条面向集群、主机、服务、组件、参数粒度的全生命周期管控能力。
  - 重构了开箱即用的集群部署能力，全白屏化的一体化能力，界面操作实现全部组件的部署，包括 HA、安全等能力。

云原生开源大数据平台 E-MapReduce

【 平台功能更新 】
- 亚太东南（柔佛）Region 发布，欢迎体验！
- 节点组支持垂直变配，支持升级节点配置规格
- Presto、Trino 独立集群集成 Iceberg connector、Hudi connector
- 节点监控指标丰富，包括 HDFS、Yarn、Zookeeper 等服务监控指标
- Kafka、Pulsar、Clickhouse、Doris、Starrocks 独立集群下线 PL0 云盘，存量集群不受影响
【 新增软件 栈 3.4.4 】
- StarRocks 组件默认将 QueryProfile 功能关闭
- StarRocks 组件中添加元数据管理功能，适配火山云服务大数据研发治理套件 DataLeap
【新增软件 栈 2.3.2】
- 修复 Spark 运行日志存放路径
- Ranger 中为 Spark 用户赋予库表的操作权限，解决 Spark ThriftServer 告警问题

点击查看更多介绍：https://www.volcengine.com/docs/6491/72143

重点功能课堂

大数据研发治理套件 DataLeap

【 火山引擎DataLeap ：整库搬迁解决方案上线，节省数据迁移成本】

火山引擎大数据研发治理套件 DataLeap 上线整库搬迁解决方案，包括整库离线同步、整库实时同步两大能力，大大提升数据上云便捷性，降低数据迁移成本，使用户易上手，低运维。整库迁移支持通过批量创建同步任务，如把一个Mysql DB 库内所有表一并上传到 LAS 中；整库 CDC 支持一键同步一个库内的多张表，先进行全量同步，后进行 CDC 实时同步。

整库离线同步： 用户可通过火山引擎 DataLeap 周期性或一次性将整库表数据同步到目标端，方案包括“一次性全量、周期性全量、一次性增量、周期性增量、一次性全量周期性增量”五种类型，支持 MySQL、PostgreSQL、SQLServer、Oracle 等数据源；
整库实时同步： 通过火山引擎 DataLeap 一键进行数据的全、增量一体化实时同步。整库实时同步解决方案支持“使用缓存”、“无需缓存，直接同步”两种缓存配置方式。一键实时整库同步解决方案支持多种数据源之间全增量一体化同步，之后再通过实时同步增量任务，依照选择配置单独选择进行实时增量数据同步，助力您将业务数据更高效、更便捷的同步至目标数据库中。

picture.image

云原生数据仓库 ByteHouse

【克服 ClickHouse 运维难题： ByteHouse 水平扩容功能 】

在字节跳动内部，由于业务的快速增长，经常遇到集群规划性能不足，需要扩容的问题。字节内部，ByteHouse 支撑了内部数据看板，用户行为分析性等多个业务，服务的持续在线、性能的迅速提升非常重要，且用户表的表结构也非常多样。

基于内部需求，ByteHouse 自研了集群扩容能力，解决了自动化流程的问题，也提供了性能开销更低的扩容方式。

数据库引擎优化
- ByteHouse 的数据库引擎自研了 Alter Table...Resharding命令，将一张表以分区的粒度进行重分布到另一张表。该命令支持两种方式：
- 重分布到其他集群的另一张表。
- 重分布到本集群的另一张表。

picture.image

操作界面优化
- ByteHouse 数据库实现了 SQL 的底层能力进行数据重分布，实现了开销更低、适应性更强的重分布能力，但对于普通用户而言仍有使用门槛。因此 ByteHouse 在控制台也支持了水平扩容功能，组装了底层能力，实现产品化。
- 通过界面化操作，ByteHouse 给用户的扩容流程带来了全新的便利：
- 全流程自动化，不再需要自行编写脚本。
- 开放一小部分手动空间。例如，在扩容前可选立即重分布的表，对于剩余的表，可在扩容后再选择时间重分布任务，适应一些希望在业务低峰时扩容大表，进一步降低大表只读带来的影响。
- 包含容错处理，自动校验数据，流程便利可靠。

picture.image

说明文档链接：https://developer.volcengine.com/articles/7254818612518027325

湖仓一体分析服务 LAS

【 LAS 助力搭建 大数据 +AI 湖仓 平台（ GPU ）】

丰富的数据处理
- 完善 Python 生态：LAS PySpark + DataLeap Notebook
- GPU 加速：LAS Spark & Rapids
- 降低数据处理门槛：LAS Spark English SDK
深度学习LASML Runtime
- Pandas on PySpark
- Imported Model Support
- PyTorch/TensorFlow on PySpark
弹性 GPU 资源
- 基于 Volcano Scheduler 深度优化，支持 GPU 资源调度和按量付费能力
- 具备混合 Quota 能力，队列一体化（分析/加工/训练/推理）
极致特征存储
- 字节内部基于 ByteLake 构建离线特征存储

picture.image

云原生开源大数据平台 E-MapReduce

【 EMRStarRocks】

picture.image

目前，火山引擎 EMR 已正式上线 StarRocks 集群。除 100% 开源兼容，完整提供 StarRocks 原生能力外，火山引擎 EMR 团队还进行了多方面的能力增强，为企业客户带来业界领先的引擎性能和产品使用体验。
StarRocks 引擎自身的产品特性：
- MPP 分布式执行框架，单查询性能随集群水平扩展而不断提升。
- 全面向量化执行引擎，充分发挥 CPU 处理能力。
- 全新设计并深度定制的 CBO 优化器，包含多项优化和创新。
- 可实时更新的列式存储引擎，降低存储成本，提升查询性能。
- 支持智能物化视图，加速用户的查询请求。
- 可作为计算引擎直接分析数据湖中的数据。
EMR StarRocks 增强特性
- 与火山引擎大数据开发套件 DataLeap、全域数据集成 DataSail 等云上生态产品无缝对接，满足用户一站式的数据开发和集成需求。
- 引擎增强，同时支持 Serving 和分析场景
- 提供企业级诊断分析能力
- 提供丰富的监控告警、扩容、参数和日志管理等功能

说明文档链接：https://www.volcengine.com/docs/6491/165967

活动推荐

【活动】DTCC2023 第 14 届中国数据库技术大会 - 《字节跳动基于开源 OLAP 引擎的探索与实践》

picture.image

【简介】 本次分享主要介绍了 火山引擎EMR如何基于 开源OLAP引擎构建实时分析平台，字节内部实践深度优化的OLAP内核 引擎如何去支撑客户的海量数据分析，支撑数百张业务表的实时数据导入和数百万次日查询，助力客户业务成功。

【活动回放】 https://developer.volcengine.com/articles/7278571191692951609

【活动】StarRocks 云原生湖仓 Meet Up 第二期 - 《火山引擎 EMR 在 StarRocks 成本优化上的思考》

picture.image

【简介】本次分享主要介绍了 火山引擎EMR 基于 StarRocks 的最新 存算分离 版本进行的探索和实践，详细解读了在成本、弹性、资源隔离和可靠性等方面带来的提升。目前，火山引擎 EMR StarRocks 已经在旅游、在线教育和游戏等多个行业取得了广泛应用，证明了其在不同领域的可靠性和适用性。

【活动回放】 https://developer.volcengine.com/articles/7278537449540845609

【活动】DataFunSummit 2023：数据指标体系峰会 - 从懂车帝业务看火山引擎 DataLeap 如何在数仓模型和产品应用中落地

picture.image

【简介】 本场活动中， 火山引擎 资深数仓研发工程师肖继哲解读 懂车帝 通过DataLeap指标服务统一构建汽车行业全方位的指标应用场景，从而建立指标体系构建规范，明确指标口径定义。了解指标建设如何在数仓模型及开发工作中收敛。最终建设指标体系的监控策略，保障指标数据质量和SLA 。

【活动回放】 https://developer.volcengine.com/videos/7277482014654562345

【活动】火山引擎 DataLeap分享：DataOps、数据治理、指标体系最佳实践

picture.image

【简介】 在7月21日ArchSummit 全球架构师峰会（深圳站）及 DataFunCon.数据智能创新与实践大会（北京站）上，来自 火山引擎DataLeap 的三位专家分别就 DataOps 、数据治理和指标体系等方向进行了精彩的分享 。

【活动回放】 https://mp.weixin.qq.com/s/tll1FDfKIaYKZfZlYUJrlw

【活动】CommunityOverCode Asia 2023

picture.image

【简介】随着 大数据 时代的到来，数据分析和 OLAP 技术在企业中的应用也越来越广泛，邀请业内的专家和学者分享他们在数据分析和 OLAP 技术方面的研究成果、实践经验和最新发展，涵盖数据分析和 OLAP 技术的研究进展、应用案例、最佳实践、性能优化等方面。

《基于 Apache Calcite 的多引擎指标管理最佳实践》

《大数据行列混合权限精细化管理实践》

《字节跳动基于 Parquet 格式的降本增效实践》

【活动回放】 https://apachecon.com/acasia2023/zh/tracks/olap.html

案例推荐 & 技术干货

【干货】OLAP 在火山 EMR 的最佳实践

picture.image 【简介】 传统OLAP架构，解决的更多是离线分析场景的需求，随着大规模数据服务场景的增多，业务侧不断有新的诉求提出，对数据分析的时效性要求变高，当前架构中存储和计算资源耦合，不同业务、时段及用户对二者要求往往不同，导致集群响应不够及时等问题。本文重点分享OLAP在火山EMR上的 云原生 能力及在火山相关客户中的应用实践。

【文章链接】 https://mp.weixin.qq.com/s/81Ti5F5Ld-UKSPTuSvQUqg

【案例】途牛科技与火山引擎数智平台合作打造企业大数据系统“降本”新范式

picture.image 【简介】 南京途牛科技有限公司与 火山引擎 数智平台（ VeDI ）达成深入合作，途牛 大数据 系统全面迁移至火山引擎 云原生 开源 大数据平台E-MapReduce ，双方携手打造企业大数据系统“降本”新 范式。

【文章链接】 https://www.51cto.com/article/763701.html

【干货】DataLeap 数据资产实战：如何实现存储优化

picture.image

【简介】 Data Catalog作为 火山引擎 大数据研发治理 套件DataLeap产品的核心功能之一，经过多年打磨，服务于字节跳动内部几乎所有核心业务线，解决了数据生产者和消费者对于元数据和资产管理的各项核心需求。

【文章链接】 https://mp.weixin.qq.com/s/EnbE3MM8I8ND-phu86rPeg

【干货】从“13 天”到“0 天”延时，揭秘幸福里离线 SLA 保障最佳实践

picture.image

【简介】幸福里团队通过引入火山引擎大数据研发治理套件 DataLeap，综合推进离线数仓的 SLA 治理，将离线数仓 SLA 从 13 天降低为 0 天。本文将从策略制定、任务摸排收集、规范确定，宣贯推进等方向还原项目推进过程，期望为更多企业带来 SLA 治理思考和解决方案。

【文章链接】 https://mp.weixin.qq.com/s/siSwrqVrsgAicgYz8c5_Dg

【干货】字节跳动基于 Hudi 的机器学习应用场景

picture.image

【简介】本文主要介绍 火山引擎LAS 团队自研的多场景样本离线存储技术，用于处理 机器学习 系统的离线数据流。同时，还会为大家揭秘 流批一体 样本生成的过程，分享对 Hudi内核 所做出的优化和改造，探索其在数据处理领域的实际应用和效果。

【文章链接】 https://mp.weixin.qq.com/s/rvMjuofEndsPzIU4fTEsDw

【干货】干货丨字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践

picture.image

【简介】本文对目前主流数仓架构及 数据湖 方案的不足之处进行分析，介绍了字节内部基于实时/离线数据存储问题提出的的 湖仓 一体方案的设计思路，并分享该方案在实际业务场景中的应用情况。最后还会为大家分享 LAS 团队对湖仓一体架构的未来规划。

【文章链接】 https://mp.weixin.qq.com/s/TBdbqZmyh-ttSCIDJ0CU7g

产品迭代一览

大数据研发治理 套件 DataLeap

云原生 数据仓库 ByteHouse

湖仓一体分析服务 LAS

云原生 开源 大数据 平台 E-MapReduce

重点功能课堂

大数据研发治理 套件 DataLeap

云原生 数据仓库 ByteHouse

湖仓一体分析服务 LAS

云原生 开源 大数据 平台 E-MapReduce

活动推荐

【活动】DTCC2023 第 14 届中国数据库技术大会 - 《字节跳动基于开源 OLAP 引擎的探索与实践》

【活动】StarRocks 云原生湖仓 Meet Up 第二期 - 《火山引擎 EMR 在 StarRocks 成本优化上的思考》

【活动】DataFunSummit 2023：数据指标体系峰会 - 从懂车帝业务看火山引擎 DataLeap 如何在数仓模型和产品应用中落地

【活动】火山引擎 DataLeap分享：DataOps、数据治理、指标体系最佳实践

【活动】CommunityOverCode Asia 2023

案例推荐 & 技术干货

【干货】OLAP 在火山 EMR 的最佳实践

【案例】途牛科技与火山引擎数智平台合作 打造企业大数据系统“降本”新范式

【干货】DataLeap 数据资产实战：如何实现存储优化

【干货】从“13 天”到“0 天”延时，揭秘幸福里离线 SLA 保障最佳实践

【干货】字节跳动基于 Hudi 的机器学习应用场景

【干货】干货丨字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践

大数据研发治理套件 DataLeap

云原生数据仓库 ByteHouse

云原生开源大数据平台 E-MapReduce

大数据研发治理套件 DataLeap

云原生数据仓库 ByteHouse

云原生开源大数据平台 E-MapReduce

【案例】途牛科技与火山引擎数智平台合作打造企业大数据系统“降本”新范式