「火山引擎」数智平台 VeDI 数据中台产品双月刊 VOL.03

火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。

双月更新，您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~

接下来让我们来看看 11-12 月数据中台产品有什么大事件吧~

产品一句话介绍

火山引擎大数据研发治理套件 DataLeap

一站式数据中台套件，帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设，提升数据研发效率、降低管理成本。搭配 EMR/LAS 大数据存储计算引擎，加速企业数据中台及湖仓一体平台建设，为企业数字化转型提供数据支撑。

火山引擎云原生数据仓库 ByteHouse

云原生数据仓库，为用户提供极速分析体验，能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力，极致分析性能和丰富的企业级特性，助力客户数字化转型。

火山引擎湖仓一体分析服务 LAS

面向湖仓一体架构的 Serverless 数据处理分析服务，提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力，兼容 Spark、Presto、Flink 生态，帮助企业轻松构建智能实时湖仓。

火山引擎云原生开源大数据E-MapReduce

Stateless 云原生开源大数据平台，提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等大数据生态组件，100%开源兼容，支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构，帮助用户轻松完成企业大数据平台的建设，降低运维门槛，快速形成大数据分析能力。

产品迭代一览

大数据研发治理套件 DataLeap

【 新增通道任务功能】
- 数据集成任务新增 Redis 数据源，支持从 LAS to Redis的双向集成同步。
- 新增云原生 veDB MySQL 数据源，支持 veDB MySQL_to_LAS 通道作业。
- 新增 CloudFS 离线并优化读取能力，支持 CFS_to_LAS 通道作业。
【新增开发规范及流水管理】
- 智能市场新增建表规范，结合数据地图功能，支持对表名、业务元数据等内容进行开发规范校验。
- 控制台项目新增任务流水线管理，支持提交任务时进行规范检查，提前规避上线问题风险。
【 优化任务通知及监控】
- 支持对 EMR1.3.1 及后续版本绑定，Serverless Spark 扩充创建 File 资源文件类型。
- 运维中心新增任务变更消息通知，支持代码变更后，一键发送通知给下游任务负责人。
- 指标平台公测转正式GA发布。

说明文档链接：

https://www.volcengine.com/docs/6260/65395/?utm_source=wechat_dp&utm_medium=yuekan&utm_term=doc_link&utm_campaign=20230105&utm_content=datamidoff

云原生数据仓库 ByteHouse

【新增 ByteHouse 云数仓版功能】
- 支持 Python UDF 用户定义函数能力，支持用户在 ByteHouse 中灵活定义并使用函数，实现高性能的查询。
- 正式发布物化视图能力，通过定义物化视图实现查询加速，简化查询逻辑。
- 支持 ETL 工具 DBT connector，进一步完善任务调度、上下游对接能力。
- 正式上架 AWS Marketplace，已有 AWS 账户可以便捷地开通和使用 ByteHouse。
【新增 ByteHouse 企业版功能】
- ByteHouse 企业版 PaaS 服务正式上架火山引擎，相比私有化版本，支持云上自助创建集群，包年包月计费，更灵活便捷。
- 支持部署查询网关，可实现 HTTP/TCP 协议的查询代理与负载均衡。
- 支持 OpenAPI，用户可灵活与业务系统集成。
- 用户体验更新，改版概览页和新建数据表页。

说明文档链接：https://www.volcengine.com/docs/6464/164704

湖仓一体分析服务 LAS

【新增TTL自动管理及删除数据】
- 支持配置 TTL，对于超过保留期（创建时间 > y 天）的冷数据进行自动删除。
- 支持配置 Schema 级别的 TTL，该 Schema 内的分区内表会默认遵循该 TTL 。

picture.image

【新增普通视图/物化视图功能】
- 支持普通视图/物化视图的创建、删除、更新、使用、授权等。

picture.image

【新增支持 Flink 1.16】
- 支持 Flink Jar 作业、Flink SQL 作业的 Flink 版本选择，同时支持 1.16＆1.11 版本。

说明文档链接：https://www.volcengine.com/docs/6492/72764

云原生开源大数据平台 E-MapReduce

【更新EMR平台功能 】
- Public History Server 作业执行历史集群外置，生产发布对 Presto、Trino 组件支持。开启 Public History Server 功能后，用户可以查看历史集群的作业执行日志和记录。
- 支持 EMR Flume 读写对象存储 TOS、大数据文件系统 CFS。
- 产品总览页面交互和展示信息优化，对集群类型、欠费提醒进行优化。
- 上线华东上海 Region。
【更新EMR软件栈 】
- 新增软件栈 EMR v3.1.0：ClickHouse 独立集群生产发布，EMR Pulsar 组件新增 Pulsar Manager。
- 新增软件栈 EMR v2.1.0：新增 Hadoop 2.10.0 全量生产发布，便于 Hadoop 2.x 用户平行迁移。

说明文档链接：https://www.volcengine.com/docs/6491/72143

重点功能课堂

大数据研发治理套件 DataLeap

【分布式数据自治】 以业务单元为数据治理闭环单元，通过完善的产品工具，将管理视角转化为监督视角，解决数据治理落地痛点；各业务团队分布式自运行，整体上达到全局最优，从形态上，适配更多业务特性和发展阶段，从效果上，强推进重落实与结果。
- SLA 治理： 分布式协同，跨团队对齐，全链路监督与保障。
- 数据质量与安全： 对数据进行探查监控、对比，清理冗余权限，完善分类分级。
- 资源优化： 优化数据存储与计算任务，节约大数据成本。
- 报警与起夜： 查看报警明细与归因，基于规则降低告警量与起夜率。
- 复盘管理： 业务单元内部进行规范与定级标准，对线上生产与监控破线进行内部问题，对事故定级与进行复盘。

picture.image

说明文档链接：https://www.volcengine.com/product/dataleap/?utm_source=wechat_dp&utm_medium=yuekan&utm_term=doc_link&utm_campaign=20230105&utm_content=datamidoff

云原生数据仓库 ByteHouse

【HaUniqueMergeTree：高效更新表引擎引擎，支持 Upsert】 HaUniqueMergeTree 是 ByteHouse 自研的一款既保留了 ClickHouse 高效的查询性能、又支持主键更新的表引擎。它解决了社区版 ClickHouse 不能支持高效更新操作的痛点，帮助业务更简单地开发实时分析应用。

HaUniqueMergeTree 引擎具有以下特点：

用户配置唯一键，提供 upsert 更新写语义，查询自动返回每个唯一键的最新值。
性能：单 shard 写入吞吐一般可以达到100k+ rows/s；查询性能与 MergeTree 表几乎相同。
唯一键支持多字段和表达式（目前支持最多三个字段）。
支持分区级别唯一和表级别唯一两种模式。
支持自定义版本字段，写入低版本数据时自动忽略。
支持多副本部署，通过主备异步复制保障数据可靠性。
支持根据 UNIQUE KEY 实时删除数据。

性能评估：

picture.image

说明文档链接：https://www.volcengine.com/docs/6464/163839

湖仓一体分析服务 LAS

【 EB级批流一体，支持实时更新】 LAS 存储格式 (Table Format)：基于 Hudi 深度优化，100% 产品化内嵌通过行列混合存储、索引、湖仓统一元数据等技术打造的批流一体的湖仓一体存储方案。

数据更新：可提供对历史数据的更新删除能力 Upsert / Update / Delete 能力，提供 Streaming Source / Sink 能力，数据分钟级可见。
ByteLake Metastore：提供湖仓统一的可扩展、高可用、高性能的元数据管理系统，与 Hive Metastore 完全兼容，兼容多种计算引擎，并能满足数据湖场景下文件级元数据管理的需求。
Bucket Index：轻量且高效的索引方式，在大规模数据入湖、探索分析等场景中提供高效的写入和查询能力。
Column Family：解决部分列更新场景的性能问题，典型场景例如 GDPR 用户信息列删除。
SQL 封装：提供 SQL 封装，完全兼容 OLAP Hive SQL 能力。同时 LAS 内嵌 Hudi 能力，无需用户操作，极大降低使用成本。

picture.image

说明文档链接：https://www.volcengine.com/docs/6492/72765

云原生开源大数据平台E-MapReduce

【 EMR Stateless】 无状态的 EMR 实例，交付轻量级的瞬态集群。在存算分离的基础上进一步服务化 EMR 集群的状态元素，含状态 Server（如 HMS、History Server）、用户数据、元数据、用户/权限/审计数据、服务/任务日志、集群配置、监控指标数据等，让长运行集群变成轻量级瞬态集群，作业的提交和结束可以触发集群的创建和释放，从而获得更好的弹性和扩展性，让数据平台架构有更好的演进成长能力和最佳的成本优化。

picture.image

无对应帮助文档，上期直播是介绍EMR Stateless，剪辑视频在：https://www.volcengine.com/docs/6491/164860

活动推荐

【活动】火山引擎 VeDI 数据中台架构剖析与方案分享

picture.image

【简介】 数据中台在字节跳动内部已经有了多年的实践，并且已通过火山引擎数智平台 VeDI 对外输出，服务于多行业客户。12月20日，通过对火山引擎 VeDI 数据中台架构剖析与方案分享，重点阐述了字节跳动数据中台建设经验，在存算分离、湖仓一体、Serverless 等技术发展趋势下，从企业数仓架构选择、数据湖解决方案与应用实践，以及一站式数据治理等角度，为企业构建自身数据中台提供思路和启发。

议题一： 火山引擎 一站式 数据治理 解决方案与业务实践
议题二：解读 火山引擎 ****EMR Stateless 创新理念和业务价值
议题三：湖仓一体架构在 LAS 服务的探索与实践

【活动回放】 关注字节跳动数据平台视频号，点击「直播回放」搜索后观看。

【活动】Apache Hudi 中文社区12月交流会议

picture.image

【简介】 Apache Hudi 是新一代流式数据湖平台，支持插入、更新、删除以及增量数据处理；可助力构建高效的企业级数据湖，目前已经在国内外多个大型公司生产落地。Apache Hudi 中文社区技术交流会固定于每月最后一个周四晚上 19:30 到 20:30 开播，会议由火山引擎湖仓一体分析服务 LAS 团队主办，围绕 Apache Hudi 沟通社区进展、互换想法。其中第7期于2022年12月29日分享的主题有 《InLong 支持数据湖 Hudi 新范式》 和 《Hudi 分区级生命周期管理》 。

【活动回放】 关注字节跳动数据平台视频号，点击「直播回放」搜索后观看。

【活动】Pulsar Summit Asia 2022

picture.image

【简介】 Pulsar Summit 是 Apache Pulsar 社区年度盛会，它将分布在世界各地的 Apache Pulsar 项目 Contributor、Committer 和各企业 CTO/CIO、开发者、架构师、数据科学家，以及消息和流计算社区的精英召集在一起。于此盛会，大家分享实践经验、交流想法、探讨关于 Pulsar 项目和社区的知识，切磋互动。2022年11月19日（周六）13:30（北京时间），Pulsar Summit Asia 2022 于线上召开，EMR团队技术专家梁鑫受邀进行分享，主题为 《Apache Pulsar 在 火山引擎 ****E-MapReduce 的集成与场景》 。

【活动回放】 https://www.volcengine.com/docs/6491/166176

案例推荐&技术干货

【观点】2022技术盘点：大数据管理工具走向更易用与专精，但中外发展现状存在明显差异

picture.image

【简介】纵观整个数仓的发展历程，大体上可以分为 4 个阶段，尽管在当下，第 2、3、4 阶段的数仓产品仍处于共存状态——它们仍旧分别被各类企业所使用，但在企业数字化转型和企业上云的整体趋势背景下，有理由相信，未来处于第 4 阶段的云数仓，将会被越来越多的企业采用。

【文章链接】https://mp.weixin.qq.com/s/N83nt5PbmoG5ghnosDD_RQ

【干货】字节跳动数据湖索引演进

picture.image

【简介】字节跳动数据湖架构是在 Apache Hudi 开源版本基础上的再次迭代，在 Hudi 落地的过程中，字节跳动也遇到了各种类型的问题，尤其是在索引使用的效率上。针对自身实际的业务场景和数据规模，字节也提出了新的索引实现方式并且贡献到了社区。本次分享主要介绍字节跳动数据湖索引演进。

【文章链接】https://mp.weixin.qq.com/s/jyyxe05xPoI1QLitk0zmiw

【干货】火山引擎数据调度实例的 DAG 优化方案

picture.image

【简介】在数仓研发中，不同的表之间会存在依赖关系，而产生表数据的任务实例，也会因此存在依赖关系。只有在上游实例运行成功、下游实例到达设定的运行时间且资源充足的情况下，下游实例才会开始执行。所以，在日常的任务运维中，常常需要分析实例上下游的运行情况，根据具体的情况对实例进行置成功、重跑等操作。而如何清晰地展示实例之间的关系，帮助用户快速地分析整个链路的运行情况，并完成问题定位和运维操作，则是实例 DAG 需要解决的问题。

【文章链接】https://mp.weixin.qq.com/s/TIW1sh_dG_O-jtGoXAqIvQ

【干货】火山引擎 DataLeap 的 Data Catalog 系统公有云实践

picture.image

【简介】Data Catalog 是一种元数据管理的服务，会收集技术元数据，并在其基础上提供更丰富的业务上下文与语义，通常支持元数据编目、查找、详情浏览等功能。目前 Data Catalog 作为火山引擎大数据研发治理套 DataLeap 产品的核心功能之一，经过多年打磨，服务于字节跳动内部几乎所有核心业务线，解决了数据生产者和消费者对于元数据和资产管理的各项核心需求。

【文章链接】https://mp.weixin.qq.com/s/O25qal9Ysi7nLDcuga3mCQ

【干货】字节跳动数据中台的 Data Catalog 系统搜索实践

picture.image

【简介】Data Catalog 能够帮助大公司更好地梳理和管理自己的资产，是 Data-drvien 公司的重要平台。一个通用的 Data Catalog 平台通常包含元数据管理，搜索，血缘，标签，术语等功能。其中，搜索是 Data Catalog 的入口功能，承担着让用户“找到数”的主要能力。在字节跳动数据中台的 Data Catalog 系统中，每天有 70% 以上的用户会使用搜索功能。

【文章链接】https://mp.weixin.qq.com/s/XOBaf_JbKzkPSklpBdFkdA

【文章】一文了解 DataLeap 中的 Notebook

picture.image

【简介】 Notebook 是一种支持 REPL 模式的开发环境。所谓「REPL」，即「读取-求值-输出」循环：输入一段代码，立刻得到相应的结果，并继续等待下一次输入。它通常使得探索性的开发和调试更加便捷。在 Notebook 环境，可以交互式地在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果，使用起来非常灵活。

【文章链接】https://mp.weixin.qq.com/s/wLp-ZJaXvZO85FiFXdJafw

【干货】火山引擎 LAS 数据湖存储内核揭秘

picture.image

【简介】LAS 全称（Lakehouse Analysis Service）湖仓一体分析服务，融合了湖与仓的优势，既能够利用湖的优势将所有数据存储到廉价存储中，供机器学习、数据分析等场景使用，又能基于数据湖构建数仓供 BI 报表等业务使用。本文将从以下几点开展分享：LAS 介绍、问题与挑战、LAS 数据湖服务化设计与实践、未来规划。

【文章链接】https://mp.weixin.qq.com/s/3gSrWZ10FV9V8eL7cKFm4A

【文章】火山引擎 EMR 上线瞬态集群能力，助力企业大幅降低使用成本

picture.image

【简介】12月20日，火山引擎 E-MapReduce (简称 “EMR”)正式上线瞬态集群新功能，该能力基于业界领先 EMR Stateless 理念，可以实现集群级别的弹性伸缩，即无业务需求时释放集群，有业务需求时再拉起集群，从而帮助企业大幅降低产品使用和平台运维成本。

【文章链接】https://news.sina.com.cn/sx/2022-12-21/detail-imxxmspw0884179.shtml

点击火山引擎数智平台VeDI 了解火山引擎数智平台VeDI全部产品

产品一句话介绍

产品迭代一览

大数据研发治理 套件 DataLeap

云原生 数据仓库 ByteHouse

湖仓一体分析服务 LAS

云原生 开源 大数据 平台 E-MapReduce

重点功能课堂

大数据研发治理套件 DataLeap

云原生数据仓库 ByteHouse

湖仓一体分析服务 LAS

云原生开源大数据平台E-MapReduce

活动推荐

【活动】火山引擎 VeDI 数据中台架构剖析与方案分享

【活动】Apache Hudi 中文社区12月交流会议

【活动】Pulsar Summit Asia 2022

案例推荐&技术干货

【观点】2022技术盘点：大数据管理工具走向更易用与专精，但中外发展现状存在明显差异

【干货】字节跳动数据湖索引演进

【干货】火山引擎数据调度实例的 DAG 优化方案

【干货】火山引擎 DataLeap 的 Data Catalog 系统公有云实践

【干货】字节跳动数据中台的 Data Catalog 系统搜索实践

【文章】一文了解 DataLeap 中的 Notebook

【干货】火山引擎 LAS 数据湖存储内核揭秘

【文章】火山引擎 EMR 上线瞬态集群能力，助力企业大幅降低使用成本

大数据研发治理套件 DataLeap

云原生数据仓库 ByteHouse

云原生开源大数据平台 E-MapReduce