火山引擎数据中台产品双月刊涵盖 「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」 四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。
双月更新,您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~ 接下来让我们来看看 7-8 月数据中台产品有什么大事件吧~
产品迭代一览
/ 大数据研发治理 套件 DataLeap /
【 公有云 -华南区服务部署】
● 基于 EMR、流式计算 Flink 引擎下的数据集成、数据研发、数据安全、数据质量、数据地图、数据服务模块
● 数据开发支持 EMR 引擎任务类型、通用任务、流式计算 Flink 版任务类型
● 数据集成新增支持离线集成、流式集成任务
● 数据安全支持权限管理、风险审计、审批中心
● 数据质量支持 EMR 引擎的数据监控、数据探查、数据对比等能力
● 数据地图支持数据检索、专题、血缘、元数据采集支持 EMR Hive/Doris/StarRocks
● 数据服务支持创建数据集、QUERY,并支持 API 监控运维、应用管理、系统管理等全量功能
【公有云-华东区服务部署】
● 支持 LAS、流式计算 Flink 引擎下的离线流式任务
● 数据地图、数据质量、数据安全支持 LAS 服务能力
【私有化-功能迭代更新】
● 指标平台支持 HBase 数据源创建模型绑定
● 数据地图支持 GaussDB 元数据采集
● 数据安全新增审计日志功能
【 公有云 -功能迭代更新】
● 数据开发: 新增 EMR Doris、EMR StarRocks 任务类型、Shell\Python\Notebook 任务支持 0.25CU/0.5CU 资源规格配置、临时查询支持交互式分析 Notebook 查询类型、LAS SQL 依赖推荐功能支持引导创建 Sensor 任务、Serverless Flink SQL 新增数据源登记支持自动解析、DAG 任务血缘查看、LAS、EMR 流式任务新增数据源登记类型、支持 EMR Doris、EMR StarRocks 元数据表查看及智能联想等
● 数据集成: 整库离线同步:MySQL、PostgreSQL、SQLServer、Oracle 同步至 LAS、实时整库同步:MySQL、PostgreSQL、SQLServer 同步至 LAS、Doris 、 StarRocks
● 数据地图: EMR Hive、LAS 元数据支持以单库表形式进行采集、LAS/LAS Hive 支持 TTL 、支持 EMR Doris 库表管理
● 数据质量: 新增支持质量订阅功能
● 数据安全: 库表资源的历史权限查看、权限设置查看历史操作、按资源自动审批、审批流支持触发节点、支持批量上下载行枚举值、支持自定义问答&申请审批问答&批量设置问题、审批工单支持重新申请、新增资源包、自定义角色组,并支持应用在权限负责人、按角色代办等功能
/ 云原生数据仓库 ByteHouse /
【ByteHouse 云数仓版 新增功能】
● [云数仓版 SaaS] 上线火山引擎华东地域,支持多地域下单购买(正式发布)
● [云数仓版 SaaS] 支持数据导入任务相关的监控和告警(正式发布)
● [云数仓版 SaaS] 新增定时任务功能,支持对计算资源定时弹性伸缩(灰度发布)
● [云数仓版 SaaS] 支持 SQL Editor,提供更完整的语义高亮支持,优化用户体验(灰度发布)
● [云数仓版 SaaS] 支持 AWS Glue (ETL),支持导出到 AWS S3
● [云数仓版 SaaS] 完成与 ClickHouse PHP driver 兼容
【ByteHouse 企业版 新增功能】
● [企业版 PaaS] 开放 MySQL 端口,支持兼容 MySQL 协议、语法、函数
● [企业版 PaaS] 支持创建时选择 3 副本及以上副本数
/ 湖仓一体分析服务 LAS /
【公共云-功能迭代更新】
● 服务区域: 在华东区域全线开服,与原有华北区域组成 2 大服务区域,能更好服务更大范围的客户。
● 数据管理: 新增 Table 类型,支持 Hive 内部表类型,开放 WareHouse 文件目录,快速帮助 Hadoop 用户无缝迁移至 LAS。
● 迁移工具: 提供 Hadoop HDFS / Hive 迁移工具,加速 Hadoop 平滑迁移,保质保量。
● 查询分析: 增强“SQL 编辑器”能力,智能补全包含库表联想、关键字填充、子句自动输入、语法自动识别等能力。
/ 云原生 开源 大数据 平台 E-MapReduce /
【平台功能更新】
● 亚太东南(柔佛)Region 发布,欢迎体验!
● 节点组支持垂直变配,支持升级节点配置规格
● Presto、Trino 独立集群集成 Iceberg connector、Hudi connector
● 节点监控指标丰富,包括 HDFS、Yarn、Zookeeper 等服务监控指标
● Kafka、Pulsar、Clickhouse、Doris、Starrocks 独立集群下线 PL0 云盘,存量集群不受影响
【新增软件栈 3.4.4】
● StarRocks 组件默认将 QueryProfile 功能关闭
● StarRocks 组件中添加元数据管理功能,适配火山云服务大数据研发治理套件 DataLeap
【新增软件栈 2.3.2】
● 修复 Spark 运行日志存放路径
● Ranger 中为 Spark 用户赋予库表的操作权限,解决 Spark ThriftServer 告警问题
点击查看更多介绍:
https://www.volcengine.com/docs/6491/72143
重点功能课堂
/ 大数据研发治理 套件 DataLeap /
【火山引擎 DataLeap:整库搬迁解决方案上线,节省数据迁移成本】
火山引擎大数据研发治理套件 DataLeap 上线整库搬迁解决方案,包括整库离线同步、整库实时同步两大能力,大大提升数据上云便捷性,降低数据迁移成本,使用户易上手,低运维。
整库迁移支持通过批量创建同步任务,如把一个Mysql DB 库内所有表一并上传到 LAS 中;整库 CDC 支持一键同步一个库内的多张表,先进行全量同步,后进行 CDC 实时同步。
● 整库离线同步: 用户可通过火山引擎 DataLeap 周期性或一次性将整库表数据同步到目标端,方案包括“一次性全量、周期性全量、一次性增量、周期性增量、一次性全量周期性增量”五种类型,支持 MySQL、PostgreSQL、SQLServer、Oracle 等数据源;
● 整库实时同步: 通过火山引擎 DataLeap 一键进行数据的全、增量一体化实时同步。整库实时同步解决方案支持“使用缓存”、“无需缓存,直接同步”两种缓存配置方式。一键实时整库同步解决方案支持多种数据源之间全增量一体化同步,之后再通过实时同步增量任务,依照选择配置单独选择进行实时增量数据同步,助力您将业务数据更高效、更便捷的同步至目标数据库中。
/ 云原生 数据仓库
ByteHouse /
【克服 ClickHouse 运维难题:ByteHouse 水平扩容功能】
在字节跳动内部,由于业务的快速增长,经常遇到集群规划性能不足,需要扩容的问题。字节内部,ByteHouse 支撑了内部数据看板,用户行为分析性等多个业务,服务的持续在线、性能的迅速提升非常重要,且用户表的表结构也非常多样。
基于内部需求,ByteHouse 自研了集群扩容能力,解决了自动化流程的问题,也提供了性能开销更低的扩容方式。
1. 数据库引擎优化
ByteHouse 的数据库引擎自研了 Alter Table...Resharding命令,将一张表以分区的粒度进行重分布到另一张表。
该命令支持两种方式:
● 重分布到其他集群的另一张表。
● 重分布到本集群的另一张表。
2. 操作界面优化
ByteHouse 数据库实现了 SQL 的底层能力进行数据重分布,实现了开销更低、适应性更强的重分布能力,但对于普通用户而言仍有使用门槛。因此 ByteHouse 在控制台也支持了水平扩容功能,组装了底层能力,实现产品化。
通过界面化操作,ByteHouse 给用户的扩容流程带来了全新的便利:
● 全流程自动化,不再需要自行编写脚本。
● 开放一小部分手动空间。例如,在扩容前可选立即重分布的表,对于剩余的表,可在扩容后再选择时间重分布任务,适应一些希望在业务低峰时扩容大表,进一步降低大表只读带来的影响。
● 包含容错处理,自动校验数据,流程便利可靠。
说明文档链接:
https://developer.volcengine.com/articles/7254818612518027325
/ 湖仓一体分析服务 LAS /
【LAS 助力搭建大数据+AI 湖仓平台(GPU)】
1. 丰富的数据处理
● 完善 Python 生态:LAS PySpark + DataLeap Notebook
● GPU 加速:LAS Spark & Rapids
● 降低数据处理门槛:LAS Spark English SDK
2. 深度学习 LAS ML Runtime
● Pandas on PySpark
● Imported Model Support
● PyTorch/TensorFlow on PySpark
3. 弹性 GPU 资源
● 基于 Volcano Scheduler 深度优化,支持 GPU 资源调度和按量付费能力
● 具备混合 Quota 能力,队列一体化(分析/加工/训练/推理)
4. 极致特征存储
● 字节内部基于 ByteLake 构建离线特征存储
/ 云原生 开源 大数据 平台 E-MapReduce /
【EMR StarRocks】
目前,火山引擎 EMR 已正式上线 StarRocks 集群。除 100% 开源兼容,完整提供 StarRocks 原生能力外,火山引擎 EMR 团队还进行了多方面的能力增强,为企业客户带来业界领先的引擎性能和产品使用体验。
StarRocks 引擎自身的产品特性:
● MPP 分布式执行框架,单查询性能随集群水平扩展而不断提升。
● 全面向量化执行引擎,充分发挥 CPU 处理能力。
● 全新设计并深度定制的 CBO 优化器,包含多项优化和创新。
● 可实时更新的列式存储引擎,降低存储成本,提升查询性能。
● 支持智能物化视图,加速用户的查询请求。
● 可作为计算引擎直接分析数据湖中的数据。
EMR StarRocks 增强特性:
● 与火山引擎大数据开发套件 DataLeap、全域数据集成 DataSail 等云上生态产品无缝对接,满足用户一站式的数据开发和集成需求。
● 引擎增强,同时支持 Serving 和分析场景
● 提供企业级诊断分析能力
● 提供丰富的监控告警、扩容、参数和日志管理等功能
说明文档链接:
https://www.volcengine.com/docs/6491/165967
活动推荐
1. 【活动】DTCC2023 第 14 届中国数据库技术大会 - 《字节跳动基于开源 OLAP 引擎的探索与实践》
【简介】 本次分享主要介绍了火山引擎 EMR 如何基于开源 OLAP 引擎构建实时分析平台,字节内部实践深度优化的 OLAP 内核引擎如何去支撑客户的海量数据分析,支撑数百张业务表的实时数据导入和数百万次日查询,助力客户业务成功。
【活动回放】
8月活动回顾|多位火山引擎专家带来流批一体、实时计算等前沿技术分享!(文中领取PPT)
2. 【活动】StarRocks 云原生湖仓 Meet Up 第二期 - 《火山引擎 EMR 在 StarRocks 成本优化上的思考》
【简介】 本次分享主要介绍了火山引擎 EMR 基于 StarRocks 的最新存算分离版本进行的探索和实践,详细解读了在成本、弹性、资源隔离和可靠性等方面带来的提升。目前,火山引擎 EMR StarRocks 已经在旅游、在线教育和游戏等多个行业取得了广泛应用,证明了其在不同领域的可靠性和适用性。
【活动回放】8月活动回顾|多位火山引擎专家带来流批一体、实时计算等前沿技术分享!(文中领取PPT)
3. 【活动】DataFunSummit 2023:数据指标体系峰会 - 从懂车帝业务看火山引擎 DataLeap 如何在数仓模型和产品应用中落地
【简介】 本场活动中,火山引擎资深数仓研发工程师肖继哲解读懂车帝通过 DataLeap 指标服务统一构建汽车行业全方位的指标应用场景,从而建立指标体系构建规范,明确指标口径定义。了解指标建设如何在数仓模型及开发工作中收敛。最终建设指标体系的监控策略,保障指标数据质量和 SLA。
【活动回放】
https://developer.volcengine.com/videos/7277482014654562345
4. 【活动】火山引擎 DataLeap分享:DataOps、数据治理、指标体系最佳实践
【简介】 在 7 月 21 日 ArchSummit 全球架构师峰会(深圳站)及 DataFunCon.数据智能创新与实践大会(北京站)上,来自火山引擎 DataLeap 的三位专家分别就 DataOps、数据治理和指标体系等方向进行了精彩的分享。
【活动回放】
活动回顾|火山引擎DataLeap分享:DataOps、数据治理、指标体系最佳实践(文中领取PPT)
5. 【活动】CommunityOverCode Asia 2023
【简介】 随着大数据时代的到来,数据分析和 OLAP 技术在企业中的应用也越来越广泛,邀请业内的专家和学者分享他们在数据分析和 OLAP 技术方面的研究成果、实践经验和最新发展,涵盖数据分析和 OLAP 技术的研究进展、应用案例、最佳实践、性能优化等方面。
《基于 Apache Calcite 的多引擎指标管理最佳实践》
《大数据行列混合权限精细化管理实践》
《字节跳动基于 Parquet 格式的降本增效实践》
【活动回放】
https://apachecon.com/acasia2023/zh/tracks/olap.html
案例推荐 & 技术干货
1.【干货】OLAP 在火山 EMR 的最佳实践
【简介】 传统 OLAP 架构,解决的更多是离线分析场景的需求,随着大规模数据服务场景的增多,业务侧不断有新的诉求提出,对数据分析的时效性要求变高,当前架构中存储和计算资源耦合,不同业务、时段及用户对二者要求往往不同,导致集群响应不够及时等问题。本文重点分享 OLAP 在火山 EMR 上的云原生能力及在火山相关客户中的应用实践。
【文章链接】
2.【案例】途牛科技与火山引擎数智平台合作 打造企业大数据系统“降本”新范式
【简介】 南京途牛科技有限公司与火山引擎数智平台(VeDI)达成深入合作,途牛大数据系统全面迁移至火山引擎云原生开源大数据平台 E-MapReduce,双方携手打造企业大数据系统“降本”新范式。
【文章链接】
https://www.51cto.com/article/763701.html
3.【干货】DataLeap 数据资产实战:如何实现存储优化
【简介】 Data Catalog 作为火山引擎大数据研发治理套件 DataLeap 产品的核心功能之一,经过多年打磨,服务于字节跳动内部几乎所有核心业务线,解决了数据生产者和消费者对于元数据和资产管理的各项核心需求。
【文章链接】干货|DataLeap数据资产实战:如何实现存储优化?
4.【干货】从“13 天”到“0 天”延时,揭秘幸福里离线 SLA 保障最佳实践
【简介】 幸福里团队通过引入火山引擎大数据研发治理套件 DataLeap,综合推进离线数仓的 SLA 治理,将离线数仓 SLA 从 13 天降低为 0 天。本文将从策略制定、任务摸排收集、规范确定,宣贯推进等方向还原项目推进过程,期望为更多企业带来 SLA 治理思考和解决方案。
【文章链接】干货|从“13天”到“0天”延时,揭秘幸福里离线SLA保障最佳实践
5.【干货】字节跳动基于 Hudi 的机器学习应用场景
【简介】 本文主要介绍火山引擎 LAS 团队自研的多场景样本离线存储技术,用于处理机器学习系统的离线数据流。同时,还会为大家揭秘流批一体样本生成的过程,分享对 Hudi 内核所做出的优化和改造,探索其在数据处理领域的实际应用和效果。
【文章链接】
6.【干货】字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践
【简介】 本文对目前主流数仓架构及数据湖方案的不足之处进行分析,介绍了字节内部基于实时/离线数据存储问题提出的的湖仓一体方案的设计思路,并分享该方案在实际业务场景中的应用情况。最后还会为大家分享 LAS 团队对湖仓一体架构的未来规划。
【文章链接】 干货丨字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践
产品介绍
火山引擎 大数据研发治理 套件 DataLeap
一站式数据中台套件,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,提升数据研发效率、降低管理成本。搭配 EMR/LAS 大数据存储计算引擎,加速企业数据中台及湖仓一体平台建设,为企业数字化转型提供数据支撑。后台回复数字“2”了解产品
火山引擎云原生数据仓库 ByteHouse
云原生数据仓库,为用户提供极速分析体验,能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力,极致分析性能和丰富的企业级特性,助力客户数字化转型。后台回复数字“6”了解产品
火山引擎 湖仓一体分析服务 LAS
面向湖仓一体架构的 Serverless 数据处理分析服务,提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto、Flink 生态,帮助企业轻松构建智能实时湖仓。后台回复数字“4”了解产品
火山引擎 云原生 开源 大数据
E-MapReduce
Stateless 云原生开源大数据平台,提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等大数据生态组件,100%开源兼容,支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构,帮助用户轻松完成企业大数据平台的建设,降低运维门槛,快速形成大数据分析能力。后台回复数字“3”了解产品
点击 阅读原文 了解 火山引擎 数智平台 VeDI 全部产品