「火山引擎」数智平台 VeDI 数据中台产品双月刊 VOL.07

技术

picture.image

火山引擎数据中台产品双月刊涵盖 「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」 四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。

双月更新,您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~ 接下来让我们来看看 7-8 月数据中台产品有什么大事件吧~

产品迭代一览

/ 大数据研发治理 套件 DataLeap /

公有云 -华南区服务部署】

基于 EMR、流式计算 Flink 引擎下的数据集成、数据研发、数据安全、数据质量、数据地图、数据服务模块

数据开发支持 EMR 引擎任务类型、通用任务、流式计算 Flink 版任务类型

数据集成新增支持离线集成、流式集成任务

数据安全支持权限管理、风险审计、审批中心

数据质量支持 EMR 引擎的数据监控、数据探查、数据对比等能力

数据地图支持数据检索、专题、血缘、元数据采集支持 EMR Hive/Doris/StarRocks

数据服务支持创建数据集、QUERY,并支持 API 监控运维、应用管理、系统管理等全量功能

【公有云-华东区服务部署】

支持 LAS、流式计算 Flink 引擎下的离线流式任务

数据地图、数据质量、数据安全支持 LAS 服务能力

【私有化-功能迭代更新】

指标平台支持 HBase 数据源创建模型绑定

数据地图支持 GaussDB 元数据采集

数据安全新增审计日志功能

公有云 -功能迭代更新】

数据开发: 新增 EMR Doris、EMR StarRocks 任务类型、Shell\Python\Notebook 任务支持 0.25CU/0.5CU 资源规格配置、临时查询支持交互式分析 Notebook 查询类型、LAS SQL 依赖推荐功能支持引导创建 Sensor 任务、Serverless Flink SQL 新增数据源登记支持自动解析、DAG 任务血缘查看、LAS、EMR 流式任务新增数据源登记类型、支持 EMR Doris、EMR StarRocks 元数据表查看及智能联想等

数据集成: 整库离线同步:MySQL、PostgreSQL、SQLServer、Oracle 同步至 LAS、实时整库同步:MySQL、PostgreSQL、SQLServer 同步至 LAS、Doris 、 StarRocks

数据地图: EMR Hive、LAS 元数据支持以单库表形式进行采集、LAS/LAS Hive 支持 TTL 、支持 EMR Doris 库表管理

数据质量: 新增支持质量订阅功能

数据安全: 库表资源的历史权限查看、权限设置查看历史操作、按资源自动审批、审批流支持触发节点、支持批量上下载行枚举值、支持自定义问答&申请审批问答&批量设置问题、审批工单支持重新申请、新增资源包、自定义角色组,并支持应用在权限负责人、按角色代办等功能

/ 云原生数据仓库 ByteHouse /

【ByteHouse 云数仓版 新增功能】

[云数仓版 SaaS] 上线火山引擎华东地域,支持多地域下单购买(正式发布)

[云数仓版 SaaS] 支持数据导入任务相关的监控和告警(正式发布)

[云数仓版 SaaS] 新增定时任务功能,支持对计算资源定时弹性伸缩(灰度发布)

[云数仓版 SaaS] 支持 SQL Editor,提供更完整的语义高亮支持,优化用户体验(灰度发布)

[云数仓版 SaaS] 支持 AWS Glue (ETL),支持导出到 AWS S3

[云数仓版 SaaS] 完成与 ClickHouse PHP driver 兼容

【ByteHouse 企业版 新增功能】

[企业版 PaaS] 开放 MySQL 端口,支持兼容 MySQL 协议、语法、函数

[企业版 PaaS] 支持创建时选择 3 副本及以上副本数

/ 湖仓一体分析服务 LAS /

【公共云-功能迭代更新】

服务区域: 在华东区域全线开服,与原有华北区域组成 2 大服务区域,能更好服务更大范围的客户。

数据管理: 新增 Table 类型,支持 Hive 内部表类型,开放 WareHouse 文件目录,快速帮助 Hadoop 用户无缝迁移至 LAS。

迁移工具: 提供 Hadoop HDFS / Hive 迁移工具,加速 Hadoop 平滑迁移,保质保量。

查询分析: 增强“SQL 编辑器”能力,智能补全包含库表联想、关键字填充、子句自动输入、语法自动识别等能力。

/ 云原生 开源 大数据 平台 E-MapReduce /

【平台功能更新】

亚太东南(柔佛)Region 发布,欢迎体验!

节点组支持垂直变配,支持升级节点配置规格

Presto、Trino 独立集群集成 Iceberg connector、Hudi connector

节点监控指标丰富,包括 HDFS、Yarn、Zookeeper 等服务监控指标

Kafka、Pulsar、Clickhouse、Doris、Starrocks 独立集群下线 PL0 云盘,存量集群不受影响

【新增软件栈 3.4.4】

StarRocks 组件默认将 QueryProfile 功能关闭

StarRocks 组件中添加元数据管理功能,适配火山云服务大数据研发治理套件 DataLeap

【新增软件栈 2.3.2】

修复 Spark 运行日志存放路径

Ranger 中为 Spark 用户赋予库表的操作权限,解决 Spark ThriftServer 告警问题

点击查看更多介绍:

https://www.volcengine.com/docs/6491/72143

重点功能课堂

/ 大数据研发治理 套件 DataLeap /

【火山引擎 DataLeap:整库搬迁解决方案上线,节省数据迁移成本】

火山引擎大数据研发治理套件 DataLeap 上线整库搬迁解决方案,包括整库离线同步、整库实时同步两大能力,大大提升数据上云便捷性,降低数据迁移成本,使用户易上手,低运维。

整库迁移支持通过批量创建同步任务,如把一个Mysql DB 库内所有表一并上传到 LAS 中;整库 CDC 支持一键同步一个库内的多张表,先进行全量同步,后进行 CDC 实时同步。

● 整库离线同步: 用户可通过火山引擎 DataLeap 周期性或一次性将整库表数据同步到目标端,方案包括“一次性全量、周期性全量、一次性增量、周期性增量、一次性全量周期性增量”五种类型,支持 MySQL、PostgreSQL、SQLServer、Oracle 等数据源;

● 整库实时同步: 通过火山引擎 DataLeap 一键进行数据的全、增量一体化实时同步。整库实时同步解决方案支持“使用缓存”、“无需缓存,直接同步”两种缓存配置方式。一键实时整库同步解决方案支持多种数据源之间全增量一体化同步,之后再通过实时同步增量任务,依照选择配置单独选择进行实时增量数据同步,助力您将业务数据更高效、更便捷的同步至目标数据库中。

picture.image

/ 云原生 数据仓库

ByteHouse /

【克服 ClickHouse 运维难题:ByteHouse 水平扩容功能】

在字节跳动内部,由于业务的快速增长,经常遇到集群规划性能不足,需要扩容的问题。字节内部,ByteHouse 支撑了内部数据看板,用户行为分析性等多个业务,服务的持续在线、性能的迅速提升非常重要,且用户表的表结构也非常多样。

基于内部需求,ByteHouse 自研了集群扩容能力,解决了自动化流程的问题,也提供了性能开销更低的扩容方式。

1. 数据库引擎优化

ByteHouse 的数据库引擎自研了 Alter Table...Resharding命令,将一张表以分区的粒度进行重分布到另一张表。

该命令支持两种方式:

重分布到其他集群的另一张表。

重分布到本集群的另一张表。

picture.image

2. 操作界面优化

ByteHouse 数据库实现了 SQL 的底层能力进行数据重分布,实现了开销更低、适应性更强的重分布能力,但对于普通用户而言仍有使用门槛。因此 ByteHouse 在控制台也支持了水平扩容功能,组装了底层能力,实现产品化。

通过界面化操作,ByteHouse 给用户的扩容流程带来了全新的便利:

全流程自动化,不再需要自行编写脚本。

开放一小部分手动空间。例如,在扩容前可选立即重分布的表,对于剩余的表,可在扩容后再选择时间重分布任务,适应一些希望在业务低峰时扩容大表,进一步降低大表只读带来的影响。

包含容错处理,自动校验数据,流程便利可靠。

picture.image

说明文档链接:

https://developer.volcengine.com/articles/7254818612518027325

/ 湖仓一体分析服务 LAS /

【LAS 助力搭建大数据+AI 湖仓平台(GPU)】

1. 丰富的数据处理

完善 Python 生态:LAS PySpark + DataLeap Notebook

GPU 加速:LAS Spark & Rapids

降低数据处理门槛:LAS Spark English SDK

2. 深度学习 LAS ML Runtime

Pandas on PySpark

Imported Model Support

PyTorch/TensorFlow on PySpark

3. 弹性 GPU 资源

基于 Volcano Scheduler 深度优化,支持 GPU 资源调度和按量付费能力

具备混合 Quota 能力,队列一体化(分析/加工/训练/推理)

4. 极致特征存储

字节内部基于 ByteLake 构建离线特征存储

picture.image

/ 云原生 开源 大数据 平台 E-MapReduce /

【EMR StarRocks】

picture.image

目前,火山引擎 EMR 已正式上线 StarRocks 集群。除 100% 开源兼容,完整提供 StarRocks 原生能力外,火山引擎 EMR 团队还进行了多方面的能力增强,为企业客户带来业界领先的引擎性能和产品使用体验。

StarRocks 引擎自身的产品特性:

MPP 分布式执行框架,单查询性能随集群水平扩展而不断提升。

全面向量化执行引擎,充分发挥 CPU 处理能力。

全新设计并深度定制的 CBO 优化器,包含多项优化和创新。

可实时更新的列式存储引擎,降低存储成本,提升查询性能。

支持智能物化视图,加速用户的查询请求。

可作为计算引擎直接分析数据湖中的数据。

EMR StarRocks 增强特性:

与火山引擎大数据开发套件 DataLeap、全域数据集成 DataSail 等云上生态产品无缝对接,满足用户一站式的数据开发和集成需求。

引擎增强,同时支持 Serving 和分析场景

提供企业级诊断分析能力

提供丰富的监控告警、扩容、参数和日志管理等功能

说明文档链接:

https://www.volcengine.com/docs/6491/165967

活动推荐

1. 【活动】DTCC2023 第 14 届中国数据库技术大会 - 《字节跳动基于开源 OLAP 引擎的探索与实践》

picture.image

【简介】 本次分享主要介绍了火山引擎 EMR 如何基于开源 OLAP 引擎构建实时分析平台,字节内部实践深度优化的 OLAP 内核引擎如何去支撑客户的海量数据分析,支撑数百张业务表的实时数据导入和数百万次日查询,助力客户业务成功。

【活动回放】

8月活动回顾|多位火山引擎专家带来流批一体、实时计算等前沿技术分享!(文中领取PPT)

2. 【活动】StarRocks 云原生湖仓 Meet Up 第二期 - 《火山引擎 EMR 在 StarRocks 成本优化上的思考》

picture.image

【简介】 本次分享主要介绍了火山引擎 EMR 基于 StarRocks 的最新存算分离版本进行的探索和实践,详细解读了在成本、弹性、资源隔离和可靠性等方面带来的提升。目前,火山引擎 EMR StarRocks 已经在旅游、在线教育和游戏等多个行业取得了广泛应用,证明了其在不同领域的可靠性和适用性。

【活动回放】8月活动回顾|多位火山引擎专家带来流批一体、实时计算等前沿技术分享!(文中领取PPT)

3. 【活动】DataFunSummit 2023:数据指标体系峰会 - 从懂车帝业务看火山引擎 DataLeap 如何在数仓模型和产品应用中落地

picture.image

【简介】 本场活动中,火山引擎资深数仓研发工程师肖继哲解读懂车帝通过 DataLeap 指标服务统一构建汽车行业全方位的指标应用场景,从而建立指标体系构建规范,明确指标口径定义。了解指标建设如何在数仓模型及开发工作中收敛。最终建设指标体系的监控策略,保障指标数据质量和 SLA。

【活动回放】

https://developer.volcengine.com/videos/7277482014654562345

4. 【活动】火山引擎 DataLeap分享:DataOps、数据治理、指标体系最佳实践

picture.image

【简介】 在 7 月 21 日 ArchSummit 全球架构师峰会(深圳站)及 DataFunCon.数据智能创新与实践大会(北京站)上,来自火山引擎 DataLeap 的三位专家分别就 DataOps、数据治理和指标体系等方向进行了精彩的分享。

【活动回放】

活动回顾|火山引擎DataLeap分享:DataOps、数据治理、指标体系最佳实践(文中领取PPT)

5. 【活动】CommunityOverCode Asia 2023

picture.image

【简介】 随着大数据时代的到来,数据分析和 OLAP 技术在企业中的应用也越来越广泛,邀请业内的专家和学者分享他们在数据分析和 OLAP 技术方面的研究成果、实践经验和最新发展,涵盖数据分析和 OLAP 技术的研究进展、应用案例、最佳实践、性能优化等方面。

《基于 Apache Calcite 的多引擎指标管理最佳实践》

《大数据行列混合权限精细化管理实践》

《字节跳动基于 Parquet 格式的降本增效实践》

【活动回放】

https://apachecon.com/acasia2023/zh/tracks/olap.html

案例推荐 & 技术干货

1.【干货】OLAP 在火山 EMR 的最佳实践

picture.image

【简介】 传统 OLAP 架构,解决的更多是离线分析场景的需求,随着大规模数据服务场景的增多,业务侧不断有新的诉求提出,对数据分析的时效性要求变高,当前架构中存储和计算资源耦合,不同业务、时段及用户对二者要求往往不同,导致集群响应不够及时等问题。本文重点分享 OLAP 在火山 EMR 上的云原生能力及在火山相关客户中的应用实践。

【文章链接】

OLAP在火山 EMR 的最佳实践

2.【案例】途牛科技与火山引擎数智平台合作 打造企业大数据系统“降本”新范式

picture.image

【简介】 南京途牛科技有限公司与火山引擎数智平台(VeDI)达成深入合作,途牛大数据系统全面迁移至火山引擎云原生开源大数据平台 E-MapReduce,双方携手打造企业大数据系统“降本”新范式。

【文章链接】

https://www.51cto.com/article/763701.html

3.【干货】DataLeap 数据资产实战:如何实现存储优化

picture.image

【简介】 Data Catalog 作为火山引擎大数据研发治理套件 DataLeap 产品的核心功能之一,经过多年打磨,服务于字节跳动内部几乎所有核心业务线,解决了数据生产者和消费者对于元数据和资产管理的各项核心需求。

【文章链接】干货|DataLeap数据资产实战:如何实现存储优化?

4.【干货】从“13 天”到“0 天”延时,揭秘幸福里离线 SLA 保障最佳实践

picture.image

【简介】 幸福里团队通过引入火山引擎大数据研发治理套件 DataLeap,综合推进离线数仓的 SLA 治理,将离线数仓 SLA 从 13 天降低为 0 天。本文将从策略制定、任务摸排收集、规范确定,宣贯推进等方向还原项目推进过程,期望为更多企业带来 SLA 治理思考和解决方案。

【文章链接】干货|从“13天”到“0天”延时,揭秘幸福里离线SLA保障最佳实践

5.【干货】字节跳动基于 Hudi 的机器学习应用场景

picture.image

【简介】 本文主要介绍火山引擎 LAS 团队自研的多场景样本离线存储技术,用于处理机器学习系统的离线数据流。同时,还会为大家揭秘流批一体样本生成的过程,分享对 Hudi 内核所做出的优化和改造,探索其在数据处理领域的实际应用和效果。

【文章链接】

字节跳动基于 Hudi 的机器学习应用场景

6.【干货】字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践

picture.image

【简介】 本文对目前主流数仓架构及数据湖方案的不足之处进行分析,介绍了字节内部基于实时/离线数据存储问题提出的的湖仓一体方案的设计思路,并分享该方案在实际业务场景中的应用情况。最后还会为大家分享 LAS 团队对湖仓一体架构的未来规划。

【文章链接】 干货丨字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践

产品介绍

火山引擎 大数据研发治理 套件 DataLeap

一站式数据中台套件,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,提升数据研发效率、降低管理成本。搭配 EMR/LAS 大数据存储计算引擎,加速企业数据中台及湖仓一体平台建设,为企业数字化转型提供数据支撑。后台回复数字“2”了解产品

火山引擎云原生数据仓库 ByteHouse

云原生数据仓库,为用户提供极速分析体验,能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力,极致分析性能和丰富的企业级特性,助力客户数字化转型。后台回复数字“6”了解产品

火山引擎 湖仓一体分析服务 LAS

面向湖仓一体架构的 Serverless 数据处理分析服务,提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto、Flink 生态,帮助企业轻松构建智能实时湖仓。后台回复数字“4”了解产品

火山引擎 云原生 开源 大数据

E-MapReduce

Stateless 云原生开源大数据平台,提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等大数据生态组件,100%开源兼容,支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构,帮助用户轻松完成企业大数据平台的建设,降低运维门槛,快速形成大数据分析能力。后台回复数字“3”了解产品

picture.image 点击 阅读原文 了解 火山引擎 数智平台 VeDI 全部产品

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论