火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。
双月更新,您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~
接下来让我们来看看 7-8 月数据中台产品有什么大事件吧~
产品迭代一览
大数据研发治理 套件 DataLeap
-
【 公有云 -华南区服务部署】
- 基于 EMR、流式计算 Flink 引擎下的数据集成、数据研发、数据安全、数据质量、数据地图、数据服务模块
- 数据开发支持 EMR 引擎任务类型、通用任务、流式计算 Flink 版任务类型
- 数据集成新增支持离线集成、流式集成任务
- 数据安全支持权限管理、风险审计、审批中心
- 数据质量支持 EMR 引擎的数据监控、数据探查、数据对比等能力
- 数据地图支持数据检索、专题、血缘、元数据采集支持 EMR Hive/Doris/StarRocks
- 数据服务支持创建数据集、QUERY,并支持 API 监控运维、应用管理、系统管理等全量功能
-
【 公有云 -华东区服务部署】
- 支持 LAS、流式计算 Flink 引擎下的离线流式任务
- 数据地图、数据质量、数据安全支持 LAS 服务能力
-
【私有化-功能迭代更新】
- 离线数据集成支持 Gbase8S2LAS、OceanBase2LAS、实时集成 Kafka2LAS
- 数据开发支持 LAS Flink 任务类型
- 指标平台支持 HBase 数据源创建模型绑定
- 数据地图支持 GaussDB 元数据采集
- 数据安全新增审计日志功能
-
【 公有云 -功能迭代更新】
- 数据开发:新增 EMR Doris、EMR StarRocks 任务类型、Shell\Python\Notebook 任务支持 0.25CU/0.5CU 资源规格配置、临时查询支持交互式分析 Notebook 查询类型、LAS SQL 依赖推荐功能支持引导创建 Sensor 任务、Serverless Flink SQL 新增数据源登记支持自动解析、DAG 任务血缘查看、LAS、EMR 流式任务新增数据源登记类型、支持 EMR Doris、EMR StarRocks 元数据表查看及智能联想等
- 数据集成:整库离线同步:MySQL、PostgreSQL、SQLServer、Oracle 同步至 LAS、实时整库同步:MySQL、PostgreSQL、SQLServer 同步至 LAS、Doris 、 StarRocks
- 数据地图:EMR Hive、LAS 元数据支持以单库表形式进行采集、LAS/LAS Hive 支持 TTL 、支持 EMR Doris 库表管理
- 数据质量:新增支持质量订阅功能
- 数据安全:库表资源的历史权限查看、权限设置查看历史操作、按资源自动审批、审批流支持触发节点、支持批量上下载行枚举值、支持自定义问答&申请审批问答&批量设置问题、审批工单支持重新申请、新增资源包、自定义角色组,并支持应用在权限负责人、按角色代办等功能
云原生 数据仓库 ByteHouse
-
【 ByteHouse 云数仓版 新增功能 】
- [云数仓版 SaaS] 上线火山引擎华东地域,支持多地域下单购买(正式发布)
- [云数仓版 SaaS] 支持数据导入任务相关的监控和告警(正式发布)
- [云数仓版 SaaS] 新增定时任务功能,支持对计算资源定时弹性伸缩(灰度发布)
- [云数仓版 SaaS] 支持 SQL Editor,提供更完整的语义高亮支持,优化用户体验(灰度发布)
- [云数仓版 SaaS] 支持 AWS Glue (ETL),支持导出到 AWS S3
- [云数仓版 SaaS] 完成与 ClickHouse PHP driver 兼容
-
【 ByteHouse 企业版 新增功能 】
- [企业版 PaaS] 开放 MySQL 端口,支持兼容 MySQL 协议、语法、函数
- [企业版 PaaS] 支持创建时选择 3 副本及以上副本数
湖仓一体分析服务 LAS
-
【 公共云-功能迭代更新 】
- 服务区域:在华东区域全线开服,与原有华北区域组成 2 大服务区域,能更好服务更大范围的客户。
- 数据管理:新增 Table 类型,支持 Hive 内部表类型,开放 WareHouse 文件目录,快速帮助 Hadoop 用户无缝迁移至 LAS。
- 迁移工具:提供 Hadoop HDFS / Hive 迁移工具,加速 Hadoop 平滑迁移,保质保量。
- 查询分析:增强“SQL 编辑器”能力,智能补全包含库表联想、关键字填充、子句自动输入、语法自动识别等能力。
-
【 私有化 2.0 上线 】
-
更加面向 Hadoop 开源生态
- 本次迭代统一管控了 Hadoop、HBase、Kafka、Hive、OpenSearch、Tez、Kerberos、ZooKeeper,元数据配置上新增了 Hive Meta 支持集群内置 MySQL、独立 RDS。
- 面向生态提供开源组件的技术能力。
- Hadoop 生态、CDH 体系向 LAS 2.0 的迁移更容易对标、集成更容易实现。
-
LAS 湖仓能力、引擎增强
- 存储引擎:新增非结构化文件的上传 / 存储 / 共享 / 处理 / HDFS 语义支持。
- 资源调度:新增 YARN 资源管理编排能力。
- 队列管理:支持创建及修改队列:配置队列 min、max 资源 quota、设置并发度、设置队列权重。
-
运维管控能力大幅提升
- 底层平台:支持运行在基于国产芯片架构的服务器上,包括国产 ARM 架构-鲲鹏,以及其他架构(至少支持 Intel X86 架构)的服务器上。兼容主流的 Linux 操作系统,支持国产操作系统,例如麒麟。
- 集群管理:提供图形化的集群部署能力;创建支持预置自定义参数。支持集群重启;查看重启日志:查看服务重启的进度、当前环节状态、日志信息重启下线。对集群软件资源进行监控,保证平台运行效率软硬件资源日志和报错信息等。
- 搭建并不断完善的一条面向集群、主机、服务、组件、参数粒度的全生命周期管控能力。
- 重构了开箱即用的集群部署能力,全白屏化的一体化能力,界面操作实现全部组件的部署,包括 HA、安全等能力。
-
云原生 开源 大数据 平台 E-MapReduce
-
【 平台功能更新 】
- 亚太东南(柔佛)Region 发布,欢迎体验!
- 节点组支持垂直变配,支持升级节点配置规格
- Presto、Trino 独立集群集成 Iceberg connector、Hudi connector
- 节点监控指标丰富,包括 HDFS、Yarn、Zookeeper 等服务监控指标
- Kafka、Pulsar、Clickhouse、Doris、Starrocks 独立集群下线 PL0 云盘,存量集群不受影响
-
【 新增软件 栈 3.4.4 】
- StarRocks 组件默认将 QueryProfile 功能关闭
- StarRocks 组件中添加元数据管理功能,适配火山云服务大数据研发治理套件 DataLeap
-
【新增软件 栈 2.3.2】
- 修复 Spark 运行日志存放路径
- Ranger 中为 Spark 用户赋予库表的操作权限,解决 Spark ThriftServer 告警问题
点击查看更多介绍:https://www.volcengine.com/docs/6491/72143
重点功能课堂
大数据研发治理 套件 DataLeap
【 火山引擎DataLeap :整库搬迁解决方案上线,节省数据迁移成本】
火山引擎大数据研发治理套件 DataLeap 上线整库搬迁解决方案 , 包括整库离线同步、整库实时同步两大能力,大大提升数据上云便捷性,降低数据迁移成本,使用户易上手,低运维。整库迁移支持通过批量创建同步任务,如把一个Mysql DB 库内所有表一并上传到 LAS 中;整库 CDC 支持一键同步一个库内的多张表,先进行全量同步,后进行 CDC 实时同步。
- 整库离线同步: 用户可通过火山引擎 DataLeap 周期性或一次性将整库表数据同步到目标端,方案包括“一次性全量、周期性全量、一次性增量、周期性增量、一次性全量周期性增量”五种类型,支持 MySQL、PostgreSQL、SQLServer、Oracle 等数据源;
- 整库实时同步: 通过火山引擎 DataLeap 一键进行数据的全、增量一体化实时同步。整库实时同步解决方案支持“使用缓存”、“无需缓存,直接同步”两种缓存配置方式。一键实时整库同步解决方案支持多种数据源之间全增量一体化同步,之后再通过实时同步增量任务,依照选择配置单独选择进行实时增量数据同步,助力您将业务数据更高效、更便捷的同步至目标数据库中。
云原生 数据仓库 ByteHouse
【 克服 ClickHouse 运维难题: ByteHouse 水平扩容功能 】
在字节跳动内部,由于业务的快速增长,经常遇到集群规划性能不足,需要扩容的问题。字节内部,ByteHouse 支撑了内部数据看板,用户行为分析性等多个业务,服务的持续在线、性能的迅速提升非常重要,且用户表的表结构也非常多样。
基于内部需求,ByteHouse 自研了集群扩容能力,解决了自动化流程的问题,也提供了性能开销更低的扩容方式。
-
数据库引擎优化
- ByteHouse 的数据库引擎自研了
Alter Table...Resharding
命令,将一张表以分区的粒度进行重分布到另一张表。该命令支持两种方式: - 重分布到其他集群的另一张表。
- 重分布到本集群的另一张表。
- ByteHouse 的数据库引擎自研了
-
操作界面优化
- ByteHouse 数据库实现了 SQL 的底层能力进行数据重分布,实现了开销更低、适应性更强的重分布能力,但对于普通用户而言仍有使用门槛。因此 ByteHouse 在控制台也支持了水平扩容功能,组装了底层能力,实现产品化。
- 通过界面化操作,ByteHouse 给用户的扩容流程带来了全新的便利:
- 全流程自动化,不再需要自行编写脚本。
- 开放一小部分手动空间。例如,在扩容前可选立即重分布的表,对于剩余的表,可在扩容后再选择时间重分布任务,适应一些希望在业务低峰时扩容大表,进一步降低大表只读带来的影响。
- 包含容错处理,自动校验数据,流程便利可靠。
说明文档链接:https://developer.volcengine.com/articles/7254818612518027325
湖仓一体分析服务 LAS
【 LAS 助力搭建 大数据 +AI 湖仓 平台( GPU ) 】
-
丰富的数据处理
- 完善 Python 生态:LAS PySpark + DataLeap Notebook
- GPU 加速:LAS Spark & Rapids
- 降低数据处理门槛:LAS Spark English SDK
-
深度学习LASML Runtime
- Pandas on PySpark
- Imported Model Support
- PyTorch/TensorFlow on PySpark
-
弹性 GPU 资源
- 基于 Volcano Scheduler 深度优化,支持 GPU 资源调度和按量付费能力
- 具备混合 Quota 能力,队列一体化(分析/加工/训练/推理)
-
极致特征存储
- 字节内部基于 ByteLake 构建离线特征存储
云原生 开源 大数据 平台 E-MapReduce
【 EMRStarRocks】
-
目前,火山引擎 EMR 已正式上线 StarRocks 集群。除 100% 开源兼容,完整提供 StarRocks 原生能力外,火山引擎 EMR 团队还进行了多方面的能力增强,为企业客户带来业界领先的引擎性能和产品使用体验。
-
StarRocks 引擎自身的产品特性:
- MPP 分布式执行框架,单查询性能随集群水平扩展而不断提升。
- 全面向量化执行引擎,充分发挥 CPU 处理能力。
- 全新设计并深度定制的 CBO 优化器,包含多项优化和创新。
- 可实时更新的列式存储引擎,降低存储成本,提升查询性能。
- 支持智能物化视图,加速用户的查询请求。
- 可作为计算引擎直接分析数据湖中的数据。
-
EMR StarRocks 增强特性
- 与火山引擎大数据开发套件 DataLeap、全域数据集成 DataSail 等云上生态产品无缝对接,满足用户一站式的数据开发和集成需求。
- 引擎增强,同时支持 Serving 和分析场景
- 提供企业级诊断分析能力
- 提供丰富的监控告警、扩容、参数和日志管理等功能
说明文档链接:https://www.volcengine.com/docs/6491/165967
活动推荐
【活动】DTCC2023 第 14 届中国数据库技术大会 - 《字节跳动基于开源 OLAP 引擎的探索与实践》
【简介】 本次分享主要介绍了 火山引擎EMR如何基于 开源OLAP引擎构建实时分析平台,字节内部实践深度优化的OLAP内核 引擎如何去支撑客户的海量数据分析,支撑数百张业务表的实时数据导入和数百万次日查询,助力客户业务成功。
【活动回放】 https://developer.volcengine.com/articles/7278571191692951609
【活动】StarRocks 云原生湖仓 Meet Up 第二期 - 《火山引擎 EMR 在 StarRocks 成本优化上的思考》
【简介】本次分享主要介绍了 火山引擎EMR 基于 StarRocks 的最新 存算分离 版本进行的探索和实践,详细解读了在成本、弹性、资源隔离和可靠性等方面带来的提升。目前,火山引擎 EMR StarRocks 已经在旅游、在线教育和游戏等多个行业取得了广泛应用,证明了其在不同领域的可靠性和适用性。
【活动回放】 https://developer.volcengine.com/articles/7278537449540845609
【活动】DataFunSummit 2023:数据指标体系峰会 - 从懂车帝业务看火山引擎 DataLeap 如何在数仓模型和产品应用中落地
【简介】 本场活动中, 火山引擎 资深数仓研发工程师肖继哲解读 懂车帝 通过DataLeap指标服务统一构建汽车行业全方位的指标应用场景,从而建立指标体系构建规范,明确指标口径定义。了解指标建设如何在数仓模型及开发工作中收敛。最终建设指标体系的监控策略,保障指标数据质量和SLA 。
【活动回放】 https://developer.volcengine.com/videos/7277482014654562345
【活动】火山引擎 DataLeap分享:DataOps、数据治理、指标体系最佳实践
【简介】 在7月21日ArchSummit 全球架构师峰会(深圳站)及 DataFunCon.数据智能创新与实践大会(北京站)上,来自 火山引擎DataLeap 的三位专家分别就 DataOps 、数据治理和指标体系等方向进行了精彩的分享 。
【活动回放】 https://mp.weixin.qq.com/s/tll1FDfKIaYKZfZlYUJrlw
【活动】CommunityOverCode Asia 2023
【简介】随着 大数据 时代的到来,数据分析和 OLAP 技术在企业中的应用也越来越广泛,邀请业内的专家和学者分享他们在数据分析和 OLAP 技术方面的研究成果、实践经验和最新发展,涵盖数据分析和 OLAP 技术的研究进展、应用案例、最佳实践、性能优化等方面。
《基于 Apache Calcite 的多引擎指标管理最佳实践》
《大数据行列混合权限精细化管理实践》
《字节跳动基于 Parquet 格式的降本增效实践》
【活动回放】 https://apachecon.com/acasia2023/zh/tracks/olap.html
案例推荐 & 技术干货
【干货】OLAP 在火山 EMR 的最佳实践
【简介】 传统OLAP架构,解决的更多是离线分析场景的需求,随着大规模数据服务场景的增多,业务侧不断有新的诉求提出,对数据分析的时效性要求变高,当前架构中存储和计算资源耦合,不同业务、时段及用户对二者要求往往不同,导致集群响应不够及时等问题。本文重点分享OLAP在火山EMR上的 云原生 能力及在火山相关客户中的应用实践。
【文章链接】 https://mp.weixin.qq.com/s/81Ti5F5Ld-UKSPTuSvQUqg
【案例】途牛科技与火山引擎数智平台合作 打造企业大数据系统“降本”新范式
【简介】 南京途牛科技有限公司与 火山引擎 数智平台( VeDI )达成深入合作,途牛 大数据 系统全面迁移至火山引擎 云原生 开源 大数据平台E-MapReduce ,双方携手打造企业大数据系统“降本”新 范式 。
【文章链接】 https://www.51cto.com/article/763701.html
【干货】DataLeap 数据资产实战:如何实现存储优化
【简介】 Data Catalog作为 火山引擎 大数据研发治理 套件DataLeap产品的核心功能之一,经过多年打磨,服务于字节跳动内部几乎所有核心业务线,解决了数据生产者和消费者对于元数据和资产管理的各项核心需求。
【文章链接】 https://mp.weixin.qq.com/s/EnbE3MM8I8ND-phu86rPeg
【干货】从“13 天”到“0 天”延时,揭秘幸福里离线 SLA 保障最佳实践
【简介】幸福里团队通过引入火山引擎大数据研发治理套件 DataLeap,综合推进离线数仓的 SLA 治理,将离线数仓 SLA 从 13 天降低为 0 天。本文将从策略制定、任务摸排收集、规范确定,宣贯推进等方向还原项目推进过程,期望为更多企业带来 SLA 治理思考和解决方案。
【文章链接】 https://mp.weixin.qq.com/s/siSwrqVrsgAicgYz8c5_Dg
【干货】字节跳动基于 Hudi 的机器学习应用场景
【简介】本文主要介绍 火山引擎LAS 团队自研的多场景样本离线存储技术,用于处理 机器学习 系统的离线数据流。同时,还会为大家揭秘 流批一体 样本生成的过程,分享对 Hudi内核 所做出的优化和改造,探索其在数据处理领域的实际应用和效果。
【文章链接】 https://mp.weixin.qq.com/s/rvMjuofEndsPzIU4fTEsDw
【干货】干货丨字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践
【简介】本文对目前主流数仓架构及 数据湖 方案的不足之处进行分析,介绍了字节内部基于实时/离线数据存储问题提出的的 湖仓 一体方案的设计思路,并分享该方案在实际业务场景中的应用情况。最后还会为大家分享 LAS 团队对湖仓一体架构的未来规划。