火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。
双月更新,您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~
接下来让我们来看看 5-6 月数据中台产品有什么大事件吧~
产品一句话介绍
火山引擎 大数据研发治理 套件 DataLeap
一站式数据中台套件,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,提升数据研发效率、降低管理成本。搭配 EMR/LAS 大数据存储计算引擎,加速企业数据中台及湖仓一体平台建设,为企业数字化转型提供数据支撑。(公众号后台回复数字“2”了解更多产品信息。 )
火山引擎 云原生 数据仓库 ByteHouse
云原生数据仓库,为用户提供极速分析体验,能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力,极致分析性能和丰富的企业级特性,助力客户数字化转型。(公众号后台回复数字“6”了解更多产品信息。 )
火山引擎 湖仓一体分析服务 LAS
面向湖仓一体架构的 Serverless 数据处理分析服务,提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto、Flink 生态,帮助企业轻松构建智能实时湖仓。(公众号后台回复数字“4”了解更多产品信息。 )
火山引擎 云原生 开源 大数据 E-MapReduce
Stateless 云原生开源大数据平台,提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等大数据生态组件,100%开源兼容,支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构,帮助用户轻松完成企业大数据平台的建设,降低运维门槛,快速形成大数据分析能力。(公众号后台回复数字“3”了解更多产品信息。 )
产品迭代一览
大数据研发治理 套件 DataLeap
-
【 公有云 -华东区2 服务陆续部署】
- 数据质量支持 EMR 引擎的数据监控、数据探查、数据对比等能力
- 数据集成新增支持离线集成、流式集成任务
-
【私有化-功能迭代更新】
- 支持账号登录对接飞书、飞连、告警信息支持发送到飞书通知
- 数据集成 LAS->Redis,LAS->Mongo,LAS->SQLServer
- 全环境英文版及配套文档
-
【 公有云 -功能迭代更新】
-
控制台:独享计算资源组支持私有镜像仓库绑定、支持绑定 EMR StarRocks 集群类型、参数设置支持批式/流式关联任务
-
数据治理平台首发上云:包含治理全景、诊断规划、SLA 保障、资源优化、报警归因、复盘管理等重点模板
-
数据开发:EMR Spark 支持 Python 输出、Shell\Python 任务支持使用独享资源组私有镜像、临时查询支持 EMR StarRocks SQL 查询任务类型、流式任务监控,支持 Webhook 报警方式、实时运维概览,新增任务监控大盘和资源使用分析、FinkSQL 任务新增支持输入参数
-
数据集成:Hive->Doris、LAS->ES、PostgreSQL->Hive、Mongo->Hive、MySQL->EMR StarRocks、PostgreSQL->Doris
-
数据地图:支持接入 EMR StarRocks、支持 LAS 引擎创建普通 Hive 表、新增查询优化功能的协议配置功能
-
云原生 数据仓库 ByteHouse
-
【 ByteHouse 云 数仓 版 新增功能 】
- 云数仓版支持离线加工任务(灰度),通过资源隔离,事务保障,助力复杂 ELT 任务执行,实现更完整的分析场景覆盖。
- 支持对 MySQL 的语义兼容(灰度),更好地适配 MySQL 源端数据
- 支持导出到火山 TOS 对象存储(正式发布)
- 上线火山引擎华东地域,支持多地域下单购买
- 支持 AWS S3 外表,对 S3 数据直接进行查询
- 上线生态集成页面,提供多种上下游服务的集成说明
- 提供长时有效的 Access Token 配置,便于更好地进行上游服务的对接(正式发布)
-
【 ByteHouse 企业版 新增功能】
-
【重磅】支持集群水平扩容与数据重分布功能,可在线一键扩容集群,自动重分布数据;
-
【BETA】支持冷热分存功能,将低频数据存储至成本更低对象堆存介质中,降本增效;
-
支持可视化修改/下发系统配置;
-
私有化部署版支持集群自助升级引擎版本;
-
私有化部署版支持双因子认证登录。
-
湖仓一体分析服务 LAS
-
【新增系统能力】
- 新增近一周表热度统计功能,支持展示当前客户账号近一周访问最频繁的 TOP 10 表。
-
【新增数据管理功能】
- 数据活性分类 TTL 及冷热分层功能,支持基于 UI & SQL 配置数据保留时间(TTL)及智能冷热类数据分层存储,根据分区创建时间或者表访问时间作为依据,用于数据的自动冷热分层及过期数据删除。
- 支持对列级别的数据设置脱敏规则,并提供针对用户的脱敏权限配置,对不同用户进行不同的数据展示。
-
【新增失败作业 诊断 功能】
- 支持针对离线 SQL 查询报错信息,提供最常见的失败类型的诊断及错误原因。
-
【新增权限管理功能】
- 支持对表的脱敏权限进行权限授予、授权列表查看、历史授权的编辑、删除。
- 用户需要同时具备数据权限及加脱敏权限,才可查看未被脱敏的原始数据。
-
【新增血缘查询功能】
- 支持记录 SQL 作业中参与计算的所有表,并在作业管理页面展示。
-
【优化 JDBC 连接功能】
-
JDBC 连接功能优化,增加功能说明 & 连接教程,提升用户体验。
-
云原生 开源 大数据 平台 E-MapReduce
-
【 平台功能更新 】
-
Hadoop 集群支持 Task 节点缩容
-
DataLeap&EMR 的数据链路&数据开发功能、
- DataLeap 支持项目绑定 Doris 和 StarRocks 独立集群
- DataLeap 支持 Doris 和 StarRocks 元数据管理、临时查询、数据开发
-
新增 ECS AMD 第二代 g2a 实例类型,北京、上海、广州 Region 上线
-
新增 ECS Intel 第三代 g3i 机型,目前仅在北京 Region 上线
-
-
【 新增软件 栈 3.4.0 】
- 新增 Kyuubi 组件,版本为 1.7.1
- Iceberg 版本升级,从 0.14.0 升级至 1.2.0
- StarRocks 版本升级,从 2.4.1 升级至 2.5.8
- Hive 版本升级,从 3.1.2 升级至 3.1.3
- Presto 版本升级,从 0.267 升级至 0.280
- Trino 版本升级,从 392 升级至 412
- Flink 版本升级,从 1.16.0 升级至 1.16.1
- OpenLDAP 版本升级,从 2.4.58 升级至 2.5.13
- DolphinScheduler 版本升级,从 3.1.3 升级至 3.1.7
-
【 新增软件 栈 2.3.0 】
- 新增 Phoenix 组件,版本为 4.16.1
- Iceberg 版本升级,从 0.14.0 升级至 1.2.0
- Presto 版本升级,从 0.267 升级至 0.280
- Trino 版本升级,从 392 升级至 412
- Flink 版本升级,从 1.16.0 升级至 1.16.1
- OpenLDAP 版本升级,从 2.4.58 升级至 2.5.13
- DolphinScheduler 版本升级,从 3.1.3 升级至 3.1.7
点击查看更多介绍:https://www.volcengine.com/docs/6491/72143
重点功能课堂
大数据研发治理 套件 DataLeap
【 火山引擎 DataLeap 数据安全提供分类分级、数据隐私保护 】
-
分类分级
- 主动发现敏感数据资产,系统识别提高效率统一数据标准,预置常见分类分级,统一管控扫描任务变更即时生效,在分类分级配置后,可手动设置安全级别和安全分类标签,也可在数据安全中配置识别规则、识别任务,触发系统进行数据识别并打标。在执行数据识别任务后,可在数据标签调整字段标签
-
数据保护
-
在敏感数据识别的基础之上隐私化,支持对敏感数据进行转换或者修改,防止敏感数据直接在不可靠的环境下使用,从而确保敏感数据泄露风险可控。
-
数据存储加解密:用户在 SQL 任务/数据集任务中对数据进行 AES 等方式加解密,支持新增目标表
-
数据脱敏:创建数据脱敏任务进行信息脱敏,支持用户在 SQL 任务中对数据进行哈希脱敏
-
-
云原生 数据仓库 ByteHouse
【 实时导入——HaKafka 】
-
原架构痛点
- 节点故障:当集群机器数量到达一定规模以后,基本每周都需要人工处理节点故障。对于单副本集群在某些极端 case 下,节点故障甚至会导致数据丢失。
- 读写冲突:由于分布式架构的读写耦合,当集群负载达到一定程度以后,用户查询和实时导入就会出现资源冲突——尤其是CPU和IO,导入就会受到影响,出现消费lag。
- 扩容成本:由于分布式架构数据基本都是本地存储,在扩容以后,数据无法做Reshuffle,新扩容的机器几乎没有数据,而旧的机器上磁盘可能已经快写满,造成集群负载不均的状态,导致扩容并不能起到有效的效果。
-
自研分布式架构消费引擎 HaKafka
- ByteHouse 团队基于分布式架构自研了一种分布式实时数据引擎——HaKafka。具备以下特点:
- 高可用:ByteHouse 通过 zookeeper 选出一个 Leader,让Leader来真正地执行消费流程,其他节点位于 Stand by 状态。当L eader 节点不可用了,可以在秒级将 Leader 切到 Stand by 节点继续消费,从而实现高可用能力。
- Low—Level 消费模式:HaKafka的消费模式从High Level调整到了Low Level模式。Low Level模式可以保证Topic Partition有序和均匀地分配到集群内各个shard;与此同时,Shard内部可以再一次用多线程,让每个线程来消费不同Partition。从而完全继承了社区Kafka表引擎两级并发的优点。
- Memory Table:Memory Table的做法就是每一次导入数据不直接刷盘,而是存在内存中;当数据达到一定量以后,再集中刷盘,减少 IO 操作。Memory Table可以提供对外查询服务的,查询会路由到消费节点所在的副本去读 memory table 里边的数据,这样保证了不影响数据导入的延时性。
说明文档链接(微信域内链接):https://mp.weixin.qq.com/s/mQSPsbyaawzZskQzkNwzBw
湖仓一体分析服务 LAS
【 LAS 批流一体:一张表同时处理批流数据,简化数据分析架构】
-
业务痛点
- 批流存储引擎不统一,采取 Lambda 架构,批流任务分开处理,数据存储浪费。
- 多引擎开发和维护复杂,可能造成实时与批量处理结果不一致。
- 复杂的业务逻辑由 Flink 实现、运维和回溯成本高。
-
解决方案
- 批量导入:历史成单、续约数据批量导入。
- 实时写入:新增订单、续约、退款等近 30 天的数据保持即时更新。
- LAS 存储引擎支持一张表同时支持批流处理两种场景,无需维护多套存储。
- LAS 支持离线+实时统一查询,微批处理,分钟级时效。
云原生 开源 大数据 平台 E-MapReduce
【 弹性伸缩策略 】
-
EMR 弹性伸缩功能,可以帮助您节省成本,提高执行效率,主要应用在以下场景:
- 业务计算负载曲线有明显的波峰波谷情况;
- 你对业务非常熟悉,可以规划固定时间段内集群的计算能力,使之满足业务需求的同时,还可以节省成本;
- 为确保重要作业按时完成,需要在某一时间段内按照某些负载指标扩充节点。
-
火山引擎 EMR 支持丰富的弹性伸缩策略:
- 基于时间规则的弹性:指定时间点进行弹性扩缩容,支持执行一次或重复执行,提供扩缩容成功后的指定时长的冷却机制;
- 基于集群负载的弹性:按集群负载情况进行弹性扩缩容,如当 YARN 的运行指标大于设定的某个值时,触发弹性扩容;
- 基于混合策略的弹性:在某个时间段内,且某些负载指标大于所指定的阈值时,触发弹性扩缩容,支持了复杂场景的弹性策略设置;
- 瞬态集群颗粒度的弹性:存算分离模式下,EMR 集群可以作为 Stateless 服务,以整个集群为粒度弹性伸缩,成本更优。
说明文档链接(非微信域内链接):https://www.volcengine.com/docs/6491/126106
活动推荐
【活动】DataFunSummit 2023:OLAP 引擎架构峰会 - OLAP 最佳实践论坛
【简介】 本场活动中,火山引擎 EMR 研发工程师琚克俭解读了火山引擎 EMR 的产品定位,详细介绍了火山引擎EMR OLAP 云原生能力和引擎能力的最新情况和后续规划,并分享了在客户场景中的最佳实践。
【活动回放】(非微信域内链接) https://developer.volcengine.com/videos/7256713268926890041
【活动】Apache Hudi 中文社区技术交流会-第十一期
【简介】 Apache Hudi 是新一代流式数据湖平台,支持插入、更新、删除以及增量数据处理;可助力构建高效的企业级数据湖,目前已经在国内外多个大型公司生产落地。本期第一位嘉宾 Apache Hudi Contributor 林明强分享 《Hudi 在唯品会的探索实践》,第二位嘉宾 Apache Flink && Apache Calcite Committer,Apache HUDI Contributor 张静分享《数据湖技术在快手的生产实践》。
【活动回放】(非微信域内链接) Apache Hudi 中文社区技术交流会第十一期.mov
【活动】Apache Hudi 中文社区技术交流会-第十二期
【简介】 Apache Hudi 是新一代流式数据湖平台,支持插入、更新、删除以及增量数据处理;可助力构建高效的企业级数据湖,目前已经在国内外多个大型公司生产落地。本期内容由嘉宾 火山引擎数据平台研发工程师 喻兆靖 分享 《高性能实时入湖在字节内部场景的实践》。
【活动回放】(非微信域内链接) Apache Hudi 中文社区技术交流会第十二期.mov
案例推荐 & 技术干货
【干货】字节跳动数据技术实战:Spark 性能调优与功能升级
【简介】 本文为大家讲解字节跳动在 Spark 技术上的实践——LAS Spark 的基本原理,分析该技术相较于社区版本如何实现性能更高、功能更多,为大家揭秘该技术做到极致优化的内幕,同时,还会为大家带来团队关于 LAS Spark 技术的未来规划。
【文章链接】(微信域内链接) https://mp.weixin.qq.com/s/UUSn4MVsjwCHhJPTnOA8Tg
【干货】Apache Iceberg 中引入索引提升查询性能
【简介】 Apache Iceberg 是一种开源数据 Lakehouse 表格式,提供强大的功能和开放的生态系统,如:Time travel,ACID 事务,partition evolution,schema evolution 等功能。
【文章链接】(微信域内链接) https://mp.weixin.qq.com/s/zxVJgfTACYZTNt3xKzKJAQ
【干货】3 步打造“指标管理”体系,幸福里数据中心是这么做的
【简介】 从业务背景、业务痛点、幸福里指标数据实践、效果收益四个方面,介绍幸福里如何通过火山引擎DataLeap、DataWind 等数据产品,从 0-1 完成指标体系搭建,并获得显著收益 。
【文章链接】(微信域内链接) https://mp.weixin.qq.com/s/u4eNfnFMrGG5lxeSLAOiCA
【干货】火山引擎 DataLeap 联合 DataFun 发布《数据治理知识地图》
【简介】 火山引擎 DataLeap 和技术社区 DataFun 联合发布《数据治理知识地图专业版 V1》(以下简称“地图”),地图将数据治理的领域、流程、技术、工具等内容进行系统化整理和分类,为从业者提供全面的学习和思路参考
【文章链接】(微信域内链接) https://mp.weixin.qq.com/s/a7X1mTGV49MaGn39aw3p5g
【干货】火山引擎 Dataleap 治理实践:如何降低数仓建设成本
【简介】 为了减轻资源负担,降低数仓维护成本,需要对数仓建设成本进行治理与优化。火山引擎 DataLeap 提供了 Hive 表的资源治理功能,包括 Hive 表的存储与访问次数等基本信息查询,用户可以根据该功能直接定位低频使用数据表并进行优化。
【文章链接】(微信域内链接) https://mp.weixin.qq.com/s/XDSwc50AUCJMgRvHGUVahQ
【干货】以 100GB SSB 性能测试为例,通过 ByteHouse 云数仓开启你的数据分析之路
【简介】 从传统数仓、湖仓一体再到云数仓,技术快速迭代,云数仓已经成为数字化基础设施中的关键“底座”。如何才能丝滑使用一款云数仓产品,本篇文章用五个步骤教你搞定!
【文章链接】(微信域内链接) https://mp.weixin.qq.com/s/mc6IqVoVZ_yJBBJck0d6VQ
【干货】ClickHouse进阶|如何自研一款企业级高性能网关组件?
【简介】 使用原生ClickHouse集群进行节点数据查询和写入时,通常会配合使用chproxy来对查询进行负载均衡。但由于chproxy缺少TCP协议支持,导致性能、查询能力等受限。这也成为困扰众多ClickHouse开发者的一大难题。
究竟应该如何突破?本文将揭秘火山引擎ByteHouse企业版自研网关组件如何解决以上问题。
【文章链接】(微信域内链接) https://mp.weixin.qq.com/s/X9vIC8T07LSfpOX5v8beQg