火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。
双月更新,您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~
接下来让我们来看看 11-12 月数据中台产品有什么大事件吧~
产品一句话介绍
火山引擎大数据研发治理套件 DataLeap
一站式数据中台套件,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,提升数据研发效率、降低管理成本。搭配 EMR/LAS 大数据存储计算引擎,加速企业数据中台及湖仓一体平台建设,为企业数字化转型提供数据支撑。
火山引擎云原生数据仓库 ByteHouse
云原生数据仓库,为用户提供极速分析体验,能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力,极致分析性能和丰富的企业级特性,助力客户数字化转型。
火山引擎湖仓一体分析服务 LAS
面向湖仓一体架构的 Serverless 数据处理分析服务,提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto、Flink 生态,帮助企业轻松构建智能实时湖仓。
火山引擎云原生开源大数据E-MapReduce
Stateless 云原生开源大数据平台,提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等大数据生态组件,100%开源兼容,支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构,帮助用户轻松完成企业大数据平台的建设,降低运维门槛,快速形成大数据分析能力。
产品迭代一览
大数据研发治理 套件 DataLeap
-
【 新增通道任务功能】
- 数据集成任务新增 Redis 数据源,支持从 LAS to Redis的双向集成同步。
- 新增云原生 veDB MySQL 数据源,支持 veDB MySQL_to_LAS 通道作业。
- 新增 CloudFS 离线并优化读取能力,支持 CFS_to_LAS 通道作业。
-
【新增开发规范及流水管理】
- 智能市场新增建表规范,结合数据地图功能,支持对表名、业务元数据等内容进行开发规范校验。
- 控制台项目新增任务流水线管理,支持提交任务时进行规范检查,提前规避上线问题风险。
-
【 优化任务通知及监控】
- 支持对 EMR1.3.1 及后续版本绑定,Serverless Spark 扩充创建 File 资源文件类型。
- 运维中心新增任务变更消息通知,支持代码变更后,一键发送通知给下游任务负责人。
- 指标平台公测转正式GA发布。
说明文档链接:
云原生 数据仓库 ByteHouse
-
【 新增 ByteHouse 云数仓版功能】
- 支持 Python UDF 用户定义函数能力,支持用户在 ByteHouse 中灵活定义并使用函数,实现高性能的查询。
- 正式发布物化视图能力,通过定义物化视图实现查询加速,简化查询逻辑。
- 支持 ETL 工具 DBT connector,进一步完善任务调度、上下游对接能力。
- 正式上架 AWS Marketplace,已有 AWS 账户可以便捷地开通和使用 ByteHouse。
-
【 新增 ByteHouse 企业版功能】
- ByteHouse 企业版 PaaS 服务正式上架火山引擎,相比私有化版本,支持云上自助创建集群,包年包月计费,更灵活便捷。
- 支持部署查询网关,可实现 HTTP/TCP 协议的查询代理与负载均衡。
- 支持 OpenAPI,用户可灵活与业务系统集成。
- 用户体验更新,改版概览页和新建数据表页。
说明文档链接:https://www.volcengine.com/docs/6464/164704
湖仓一体分析服务 LAS
-
【新增TTL自动管理及删除数据】
- 支持配置 TTL,对于超过保留期(创建时间 > y 天)的冷数据进行自动删除。
- 支持配置 Schema 级别的 TTL,该 Schema 内的分区内表会默认遵循该 TTL 。
-
【新增普通视图/物化视图功能】
- 支持普通视图/物化视图的创建、删除、更新、使用、授权等。
-
【新增支持 Flink 1.16】
- 支持 Flink Jar 作业、Flink SQL 作业的 Flink 版本选择,同时支持 1.16&1.11 版本。
说明文档链接:https://www.volcengine.com/docs/6492/72764
云原生 开源 大数据 平台 E-MapReduce
-
【更新EMR平台功能 】
- Public History Server 作业执行历史集群外置,生产发布对 Presto、Trino 组件支持。开启 Public History Server 功能后,用户可以查看历史集群的作业执行日志和记录。
- 支持 EMR Flume 读写对象存储 TOS、大数据文件系统 CFS。
- 产品总览页面交互和展示信息优化,对集群类型、欠费提醒进行优化。
- 上线华东上海 Region。
-
【更新EMR软件栈 】
- 新增软件栈 EMR v3.1.0:ClickHouse 独立集群生产发布,EMR Pulsar 组件新增 Pulsar Manager。
- 新增软件栈 EMR v2.1.0:新增 Hadoop 2.10.0 全量生产发布,便于 Hadoop 2.x 用户平行迁移。
说明文档链接:https://www.volcengine.com/docs/6491/72143
重点功能课堂
大数据研发治理套件 DataLeap
- 【分布式数据自治】 以业务单元为数据治理闭环单元,通过完善的产品工具,将管理视角转化为监督视角,解决数据治理落地痛点;各业务团队分布式自运行,整体上达到全局最优,从形态上,适配更多业务特性和发展阶段,从效果上,强推进重落实与结果。
-
- SLA 治理: 分布式协同,跨团队对齐,全链路监督与保障。
- 数据质量与安全: 对数据进行探查监控、对比,清理冗余权限,完善分类分级。
- 资源优化: 优化数据存储与计算任务,节约大数据成本。
- 报警与起夜: 查看报警明细与归因,基于规则降低告警量与起夜率。
- 复盘管理: 业务单元内部进行规范与定级标准,对线上生产与监控破线进行内部问题,对事故定级与进行复盘。
云原生数据仓库 ByteHouse
【HaUniqueMergeTree:高效更新表引擎引擎,支持 Upsert】 HaUniqueMergeTree 是 ByteHouse 自研的一款既保留了 ClickHouse 高效的查询性能、又支持主键更新的表引擎。它解决了社区版 ClickHouse 不能支持高效更新操作的痛点,帮助业务更简单地开发实时分析应用。
HaUniqueMergeTree 引擎具有以下特点:
- 用户配置唯一键,提供 upsert 更新写语义,查询自动返回每个唯一键的最新值。
- 性能:单 shard 写入吞吐一般可以达到100k+ rows/s;查询性能与 MergeTree 表几乎相同。
- 唯一键支持多字段和表达式(目前支持最多三个字段)。
- 支持分区级别唯一和表级别唯一两种模式。
- 支持自定义版本字段,写入低版本数据时自动忽略。
- 支持多副本部署,通过主备异步复制保障数据可靠性。
- 支持根据 UNIQUE KEY 实时删除数据。
性能评估:
说明文档链接:https://www.volcengine.com/docs/6464/163839
湖仓一体分析服务 LAS
【 EB级批流一体,支持实时更新】 LAS 存储格式 (Table Format):基于 Hudi 深度优化,100% 产品化内嵌通过行列混合存储、索引、湖仓统一元数据等技术打造的批流一体的湖仓一体存储方案。
- 数据更新:可提供对历史数据的更新删除能力 Upsert / Update / Delete 能力,提供 Streaming Source / Sink 能力,数据分钟级可见。
- ByteLake Metastore:提供湖仓统一的可扩展、高可用、高性能的元数据管理系统,与 Hive Metastore 完全兼容,兼容多种计算引擎,并能满足数据湖场景下文件级元数据管理的需求。
- Bucket Index:轻量且高效的索引方式,在大规模数据入湖、探索分析等场景中提供高效的写入和查询能力。
- Column Family:解决部分列更新场景的性能问题,典型场景例如 GDPR 用户信息列删除。
- SQL 封装:提供 SQL 封装,完全兼容 OLAP Hive SQL 能力。同时 LAS 内嵌 Hudi 能力,无需用户操作,极大降低使用成本。
说明文档链接:https://www.volcengine.com/docs/6492/72765
云原生开源大数据平台E-MapReduce
【 EMR Stateless】 无状态的 EMR 实例,交付轻量级的瞬态集群。在存算分离的基础上进一步服务化 EMR 集群的状态元素,含状态 Server(如 HMS、History Server)、用户数据、元数据、用户/权限/审计数据、服务/任务日志、集群配置、监控指标数据 等,让长运行集群变成轻量级瞬态集群,作业的提交和结束可以触发集群的创建和释放,从而获得更好的弹性和扩展性,让数据平台架构有更好的演进成长能力和最佳的成本优化。
无对应帮助文档,上期直播是介绍EMR Stateless,剪辑视频在:https://www.volcengine.com/docs/6491/164860
活动推荐
【活动】火山引擎 VeDI 数据中台架构剖析与方案分享
【简介】 数据中台在字节跳动内部已经有了多年的实践,并且已通过火山引擎数智平台 VeDI 对外输出,服务于多行业客户。12月20日,通过对火山引擎 VeDI 数据中台架构剖析与方案分享,重点阐述了字节跳动数据中台建设经验,在存算分离、湖仓一体、Serverless 等技术发展趋势下,从企业数仓架构选择、数据湖解决方案与应用实践,以及一站式数据治理等角度,为企业构建自身数据中台提供思路和启发。
- 议题一: 火山引擎 一站式 数据治理 解决方案与业务实践
- 议题二:解读 火山引擎 ****EMR Stateless 创新理念和业务价值
- 议题三:湖仓一体架构在 LAS 服务的探索与实践
【活动回放】 关注字节跳动数据平台视频号,点击「直播回放」搜索后观看。
【活动】Apache Hudi 中文社区12月交流会议
【简介】 Apache Hudi 是新一代流式数据湖平台,支持插入、更新、删除以及增量数据处理;可助力构建高效的企业级数据湖,目前已经在国内外多个大型公司生产落地。Apache Hudi 中文社区技术交流会固定于每月最后一个周四晚上 19:30 到 20:30 开播,会议由火山引擎湖仓一体分析服务 LAS 团队主办,围绕 Apache Hudi 沟通社区进展、互换想法。其中第7期于2022年12月29日分享的主题有 《InLong 支持数据湖 Hudi 新范式》 和 《Hudi 分区级生命周期管理》 。
【活动回放】 关注字节跳动数据平台视频号,点击「直播回放」搜索后观看。
【活动】Pulsar Summit Asia 2022
【简介】 Pulsar Summit 是 Apache Pulsar 社区年度盛会,它将分布在世界各地的 Apache Pulsar 项目 Contributor、Committer 和各企业 CTO/CIO、开发者、架构师、数据科学家,以及消息和流计算社区的精英召集在一起。于此盛会,大家分享实践经验、交流想法、探讨关于 Pulsar 项目和社区的知识,切磋互动。2022年11月19日(周六)13:30(北京时间),Pulsar Summit Asia 2022 于线上召开,EMR团队技术专家梁鑫受邀进行分享,主题为 《Apache Pulsar 在 火山引擎 ****E-MapReduce 的集成与场景》 。
【活动回放】 https://www.volcengine.com/docs/6491/166176
案例推荐&技术干货
【观点】2022技术盘点:大数据管理工具走向更易用与专精,但中外发展现状存在明显差异
【简介】纵观整个数仓的发展历程,大体上可以分为 4 个阶段,尽管在当下,第 2、3、4 阶段的数仓产品仍处于共存状态——它们仍旧分别被各类企业所使用,但在企业数字化转型和企业上云的整体趋势背景下,有理由相信,未来处于第 4 阶段的云数仓,将会被越来越多的企业采用。
【文章链接】https://mp.weixin.qq.com/s/N83nt5PbmoG5ghnosDD_RQ
【干货】字节跳动数据湖索引演进
【简介】字节跳动数据湖架构是在 Apache Hudi 开源版本基础上的再次迭代,在 Hudi 落地的过程中,字节跳动也遇到了各种类型的问题,尤其是在索引使用的效率上。针对自身实际的业务场景和数据规模,字节也提出了新的索引实现方式并且贡献到了社区。本次分享主要介绍字节跳动数据湖索引演进。
【文章链接】https://mp.weixin.qq.com/s/jyyxe05xPoI1QLitk0zmiw
【干货】火山引擎数据调度实例的 DAG 优化方案
【简介】在数仓研发中,不同的表之间会存在依赖关系,而产生表数据的任务实例,也会因此存在依赖关系。只有在上游实例运行成功、下游实例到达设定的运行时间且资源充足的情况下,下游实例才会开始执行。所以,在日常的任务运维中,常常需要分析实例上下游的运行情况,根据具体的情况对实例进行置成功、重跑等操作。而如何清晰地展示实例之间的关系,帮助用户快速地分析整个链路的运行情况,并完成问题定位和运维操作,则是实例 DAG 需要解决的问题。
【文章链接】https://mp.weixin.qq.com/s/TIW1sh_dG_O-jtGoXAqIvQ
【干货】火山引擎 DataLeap 的 Data Catalog 系统公有云实践
【简介】Data Catalog 是一种元数据管理的服务,会收集技术元数据,并在其基础上提供更丰富的业务上下文与语义,通常支持元数据编目、查找、详情浏览等功能。目前 Data Catalog 作为火山引擎大数据研发治理套 DataLeap 产品的核心功能之一,经过多年打磨,服务于字节跳动内部几乎所有核心业务线,解决了数据生产者和消费者对于元数据和资产管理的各项核心需求。
【文章链接】https://mp.weixin.qq.com/s/O25qal9Ysi7nLDcuga3mCQ
【干货】字节跳动数据中台的 Data Catalog 系统搜索实践
【简介】Data Catalog 能够帮助大公司更好地梳理和管理自己的资产,是 Data-drvien 公司的重要平台。一个通用的 Data Catalog 平台通常包含元数据管理,搜索,血缘,标签,术语等功能。其中,搜索是 Data Catalog 的入口功能,承担着让用户“找到数”的主要能力。在字节跳动数据中台的 Data Catalog 系统中,每天有 70% 以上的用户会使用搜索功能。
【文章链接】https://mp.weixin.qq.com/s/XOBaf_JbKzkPSklpBdFkdA
【文章】一文了解 DataLeap 中的 Notebook
【简介】 Notebook 是一种支持 REPL 模式的开发环境。所谓「REPL」,即「读取-求值-输出」循环:输入一段代码,立刻得到相应的结果,并继续等待下一次输入。它通常使得探索性的开发和调试更加便捷。在 Notebook 环境,可以交互式地在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果,使用起来非常灵活。
【文章链接】https://mp.weixin.qq.com/s/wLp-ZJaXvZO85FiFXdJafw
【干货】火山引擎 LAS 数据湖存储内核揭秘
【简介】LAS 全称(Lakehouse Analysis Service)湖仓一体分析服务,融合了湖与仓的优势,既能够利用湖的优势将所有数据存储到廉价存储中,供机器学习、数据分析等场景使用,又能基于数据湖构建数仓供 BI 报表等业务使用。本文将从以下几点开展分享:LAS 介绍、问题与挑战、LAS 数据湖服务化设计与实践、未来规划。
【文章链接】https://mp.weixin.qq.com/s/3gSrWZ10FV9V8eL7cKFm4A
【文章】火山引擎 EMR 上线瞬态集群能力,助力企业大幅降低使用成本
【简介】12月20日,火山引擎 E-MapReduce (简称 “EMR”)正式上线瞬态集群新功能,该能力基于业界领先 EMR Stateless 理念,可以实现集群级别的弹性伸缩,即无业务需求时释放集群,有业务需求时再拉起集群,从而帮助企业大幅降低产品使用和平台运维成本。
【文章链接】https://news.sina.com.cn/sx/2022-12-21/detail-imxxmspw0884179.shtml
点击 火山引擎数智平台VeDI 了解火山引擎数智平台VeDI全部产品