「火山引擎」数据中台产品双月刊 VOL.02 - 文章 - 开发者社区

火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。

产品迭代一览

火山引擎大数据研发治理套件 DataLeap

【增强数据集成能力】数据源支持 Doris、ByteHouse（云数仓版）、BMQ、CloudFS。离线集成通道新增 MySQL->Doris、LAS->Doris、LAS->ByteHouse（云数仓版）、MySQL->ByteHouse（云数仓版）。流式集成通道新增 BMQ->ES、BMQ->CFS、BMQ->LAS

picture.image

【扩展元数据管理】 新增接入 ByteHouse数据表信息，提供对ByteHouse的元数据管理能力。可创建并管理业务术语并关联到数据表。帮助各级数据方检索、定义、方便理解数据，强化企业数据资产体系建设。

picture.image

火山引擎湖仓一体分析服务 LAS

【强化湖仓一体能力】 支持非结构化数据存储及计算，包含非结构化文件的上传 / 存储 / 共享 / 处理 / HDFS 语义支持。

picture.image

【提升运维 管理能力】支持服务日志查询和下载，支持集群组件参数配置，方便运维人员排查问题，同时丰富了队列运行相关的监控指标。

picture.image

【新增数据源能力】支持oracle jdbc sink，Kafka 数据源（自建 Kafka Connector）。

火山引擎云原生开源大数据平台 E-MapReduce

【新增软件栈版本 EMR v3.0.0】 采用 Hadoop3.x 版本序列，主要组件包括：Hadoop 3.3.1、Spark 3.2.1、Hive3.1.3，具体组件更新升级如下：

第一，Flink 版本升级到1.15.1；Iceberg 升级到0.14.0；Hudi 版本升级到0.11.1；Doris 版本升级到1.1.1

第二，新增数据格式 Delta Lake 2.0
【新增软件栈版本 EMR v2.0.0】 采用 Hadoop2.x 版本序列，降低使用 Hadoop 2.x 迁移到火山引擎的成本，主要组件包括：Hadoop 2.10.2、Hive 2.3.9、Spark 2.4.8
【 弹性伸缩 】 Hadoop集群支持按时间弹性伸缩（生产可用）
【存算分离】 支持计算存储分离架构（生产可用）
【计费方式】 支持包年包月购买方式：创建集群支持包年包月的售卖方式；支持对包年包月集群退订；支持按量付费转包年包月

重点功能课堂

火山引擎大数据研发治理套件 DataLeap

指标平台公测，帮助业务从源头规范化数据建设，达到指标“统一口径、高质量、无重复”的目标。在统一数据标准同时，以维度建模为理论基础，定义业务线、指标、数据模型，支持多种数据源快速构建模型，提供多样指标构建方式，消除指标二义性，以服务化形式提供数据共享。
- 【规范定义】： 统一指标命名及口径管理，构建逻辑追溯指标血缘和影响范围
- 【建模研发】： 快速构建指标，基于规范定义在源模型构建计算逻辑关联指标
- 【管理中心】： 用于管理业务线、指标分类、扩展属性配置、指标服务授权等信息

picture.image

火山引擎湖仓一体分析服务 LAS

【Serverless：开箱即用，简化大数据分析链路】 【业务痛点】传统 Hadoop 架构开发建设门槛高，数据建设链路繁杂冗长，对开发人员的技术要求较高，人力需求较多，往往导致数据更新迭代、响应较慢，无法真正驱动业务快速增长。【技术方案】LAS 通过提供 Serverless 全托管服务能力，能够有效简化大数据的加工分析的整体链路，用户无需关注任何运维管理工作，助力数据团队专注数据开发，借助系统提供的自优化、自调整能力，解决调优需求，显著降低应用门槛。

picture.image

火山引擎云原生开源大数据平台 E-MapReduce

【全方位的企业级安全体系】

【简介】火山引擎E-MapReduce产品支持Kerberos和lAM两种强认证模式、RBAC模式、审计日志与访问审计等，安全管控服务支持高可用，协同火山引擎安全体系，实现全方位安全管控。

picture.image

活动推荐

【活动】「DataFun数据治理系列」字节跳动数据血缘篇

picture.image 【简介】 10月31日，通过DataFun数据治理系列分享了字节跳动血缘架构演进之路、以及血缘技术实现及具体示例介绍。本主题重点阐述了字节跳动血缘系统架构设计与背景理念与演进实践。并通过血缘模型的的基础设计和优化，分享字节内部的数据血缘的使用经验。

议题一：字节跳动 数据血缘 架构演进之路（上篇）

议题二：字节跳动 数据血缘 技术实现与具体用例（下篇）

【活动回放】

上篇： https://developer.volcengine.com/videos/7164264335840133127
下篇： https://developer.volcengine.com/videos/7164279294737252389

【活动】Apache Hudi 中文社区10月交流会议

picture.image

【简介】 Apache Hudi 是新一代流式数据湖平台，支持插入、更新、删除以及增量数据处理；可助力构建高效的企业级数据湖，目前已经在国内外多个大型公司生产落地。Apache Hudi 中文社区技术交流会固定于每月最后一个周四晚上19:30 到 20:30开播，会议由火山引擎湖仓一体分析服务 LAS 团队主办，围绕 Apache Hudi 沟通社区进展、互换想法。其中第五期于2022年10月27日分享的主题有《 RocketMQ 数据入湖》 和《 Presto on Hudi 查询优化》 。

【活动回放】 关注字节跳动数据平台视频号，点击「直播回放」搜索后观看。

案例推荐&技术干货

【文章】Spark AQE SkewedJoin 在字节跳动的实践和优化

【简介】本文将首先介绍 Spark AQE SkewedJoin 的基本原理以及字节跳动在使用 AQE SkewedJoin 的实践中遇到的一些问题；其次介绍针对遇到的问题所做的相关优化和功能增强，以及相关优化在字节跳动的收益；此外，我们还将分享 SkewedJoin 的使用经验。

【文章】字节跳动基于数据湖技术的近实时场景实践

【简介】我们采取的策略是设计一种近实时的计算架构，在保留离线计算数据的丰富度和复杂度的同时，又兼顾实时计算的时效性高的特点，将两者进行优势互补。这种近实时的方案，能满足刚才提到的分析型、运维型的业务需求。

【文章】字节跳动基于 Apache Atlas 的近实时消息同步能力优化

【简介】字节数据中台 DataLeap 的 Data Catalog 系统通过接收 MQ 中的近实时消息来同步部分元数据。Apache Atlas 对于实时消息的消费处理不满足性能要求，内部使用Flink任务的处理方案在 ToB 场景中也存在诸多限制，所以团队自研了轻量级异步消息处理框架，支持了字节内部和火山引擎上同步元数据的诉求。本文定义了需求场景，并详细介绍框架的设计与实现。

【文章】字节跳动数据血缘图谱升级方案设计与实现

【简介】数据地图平台是字节跳动内部的大数据检索平台，每天近万的字节员工在此查找所需数据。数据地图通过提供便捷的找数，理解数据服务，大大节省了内部数据的沟通和建设成本。帮助用户快速定义、构建，理解，检索数据。

【文章】十分钟读懂字节跳动的Doris湖仓分析实践

【简介】Doris是一种 MPP 架构的分析型数据库，主要面向多维分析，数据报表，用户画像分析等场景。自带分析引擎和存储引擎，支持向量化执行引擎，不依赖其他组件，兼容 MySQL 协议。本文介绍了字节跳动基于 Doris 查询数据湖格式 Hudi 数据的设计思路、技术原理和后续规划。