「火山引擎」数智平台VeDI数据中台产品双月刊 VOL.08

picture.image

火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。

双月更新，您可通过关注「字节跳动数据平台」官方公众号、添加小助手微信加入社群获取更多产品动态~

接下来让我们来看看 9-10 月数据中台产品有什么大事件吧~

产品迭代一览

大数据研发治理套件 DataLeap

【私有化-功能迭代更新】
- 数据集成新增 Kafka->LAS、FTP/SFTP Writer、MySQL->LAS 实时整库能力、离线整库能力新增 GaussDB、GBase8s、OceanBase数据源。
- 数据开发新增 Perl、 Notebook 任务、Shell 任务模板支持参数加密。
- 数据地图支持资产全景、新支持值班管理功能。
- 支持引擎底座LAS 2.0版本、对接 GreenPlum 引擎底座。
【公有云-功能迭代更新】
- 控制台：项目管理增加离线降级管理功能、单项目支持绑定多个 EMR 集群，单个 EMR 集群支持被多个项目同时绑定、EMR 集群支持安全模式接入、新增独享调度资源组。
- 数据开发：支持任务批量删除操作、EME SQL、EMR StarRocks 任务支持自动解析任务产出登记、依赖推荐、任务调度配置支持优先级保障、任务调度支持独享调度资源组配置、离线/流式运维监控报警新增值班计划为接收人，自定义值班表、流式计算 Flink 版引擎中，Serverless Flink SQL、Serverless Java Flink 任务支持重启模式选择，新增 Flink-1.16 执行引擎版本、发布中心支持同 Region 跨项目任务同步发布包导出功能。了解详情>>
- 数据集成：新增/优化数据源：Elasticsearch、Hive、LarkSheet、LAS、MySQL、Oracle、PostgreSQL、REST_API、SQLServer、EMR-StarRocks、TDengine、ByteHouse CDW。了解详情>>
- 值班管理：新增值班管理模块，自定义值班表，对接运维中心、数据质量等模块支持值班计划为报警接收人。
- 数据地图：EMR Hive表支持设置TTL、EMR Hive接入EMR安全模式、LAS、EMR Hive表详情页增加显示浏览次数、最新分区时间、增加EMR StarRocks库表管理功能、增加质量信息功能。
- 数据质量：支持飞书、电话报警，报警接收支持值班计划、数据监控、探查对比，EMR 集群支持安全模式鉴权、新增定时对比功能。
- 数据安全：支持EMR数据源。

云原生数据仓库ByteHouse

【ByteHouse云数仓版】

生态
- ClickHouse 兼容性
  - 函数：与 ClickHouse 21.8 功能保持一致。
  - 新增数据类型：Time/Bool/Date32/Uint256/Decimal256。
  - 新增表引擎：CnchCollapsingMergeTree, CnchReplacingMergeTree, CnchSummingMergeTree, CnchGraphiteMergeTree, CnchVersionedCollapsingMergeTree。
- MySQL 兼容性：ByteHouse 开始兼容 MySQL 语法。已经熟悉 MySQL 的用户可以更容易的使用 ByteHouse ，从而更快地过渡到高效使用 ByteHouse。了解详情>>
  - MySQL dialect (DML)
  - MySQL 函数
  - MySQL 协议
- 连接器：开始支持 Power BI/Sugar BI/Quick BI/DolphinScheduler。了解详情>>
可用性
- ELT 支持第一阶段：ByteHouse 已逐步引入对 Extract-Load-Transform (ELT) 的支持。这使得用户可以避免维护多个异构数据系统。
- 定时任务：ByteHouse 用户可以使用定时任务来设置计划，以扩大和缩小计算组(VW) 的大小，以匹配查询流量/工作负载，使得用户节省成本。了解详情>>
性能
- 预加载：将数据从远程加载到本地磁盘缓存以加快即将进行的查询。预加载完成后，查询将从本地磁盘读取数据，而不是远程存储。
- 投影：用户可以使用投影语法对列重新排序，以便使用各种列过滤器进行查询。投影可以预先聚合列，从而减少计算量和 IO。可以在物化后物理上使用，也可以作为视图在逻辑上使用，或者混合使用。

【ByteHouse企业版】

安全管控
- 权限粒度：增加控制面访问的权限管控（火山云 PaaS 支持)。
- 加密：支持 SSL 传输加密和数据库透明加密。
运维管理
- 水平扩容（scale-out）：支持扩容副本数。
- 修改配置：支持高并发模式和大查询模式2个配置模板。
- 资源组管理：支持通过资源组限制用户的 CPU 与内存使用。
引擎
- HaUniqueMergeTree 全面兼容 Alter 语法。

湖仓一体分析服务LAS

【公有云-功能迭代更新】
- 服务区域：华东 Region 正式开服，客户数据可存入华东区域，减少网络时延和提高访问速度。
- 数据管理：新增“文件管理”模块，用户可以通过文件管理实现目录、文件的创建/删除/上传/下载/共享等操作。同时并增加文件路径权限能力，可以管理不同角色的查看、编辑、删除等权限。
- 队列监控：优化队列监控，可以分别监控 Spark、Presto 用量，资源用量更加精细。
- 查询分析：增强 “SQL编辑器” 能力，提供智能补全包含库表联想、关键字填充、子句自动输入、语法自动识别等能力。
- 多品关联：支持 DataWind on LAS Presto，支持 JDBC 获取表类型字段，支持传递多个 JDBC Session 参数等。
【私有化-功能迭代更新】
- 运维管理
  - 主机分组：主机管理形式升级为主机组，元数据 RDS 替换 OceanBase，优化主机-服务部署策略，增加系统推荐配置，整体在大规模集群环境下提升管理便捷性。
  - 多集群：支持多集群管理模式，实现普通集群和联邦集群的对外透出。
  - 集群扩容：集群扩容能力产品化，支持集群扩容、服务扩容。
- 湖仓管理
  - 数据管理：优化数据生命周期管理策略，包括永久、非永久。
  - 数据湖：升级 ByteLake 2.0，提升引擎对湖仓读写能力，支持 MergeInto/Update/Delete 语法。
- 数据安全：支持更细颗粒度权限管控，如行列级别；支持字段级别脱敏功能。

云原生开源大数据平台E-MapReduce

【平台功能更新】
- API能力增强：新建、扩容、缩容、释放现在可以通过API完成操作。
- StarRocks 集群支持 Task 节点：在 StarRocks 集群中，支持将专门用于计算的 CN 节点部署在 Task 节点组上，实现对计算资源的弹性控制。
- 集群状态优化：增加【待支付】状态，去除【异常】状态
- 用户管理优化：进行添加用户操作时，对用户名和用户组名称增加输入限制；进行重置用户密码操作时，需输入原密码进行校验。
- 支持多 Core 节点组：Hadoop 集群支持创建或扩容1个以上 Core 节点组。基于此功能，可以对存算一体架构下的 DataNode 进行滚动替换。
- 新增 ECS 实例：新增 ECS 第三代 AMD 芯片实例 g3a、c3a、r3a。
【 新增软件栈 v3.5.0 】
- 【组件】新增 Proton 组件，针对存算分离场景提供的加速引擎，可极大提升作业的执行效率。
- 【组件】Spark 组件升级至 3.3.3 版本。
- 【组件】Kafka 组件升级至 3.2.4 版本，并提供 Kafka manager 服务。
- 【组件】优化 Hive on Tez 的任务启动流程，加载本地 jar 到 ClassPath，替换从 HDFS 下载。
- 【组件】StarRocks 组件适配火山云对象存储 TOS 服务。
- 【组件】Hue 组件升级至4.11.0版本。
- 【组件】Delta Lake 组件升级至 2.3.0 版本。
【新增软件栈 v2.4.0】
- 【组件】优化 Hive on Tez 的任务启动流程，加载本地 jar 到 ClassPath，替换从 HDFS 下载。
- 【组件】Hive 中新增 JobCommitter 功能，大幅提升存算分离场景下写数据到 TOS 的性能。
- 【组件】Hue 组件升级至 4.11.0 版本。

了解详情>>

重点功能课堂

大数据研发治理套件 DataLeap

【 资产全景 】

DataLeap资产全景提供数据资产、数据开发等全局概览大盘，既可以从整体以及细粒度视角查看当前资产任务等，更清晰的了解当前数据分布，又可从资产任务建设角度提供指引。

picture.image

资产全景优势特性
- 因缺少面向数据资产管理人员的相关统计、分析、洞察、决策功能，需要逐步增强相关能力，便于了解整体情况，增强资产管理的洞察力和异动情况。
- 提供面向数据资产、开发、质量等全局概览大盘，按照不同角色的用户提供不同的资产视图，为资产任务建设提供指引，满足不同角色需求。
资产全景功能解读：
- 全局概览：支持查看数据资产核心指标，了解DataLeap整个概况。
- 数据资产：包括数据地图资产和数据源管理概览。数据资产/数据地图资产按全局/项目等多视角查看数据地图采集管理的资产，了解资产的分布情况和趋势情况
- 数据地图资产：支持按全局/个人/项目等多视角查看数据地图采集管理的资产，了解资产的分布情况和趋势情况。
- 数据源管理：数据资产/数据源注册按全局/项目等多视角查看项目下注册的数据源，了解注册数据源的分布情况和趋势情况。
- 数据生产：数据生产按全局/项目等多视角查看项目下任务情况，从而了解任务趋势和分布。

云原生数据仓库ByteHouse

【 ELT in ByteHouse 】

功能一：长任务管理

通常情况下，我们可以用settings max_execution_time 来控制一个查询的超时时间，ByteHouse提供了事务支持来保障读写操作的原子性。

但是并这不足以覆盖ETL任务的需求。在长时间的任务执行中，更容易遇到系统性故障，如节点OOM等。在这种情况下，由客户端重试并不是个优雅的方案。

在ByteHouse中，一个SQL查询会被转化为一系列的算子。我们希望提升算子的容错能力以更好的应对长时间查询下的系统故障。目前的版本中，ByteHouse已经针对聚合，排序，关联等算子提供了disk spill功能。具体来说，当某个算子无法获得足够的内存时，我们允许这个算子将一部分数据缓存在磁盘上，以此在资源紧张的情况下仍能够完成工作。

例如在排序算子中，我们引入了external merge sort的能力，并通过max_bytes_before_external_sort来控制外部排序能力。上图是未开启spill的排序查询计划，下图是开启spill的计划。

picture.image

可以看到在开启external sort之后，ByteHouse引入了BufferingToFileTransform，MergingSortedTransform两个算子。同样的，ByteHouse里的聚合，关联算子都做了类似的优化例如grace hash join等。

接下来ByteHouse也打算针对exchange操作，进一步提升shuffle操作的容错性。

功能二：异步提交能力

面对大量长耗时的ETL任务时，传统的同步执行的方式需要客户端等待服务端返回。这样很容易出现客户端超时，进而影响后续任务执行的问题。

同时，在这种场景中，用户并不关心单个任务或请求的相应时间，只期望任务能在特定时间内完成，并对可靠性等要求较高。因此ByteHouse提供了异步提交的任务的能力。

ByteHouse用户现在可以通过 setting enable_async_execution 来提交一个异步任务。ByteHouse在收到这类任务之后，会返回一个异步任务ID，例如 ff46fccf-d872-4c68-bdb2-c8c18fc178f5。之后客户端可以选择间歇性轮训来获得任务的最终状态。

ByteHouse 提供了 show async status 'ff46fccf-d872-4c68-bdb2-c8c18fc178f5' 的指令来获得状态。同时ByteHouse也提供了 kill query 'ff46fccf-d872-4c68-bdb2-c8c18fc178f5'的指令来取消某些异步的查询。

功能三：查询队列

离线加工面对大量请求时，当系统超载，需要一定的排队机制使query请求挂起，等待集群释放资源后再进行调度。ByteHouse为此提供了查询队列能力。

ByteHouse可以允许用户从三个维度度来定义一个队列，即: 队列大小，总CPU占用率，和总内存占用率。

在ByteHouse中，Resource Manager 组件可以用来监听各个队列中的查询指标，得到队列的资源使用率。当用户向一个队列提交查询时，如果队列还未达到上限，ByteHouse会将这个查询入队，否则拒绝掉这个查询。

此后，ByteHouse会时刻检查队列的资源利用率，当空闲资源高过某个阀值时，Bytehouse会将等待中的查询出队。当某个处于等待期的查询被取消时，ByteHouse也会将其移出队列。利用查询队列，用户在编排ETL任务时不用担心底层资源过载，因此可以更加自由。

了解详情>>

湖仓一体分析服务 LAS

【 极致性能、高性价比的数据存储方案 】

分层存储，存得更便宜
- 存算分离：存储与计算可独立扩展，提高资源利用率。
- 冷热分层：不同热度数据分层存储分级定价。
- 统一存储：LAS 支持批流一体存储，避免批流各一套存储（典型的开源方案是批存储用HDFS，流存储用 Kafka）。
- 兼容 HDFS 协议，支持高性能元数据操作。
列级 TTL ，存得更少
- 典型场景
- 不同国家/地区/法规对不同字段有不同的生命周期的要求，需要为不同的字段设置不同的TTL。
- 部分低价值字段占存储空间大，但需要保障的生命周期短，通过将该字段设置一个较短的TTL可节省大量存储。
- 解决方案
- LAS 支持为不同字段设置不同的 TTL。
- 高效的数据删除，纯 IO 操作，跳过开销大的 decompress/decode 和 encode/compress。
- 通过字段级血缘和查询热度，智能识别无效或冷字段。
LocalSort，存得更紧凑 核心原理：按指定字段排序，从而有利于压缩，存得更紧凑，查询更快。
- 实际效果：
- 压缩率更高，存储节省 40%+
- 查询性能更好，查询性能提升 60%+
- 一键配置，业务无感使用。

云原生开源大数据平台E-MapReduce

【存算分离场景加速引擎Proton】

Proton 是火山引擎 E-MapReduce（EMR）团队推出的，针对存算分离场景提供的加速引擎，其深度优化的 TOS 访问能力和 JobCommitter 功能，可极大地提升作业的执行效率。

picture.image

Hadoop大数据组件总体上是基于 HDFS 标准 API 访问底层分布式文件系统，自建 HDFS 集群相对于火山引擎对象存储服务（TOS）有以下明显不足之处：
- HDFS 集群对存储资源使用多，对计算资源使用少。在 HDFS 存算一体集群中，用户需为存储资源支付昂贵的计算资源费用。而在存算分离架构下，使用火山引擎 TOS，仅需少量计算资源费用即可。
- 用户需要为 HDFS 集群提前预留空闲存储空间，而火山引擎 TOS 是按需付费，无需为预留存储资源付费。
- 开源版本的 HDFS 冷数据存储能力，使用和维护门槛较高。而火山引擎 TOS 的冷数据存储能力经历公司内外部场景磨炼，相对成熟。
使用火山引擎 TOS，在带来以上诸多便利和成本优化的同时，也会存在一些挑战：
- TOS 对象存储的 Rename (包括目录和文件）比较耗时。
- TOS 对象存储的 List 操作相对 HDFS 比较耗时。
火山引擎 EMR 内置的 Proton 服务比较好地解决了上述问题，使得用户可以很方便地将 Hadoop 大数据生态平滑地从自建 HDFS 集群迁移到云上 TOS 对象存储服务。Proton 的核心功能包括：
- 在火山引擎 EMR 产品上，用户创建集群之后，默认无需配置，即可直接访问火山引擎 TOS 。
- 针对大数据分析场景，深度定制优化 TOS 访问。在离线场景下，采用 Proton 存算分离的读写性能与自建 HDFS 性能基本持平。
- Proton 提供了深度优化的 Job Commiter 功能，使得常见分析引擎导入 TOS 的性能相比开源方案提升1倍。

了解详情>>

活动推荐

【活动】数智化转型背景下的火山引擎大数据技术揭秘

【简介】 9 月 16 日，火山引擎开发者社区 Meetup 第 12 期暨超话数据专场邀请到了火山引擎数据平台的 5 位专家，从加速分析、DataOps、研发提效等角度带来干货分享，全面解读数智化转型背景下的火山引擎数据飞轮模式在数据资产建设上的技术与实践。活动回放>>

案例推荐 & 技术干货

【干货】从数据治理看，如何打赢“双11”的数字化战争

【简介】 本文源自于火山引擎DataLeap数据治理实践，将从电商数据业务面临的挑战、稳定性体系化、成本治理体系化、工具效率体系化、总结与展望几个方面，介绍一站式数据治理思路以及在电商平台中的应用实践。了解详情>>

【干货】DataLeap推出两款大模型应用：对话式检索与开发，打破代码语言屏障

【简介】 2023火山引擎数据驱动科技峰会发布数据产品大语言模型（Large Language Models）应用：DataLeap-找数助手、DataLeap-开发助手和DataWind-分析助手，为企业提供从数据资产的检索、到数据开发，再到数据应用的全链路AI能力。了解详情>>

【干货】字节基于 Hudi 的批流一体存储实践

【简介】 字节跳动通过采用 Hudi 作为底层存储引擎，结合分布式文件系统进行数据存储和管理，实现批流一体业务高效的数据存储和查询。该最佳实践已孵化成商业化产品——火山引擎湖仓一体分析服务 LAS ，对外提供服务，能够解决金融、零售电商和物流运输等多个场景的业务痛点。了解详情>>

【干货】干货｜从电商场景看，字节跳动基于Apache Hudi的落湖实践（领取PPT）

【简介】 本文主要介绍了字节跳动在处理电商流量数据场景时，LAS 对传统数据流架构做出的优化改进。从归档标签和延迟数据处理的角度出发，LAS 提出了一种新的入湖方案，该方案能够有效地降低开发与运维成本，保证数据的时效性和稳定性，最后还会为大家带来 LAS 团队对此方案的未来规划。了解详情>>

产品迭代一览

大数据研发治理套件 DataLeap

云原生数据仓库ByteHouse

湖仓一体分析服务LAS

云原生开源大数据平台E-MapReduce

重点功能课堂

大数据研发治理 套件 DataLeap

云原生数据仓库ByteHouse

湖仓一体分析服务 LAS

云原生开源大数据平台E-MapReduce

活动推荐

【活动】数智化转型背景下的火山引擎大数据技术揭秘

案例推荐 & 技术干货

【干货】从数据治理看，如何打赢“双11”的数字化战争

【干货】DataLeap推出两款大模型应用： 对话式检索与开发，打破代码语言屏障

【干货】字节基于 Hudi 的批流一体存储实践

【干货】干货｜从电商场景看，字节跳动基于Apache Hudi的落湖实践（领取PPT）

大数据研发治理套件 DataLeap

【干货】DataLeap推出两款大模型应用：对话式检索与开发，打破代码语言屏障