「火山引擎」数智平台 VeDI 数据中台产品双月刊 VOL.09 - 文章 - 开发者社区

picture.image

火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品 的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。

双月更新，您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~

接下来让我们来看看 11-12 月数据中台产品有什么大事件吧~

产品一句话介绍

火山引擎 大数据研发治理 套件 DataLeap

一站式数据中台套件，帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设，提升数据研发效率、降低管理成本。搭配 EMR/LAS 大数据存储计算引擎，加速企业数据中台及湖仓一体平台建设，为企业数字化转型提供数据支撑。

火山引擎 云原生 数据仓库ByteHouse

云原生数据仓库，为用户提供极速分析体验，能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力，极致分析性能和丰富的企业级特性，助力客户数字化转型。

火山引擎 湖仓一体分析服务 LAS

面向湖仓一体架构的 Serverless 数据处理分析服务，提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力，兼容 Spark、Presto、Flink 生态，帮助企业轻松构建智能实时湖仓。

火山引擎 云原生 开源 大数据E-MapReduce

云原生开源大数据平台，提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、Doris、StarRocks、Hudi、Iceberg 等大数据生态组件，100%开源兼容，支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构，帮助用户轻松完成企业大数据平台的建设，降低运维门槛，快速形成大数据分析能力。

产品迭代一览

大数据研发治理套件 DataLeap

【 私有化-功能迭代更新 】
- 数据集成： 新增数据源、正则表达式配置，通道数据类型设置及参数说明
  - 新增 Elasticsearch Reader
  - 新增JDBC数据源，String 类型的切分键补充高级参数设置说明
  - Oracle源端数据表支持正则表达式配置
  - Kafka->LAS实时通道，支持OceanBase SharePlex Json 数据类型
【 公有云-功能迭代更新 】
- 控制台： 支持绑定 ByteHouse CE 引擎实例、流式集群管理；流水线支持添加扩展程序；支持EMR多集群绑定、多个Yarn资源队列绑定、 Serverless Flink SQL 集群调试；EMR StarRocks 集群支持安全模式；新增全域集成引擎管理；数据源配置支持开发生产环境隔离；独享计算资源组、独享调度资源组支持扩缩容；
- 数据集成： 实时分库分表、实时整库解决方案中新增 DataSail 内置缓存通道；新增 DataSail 数据源配置；TOS 数据源支持离线写入；新增ClickHouse、Hive、MySQL、Oracle、PostgreSQL、SQLServer、StarRocks、火山引擎HBase、 Doris 、VeDB MySQL、 TLS源端字段支持配置常量、变量、数据库函数等能力；支持已有表字段列匹配规则设置，设置全局高级参数能力；
- 数据开发： 升级IDE3.0编辑器助力研发提效；临时查询支持“通用 -MySQL 数据库”；Serverless Flink SQL 支持快照和重启、Session集群调试能力；Flink SQL支持 Jar 包形式；基于ByteHouse CE 任务及临时查询；
- 数据安全： 支持 EMR StarRocks 库表权限申请、授权管理等操作。
- 数据质量： 支持EMR引擎下双数据源校验支持 Hive类型，验证任意两种数据源类比一致性
- 数据地图 ：支持 EMR Doris 血缘分析、详情页任务信息和预览探查； Elasticsearch元数据采集；EMR StarRocks 安全模式权限管理、表热度预览；
- 指标平台：新增维度管理功能，增加支持Doris数据源类型

云原生数据仓库ByteHouse

【 ByteHouse 云数仓版】

可用性：

ELT增强：支持BSP调度模式，可以更稳定的运行大查询和ELT任务；大福优化了join/agg spill的性能
VW增强：支持Backup Virtual Warehouse，提升了单VW业务的可用性
执行计划：支持简化版执行计划（Explain -Simple SQL），不打印节点信息

性能：

冷读性能提升：引入 ReadBuffer 的 Preload 等优化，S3读性能提升134%，HDFS提升27%；

诊断优化：

可观测性：引入了trace能力，可以全链路追踪问题;
SQL诊断：支持SQL Profiler，快速诊断分析SQL问题；

【 ByteHouse 企业版】

运维管理

查询诊断：支持查询诊断功能，一键诊断慢查询的执行计划、查询配置和执行时负载。

引擎

SQL语法：基本兼容 ClickHouse SQL 23.3 的语法。
数据类型：支持 ClickHouse 原生类型，包含 JSON，Int128，Date64，GIS 相关数据类型（Point）。
二级索引：支持 HNSW 索引（向量查询用）、 R-Tree（地理检索用）。

湖仓一体分析服务 LAS

【 新增功能 】
- 华东 Region 开服： 公有云 LAS 在华东区域全线开服，与原有华北区域、华东区域组成 3 大服务区域，能更好服务更大范围的客户。
- 数据管理： 开放 Managed Hive 文件路径，增加文件路径权限以及对应权限管理。
- 队列管理： 支持 Presto 队列使用加速引擎 Bolt Native Engine（以白名单方式），1TB TPC-DS 性能提升 90%。
【 优化功能 】
- 查询分析： 公有云全链路 overhead 优化，大幅度提升 Presto/Spark STS overhead 性能，在不同场景上，整体 overhead 取得了 4-6 倍的优化效果。
- 数据分层： 对数据冷热分层进一步优化，适配冷热分级定价的计费逻辑，调整默认 Lifecycle 规则。
- 队列管理： 优化队列监控，可以在看板上区分 Spark/Presto 用量。
- 产品联动： 支持 DataWind on LAS Presto，打通了 DataWind 与 LAS，支持 JDBC 获取表类型字段，支持传递多个 JDBC Session 参数等。
- 查询分析： 完善 Spark 任务自诊断，提供实时展开执行 LOG 的能力。增强“SQL编辑器”能力，提供：智能补全包含库表联想、关键字填充、子句自动输入、语法自动识别等能力。

云原生开源大数据平台 E-MapReduce

【平台功能更新】
- 支持创建 StarRocks 存算分离集群，提升集群灵活性、处理性能以及更好的成本效益。
- 补充丰富Doris、StarRocks 服务监控指标。
- 提供 GPU 计算机型，同时支持 Spark Rapids，为 Spark 做算子加速，提升计算性能，并降低使用成本。
【新增软件栈 v3.6.0】
- 【组件】Doris同时提供2.0.2版本号和1.2.5版本号。
- 【组件】StarRocks同时提供3.1.4版本号和2.5.13版本号。3.1.4版本下支持StarRocks的存算分离特性。
- 【组件】StarRocks版本由2.5.8升级到2.5.13。
- 【组件】Trino组件版本由412升级到432。
- 【组件】Pulsar组件版本由2.9.1升级到3.0.1。
- 【组件】丰富Doris、StarRocks、Kyuubi组件的监控指标数据。
- 【组件】Kerby组件修复票据renew等问题。
- 【组件】Ranger组件中支持role和user创建和删除功能。

了解更多>>

重点功能课堂

大数据研发治理套件 DataLeap

【 流水线管理 】

火山引擎DataLeap提供了在数据研发场景下自定义流程编排功能。流水线支持由项目管理员根据项目需求自行配置流程，一条流水线中可以包含多个原子节点，每个节点可对应配置一个扩展程序。流水线基于开放事件触发，触发后根据流水线自身配置，依次触发节点对应的扩展程序执行。

picture.image

流水线优势特性：

通过DataOps流水线标准的触发执行，助力数据研发人员以标准化、规范化、自动化流水线的方式完成代码扫描、人工卡点、数据测试、发布、通知等步骤，实现持续、高效的数据交付。一条流水线中可包含多个节点，每个节点对应配置一个扩展程序。流水线基于触发事件并根据流水线自身配置，依次触发节点对应扩展程序执行。

流水线功能解读：

当前DataLeap智能市场分为官网扩展程序、开发者自研的扩展程序。其中官网扩展插件分别为人工卡点、执行发布、触发调试和选择器。
- 人工卡点：通过节点设置功能阶段的审核，支持设置审核方式和审核人。
- 执行发布：主要应用于发布流水线的场景，基于流水线的编排能力，实现发布前后的处理和规范校验等。
- 触发调试：触发任务调试，成功时返回调试实例。
- 选择器：当满足某个执行条件时会运行对应的分支。

了解更多>>

云原生数据仓库ByteHouse

【 高性能向量检索 】

主要设计思路

在 Query 执行过程中，针对向量检索相关查询，从语法解析到执行算子进行了短路改造，同时，引入特殊的执行算子，减少计算冗余与 IO 开销。
添加了专用的 Vector Index 管理模块，包含向量检索库、向量检索执行器、缓存管理、元数据管理等组件。
存储层添加 Vector Index 相关读写支持，每个 data part 维护一个 Vector Index 持久化文件。

picture.image 性能评测

QPS：即评测在不断扩大并发度的前提下，它的QPS最终能达到多少。在同时用HNSW索引情况下，ByteHouse可以达到甚至超过 Milvus
recall：在精确度同等都是98的recall下，QPS才有意义
Load duration：即评测数据从外部添加到系统的时间，包括数据写入和 vector index built 的时间。整个过程包括数据写入和整体时间 ByteHouse 都比 Milvus 好一些。
Serial Latency P99：串行执行 1万条查询，P99 latency。这个 case 下 ByteHouse 要比 Milvus 性能差一些。主要原因是 ByteHouse IO 和 query 解析上仍有一些额外的开销，有很多需要优化的地方，对于小的查询还没有达到一个比较理想的状态。

了解更多：如何基于ClickHouse玩转向量检索>>

湖仓一体分析服务 LAS

【 内置存储-支持结构化&非结构化数据存储计算 】

结构化存储： 支持 LAS 内部表的存储，为存算分离架构。
非结构化存储： 支持通过 UI & LASFS SDK 进行非结构化数据的上传 / 存储 / 共享。
非结构化计算： 支持通过 LAS Spark/Flink 计算非结构化数据。
内置的权限管理： 文件系统内置子账号级（用户级）数据权限隔离。

picture.image 【外部存储-即刻分析外部数据源，数据零搬迁】

外部存储：LAS 可直接查询存储于 TOS、Kakfa 等外部存储中的数据，无需任何数据搬迁。
统一管理： 外部表的元数据、权限同样可在 LAS 内部管理，用户可在 LAS 内部查看统一的数据视图。
数据转换： 外部表和 LAS 内部表，支持通过 LAS SQL 进行计算转换。
元数据发现： 支持从 TOS 文件自动生成库表结构。

picture.image

云原生开源大数据平台 E-MapReduce

【 StarRocks 存算分离集群 】

StarRocks 是新一代极速全场景 MPP 数据库。StarRocks 的愿景是能够让用户的数据分析变得更加简单和敏捷。用户无需经过复杂的预处理，就可以用 StarRocks 来支持多种数据分析场景的极速分析。

从3.0版本起，StarRocks 正式支持存算分离架构。升级到存算分离架构后，可以通过将数据持久化存储在对象存储等，实现用户的存储成本大幅下降。同时，计算节点则因为无状态，可以通过快速弹性、跨可用区部署等方式来提高计算的可用性，并且计算资源能够进行物理隔离，按需独立弹性伸缩。在3.1版本中，StarRocks 将影响性能表现的技术要素全部从存算一体架构引入到了存算分离架构，并针对云原生环境里的易用性、稳定性进行了一系列的优化。

目前，火山引擎 EMR 已对外提供 StarRocks 3.1.4 版本组件，支持创建存算分离集群，提升集群灵活性、处理性能以及更好的成本效益。用户可以基于以下步骤创建和使用 StarRocks 存算分离集群，推荐创建 StarRocks 集群时不指定AK、SK。

登录 EMR 控制台，进入集群创建流程界面。
在软件配置界面，依次选择交互式查询 > StarRocks > EMR 3.7.0 及以上版本，StarRocks 服务需选择StarRocks 3.1.4 及以上版本服务。

picture.image

在软件配置界面，下方展开高级设置，开启自定义配置，配置相关参数。
进行后续其他集群配置，完成集群创建。
在集群创建后，可登录集群连接 StarRocks 并创建数据库与数据表。

了解更多>>

案例推荐 & 技术干货

【干货】行业热议：数据中台下一步是数据飞轮？

【简介】 为了探寻企业数字化转型的发展趋势，本期 InfoQ 新知实验室栏目由极客邦科技创始人 &CEO 霍太稳作为主持人，邀请到了顺丰集团 CTO& 顺丰科技 CEO 耿艳坤、民生银行 CIO 张斌、汽车之家 CTO 项碧波、彩食鲜 CTO&TGO 鲲鹏会荣誉导师乔新亮一起围绕《数字化转型的全新探索：数据“驱动”与“消费”》话题展开了深入探讨。了解查看完整版>>

【干货】一套方案，让OLAP引擎在广告投放场景更高效

【简介】 由于流量红利逐渐消退，精细化营销逐渐成为新趋势。在数据平台建设中，不少企业开始引入OLAP引擎以实现广告业务的精准投放。本篇聚焦ByteHouse技术和落地经验，以字节跳动内部场景的一套方案，具体拆解OLAP广告业务的实现逻辑和业务效果。了解更多>>

【干货】《字节跳动大数据 SQL 权限精细化管理实践 | CommunityOverCode Asia 2023》

【简介】 文章介绍了字节跳动大数据 SQL 权限精细化管控技术及其在实际业务中的应用，包括 SQL 权限精细化管控技术研发的背景，基于 SQL 血缘进行权限点提取的思路以及具体实践方案，重点从权限管控维度阐述了字节跳动的权限管理服务如何基于精准细粒度的 SQL 权限点信息，完成行列混合的资源粒度权限管控工作。了解更多>>

【干货】《字节跳动基于 Parquet 格式的降本增效实践 | CommunityOverCode Asia 2023》

【简介】 文章介绍了字节跳动基于 Parquet 格式降本增效的技术原理和在具体业务中的实践，首先介绍了 Parquet 格式在字节跳动的应用，然后结合 2 个具体的应用场景：小文件合并和列级 TTL ，从问题产生的背景和解决问题的技术方案出发介绍了我们是如何基于 Parquet 格式实现降本增效的目标。了解更多>>

【干货】OLAP引擎能力进阶：如何实现海量数据导入

【简介】 本篇文章来源于ByteHouse产品专家在火山引擎数智平台（VeDI）主办的“数智化转型背景下的火山引擎大数据技术揭秘”线下Meet up的演讲，将从ByteHouse数据库架构演进、增强HaKafka引擎实现方案、增强Materialzed MySQL实现方案、案例实践和未来展望四个部分展开分享。了解更多>>

【干货】《基于 Apache Calcite 的多引擎指标管理最佳实践｜CommunityOverCode Asia 2023》

【简介】 文章介绍了基于 Apache Calcite 的多引擎指标管理的技术原理与最佳实践，包括指标管理的常见方式、指标管理的最佳实践、指标管理的实现原理以及指标管理在字节跳动未来的一些规划，重点阐述了指标管理在业内常见的解决方案与字节内部使用的一套 SQL 两种语法多引擎指标管理方案的异同；字节内部如何使用一套 SQL 两种语法实现降本增效以及指标管理技术的具体实现方案。了解更多>>