「火山引擎」数智平台VeDI数据中台产品季刊 VOL.11 - 文章 - 开发者社区

picture.image 火山引擎数据中台产品双月刊涵盖 「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」 四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。

季度更新，您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~ 接下来让我们来看看 Q2 季度数据中台产品有什么大事件吧~

产品一句话介绍

火山引擎大数据研发治理套件DataLeap

一站式数据中台套件，帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设，提升数据研发效率、降低管理成本。搭配 EMR/LAS 大数据存储计算引擎，加速企业数据中台及湖仓一体平台建设，为企业数字化转型提供数据支撑。（公众号后台回复数字“2”了解更多产品信息。 ）

火山引擎云原生数据仓库ByteHouse

云原生数据仓库，为用户提供极速分析体验，能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力，极致分析性能和丰富的企业级特性，助力客户数字化转型。（公众号后台回复数字“6”了解更多产品信息。 ）

火山引擎湖仓一体分析服务LAS

面向湖仓一体架构的 Serverless 数据处理分析服务，提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力，兼容 Spark、Presto、Flink 生态，帮助企业轻松构建智能实时湖仓。（公众号后台回复数字“4”了解更多产品信息。 ）

火山引擎云原生源大数据E-MapReduce

云原生开源大数据平台，提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、Doris、StarRocks、Hudi、Iceberg 等大数据生态组件，100%开源兼容，支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构，帮助用户轻松完成企业大数据平台的建设，降低运维门槛，快速形成大数据分析能力。（公众号后台回复数字“3”了解更多产品信息。 ）

产品迭代一览

大数据研发治理套件 DataLeap

【私有化-功能迭代更新 】

【质量大盘】

功能简介

质量大盘是通过质量规则六要素加权得出质量健康分，以及呈现对健康分影响的评估指标、包含直观呈现质量失分及报警统计情况。

应用场景

质量健康分管理：数据治理负责人需要根据各业务线的特点，制定相应的质量规则评判标准，并根据不同的规则定义配置相应的权重，以便掌握该业务线质量健康分在统计时间范围内的变化趋势。
质量规则报告：业务人员通过分析该部门数据质量的失分情况和质量规则触发的预警统计，找出数据质量改善的切入点，并在数据源头、表级别和场景级别制定更详细的管控措施，以提高资产数据的质量水平。
【公有云-功能迭代更新】

【Serverless Spark 引擎适配】

功能简介

DataLeap适配全托管EMR Serverless Spark引擎能力，支持Saprk SQL和Saprk Jar等开发模式，满足中小规模客户从零构建数仓需求，实现从数据采集、研发运维，到资产体系构建端到端建设。

应用场景

湖仓平台建设：基于 Serverless 和存算分离的架构，可以满足例如游戏行业客户快速构建湖仓分析平台的需求。因用户对开源 Spark SQL 非常熟悉，并且热衷于 Spark 的高版本特性功能。DataLeap 现在已经全面支持 EMR Serverless Spark，为用户提供一站式的数据（离线+流式）采集、数据加工查询、权限安全管控，以及基于 LASFormation 的统一元数据资产查询。这将更有助于用户快速构建湖仓一体化管理方案。
搬站迁移建设：基于 DataLeap 构建数据从离线到查询分析的场景链路。借助成熟的搬站迁移工具，快速将IDC及其他云平台上的 Spark 任务迁移至 DataLeap。除了为客户提供低成本高性能的资源方案，还借助云上 Serverless 服务满足更多敏捷化数据分析需求。

了解更多>>

应用场景

将代码规范贯穿到整个数据研发链路执行，规避代码规范不统一，策略不执行，问题发现不及时等常见问题。

提升质量，降低事故：研发负责人期望只有完全合规的代码才允许上线到生产环境，避免违规参数、代码违规等带来线上事故。CodeCT的线上自动化 review 机制可及时发现校准风险漏洞，并将不合格信息立即通知相关责任人，提醒责任人及时整改。
规范落地，辅助治理：数据治理团队希望实施任务治理的强管控措施，以辅助数据治理工作开展，实现发布前后的处理和规范校验。该团队通过审查机制、审批通知、自定义人工审批插入环节等方式，确保研发任务得到有效治理。

了解更多>>

【ByteHouse CDW引擎绑定】

DataLeap 数据开发接入 ByteHouse CDW （云数仓版）引擎能力，用户可以快速进行数据集成、SQL 开发分析、运维和调度，同时构建企业级数据资产体系。

应用场景

实时数仓建设：在广告投放、物联网时序、实时运营等业务场景的需求上，基于 DataLeap 在 ByteHouse CDW 引擎上构建海量数据查询、加工、实时分析能力，支持基于宽表、多表、或预加工等不同分析模式。
增长多维分析：基于 DataLeap 在 ByteHouse 引擎上构建一个支持实时分析和离线跑批处理的自助数据分析平台，该平台可以根据用户数量多、习惯不同、行为数据变更频繁等特点，对海量数据进行高效多维分析。

了解更多>>

【实时采集方案升级】

功能简介

DataSail 的实时采集功能增强了基础配置能力，支持数据的全增量一体化同步。用户只需要通过简单正则匹配，自动化分表合并，自动实现目标表创建，即可轻松地完成数据同步迁移和增量同步任务，且能够将数据以更快、更高效的方式一键同步到目标端中。

应用场景

实时客户分析及精准推荐： 通过DataSail+DataLeap+EMR StarRocks上下游的深度集成，实时感知交易、运营、用户等数据的变化，推动业务实时反应、快速决策、及时调整，促进业务增长。
实时离线一体化数据仓库构建： 通过一站式实时数据同步，实现自动同步和合并分表，无需手动维护和配置多链路数据同步工作；结合离线整库迁移方案，具备搭建全链路的数仓/数湖建设能力。

了解更多>>

云原生数据仓库ByteHouse

【 ByteHouse 云数仓版】

【MySQL兼容性适配度增强】

功能简介

ByteHouse 云数仓版在 2.0 版本开始，增加了对 MySQL 5.7 和 MySQL 8.0 常用功能及语法的兼容，可以实现与 MySQL 客户端应用程序和工具的无缝集成。这将使用户能够使用熟悉的 MySQL 协议与 ByteHouse 进行交互，并利用 MySQL 生态系统的功能。

了解更多>>

【权限管理能力增强】

功能简介

权限管理主要是让客户能通过管理用户、资源设置，以完成新建用户、设置用户权限、新建数据库、数据加载等需求，更好的维护企业数据安全。
本次重点更新内容如下：

支持用户级别权限管理，支持对用户直接授予权限（资源权限、数据权限）或授予角色；

支持资源权限管理，将资源权限授予用户或角色

支持数据权限管理，将数据权限授予用户或角色

云原生开源大数据平台 E-MapReduce

【Spark Native Engine 】

功能介绍

针对 Spark 新增高性能的 Native 引擎，在新建集群时/在运行中的集群，可通过 EMR 控制台的交互式开关，自由切换是否执行 Spark Native 引擎。
作为火山引擎的内场演进成果，Spark Native 引擎采用 C++ 向量化加速库，对 Spark 物理计划进行转换和计算，以列式存储来优化内存和带宽，有效突破性能瓶颈，显著提升 Spark 作业效率。

应用场景

在交互分析场景下，EMR Spark Native Engine 可以在资源不变的情况下，分析耗时减半，显著提升交互分析体验，分析师能够更快速、更流畅地与数据进行交互，无论是探索性数据分析还是实时决策，都能够获得准确而及时的洞察力。
在 ETL 分析场景下，EMR Spark Native Engine 可以在分析耗时不变的情况下，资源减半，可大幅降低企业的集群规模和分析成本。

【更灵活的扩容能力】

在 Yarn 体系下可以更灵活地调整自定义的 NodeLabel 以及 Queue，在使用存算分离架构的数据湖集群时，对Core节点组扩容将无需额外配置。
对 Master 节点组扩容时，可以指定组件同步拓展部署到新节点上，避免其他非指定的组件被一同拓展。

【更强大的 OLAP 能力】

FE 部署数量上限从 3 个提升至 5个，理论上可实现 5 * 1024 最大并发量，以应对更高 QPS 的 OLAP 场景。
BE 默认节点数从 3 个提升至 4 个，当任一 BE 故障时，仍然能保持 3 个 BE 正常运行，确保高可用和可靠性。

【灵活的部署拓扑】

支持 DophinScheduler 自定义拓扑，即部署到任意的 Core、Task 节点组上，实现混合部署。

重点功能课堂

大数据研发治理套件 DataLeap

「数据质量大盘」

火山引擎 DataLeap 数据质量大盘通过质量规则六要素加权得出质量健康分，并呈现影响健康分的评估指标。该平台提供数据质量分析功能，可从业务分层和技术分层的角度统计不同分层的数据质量运行结果，并根据汇总数据结果对不同业务分层和数据分层进行质量打分。可以按天查看质量评分，并逐层下钻查看评分来源及关联的数据质量规则。

picture.image

质量大盘功能解读：

质量健康分：从质量健康分、质量健康分详情卡片、质量健康分历史趋势几个方面展示质量健康分数据。
评估指标：从规则总数、线上调度规则数、异常规则数、表规则覆盖数、表规则覆盖率五个指标进行评估。
失分详情：按质量维度、具体扣分指标筛选展示详情。

数据质量大盘特性说明：

灵活的链路优化：不仅可基于单表直接配置权重和规则，还可以将批量规模模块重复应用于多个库表。
自定义配置权重：质量规则支持权重配置，即在规则生成过程中同步增加权重设置，最终在质量大盘中质量分计算逻辑引入该权重，得出质量健康分情况。

云原生数据仓库ByteHouse

「全文检索」功能正式上线

功能简介

全文检索（或仅文本搜索）提供了识别满足查询的自然语言文档的功能。
最常见的搜索类型是查找包含给定查询词的所有文档。全文索引允许对文档进行预处理并保存索引以供以后快速搜索。我们通过增加文本倒排索引的能力，来支持更快速的文本检索和过滤的方式。

目前全文检索支持根据三种文本分词索引方式：

语言Token分词：Token分词以空格和标点符号进行分词处理，通常适用于英语等有明显的以空格标点分词的语言种类。
Ngram分词：Ngram分词遇到指定的字符（如 : 空白、标点）时分割文本，然后返回指定长度的每个单词的 N-grams。通常用于查询不使用空格或具有较长复合词的语言。
中文分词：中文分词利用统计模型隐式马尔科夫模型来对中文进行分词。用户可以灵活配置模型和分词词典。

了解更多>>

云原生开源大数据平台 E-MapReduce

功能介绍

产品定位

火山引擎 EMR 作为开源大数据平台，旨在让客户能够轻松完成大数据平台的构建和运维，快速形成大数据分析能力。火山引擎 EMR 有 3 种产品形态：全托管、半托管、容器化，其中 EMR Serverless Spark 是全托管产品矩阵中最为重要的批处理引擎之一。

能力概述

火山引擎 EMR Serverless Spark 提供开箱即用的 Spark 引擎服务，完全兼容开源语法，满足大规模离线/准实时数仓（湖）建设，支撑百亿级别数据计算场景，兼容开源，性能较社区有 2 倍+ 提升。

应用场景

快速构建数据湖仓场景

传统的数据平台建设效率无法满足业务快速发展的需要，前期资源规划刻板，架构选型复杂，过渡投入都可能导致项目建设走向不可控的局面。使用 Serverless + 存算分离的架构能够满足数据存储，计算分析随时交付的敏捷场景。由于数据、元数据、计算引擎使用的服务都是 Serverless 化的，因此架构极易伸缩变化，客户不需要担忧IT成本的负担，只需要按需付费，规模随业务灵活扩展。探索性失败的业务造成的IT资源可以高效回收，整体来看是最具经济效益比的湖仓构建方案。

混合云组合场景

对于在 IDC 自建数据平台，使用开源技术栈自主开发运维的客户来说，短期内不具备上云或迁移的诉求，但IDC的算力规模迟早会成为或已经成为瓶颈，业务的潮汐波动会造成资源需求的频繁变化，如何保障数据分析需求的按时交付，成为摆在很多客户面前长期的问题。通过支持自定义镜像，用户可以在 EMR Serverless Spark 控制台根据 IDC 集群的版本和配置生成连接信息。当 IDC 内集群的资源达到饱和，无法承载分析需求时，IDC 可以将作业提交至云上的 Serverless 服务，待云上之行完成后将结果返回给 IDC，灵活的实现资源的弹性扩展和集群规模动态调整。由于兼容主流的大数据组件版本，业务客户对作业在哪里运行完全无感，保持和自建平台相同的体验。

案例推荐 & 技术干货

【干货】新一代云数仓必不可少的五大核心能力

【简介】 从数据库领域的发展历程来看，分析型数据库已有40多年的发展历史，与数据库基本同时代。从OLTP和OLAP的分支来看，分析型数据库支持了海量数据规模下的聚合性分析。随着移动互联网甚至AI等领域的发展，用户画像行为分析的重要性日益凸显，而这些都离不开分析型数据库的支撑。查看全文>>

【干货】在电商场景中，如何建设全链路数据血缘？

【简介】 本文将分享在电商场景中如何建设数据血缘，包括数据全链路血缘介绍、如何建设血缘底座、电商场景的血缘应用实践以及总结与展望四个部分。查看全文>>

【干货】AIGC如何在大数据研发治理领域落地？

【简介】 ChatGPT 掀起了大语言模型的热潮，AIGC与大数据研发治理能碰撞出什么火花？本文来源于大数据研发治理DataLeap基于AIGC的应用实践，将从数据研发和资产的角度介绍，如何运用AIGC能力提升效率，降低使用门槛。查看全文>>

【干货】从电商场景，看抖音集团数据治理实践

【简介】 随着电商业务不断发展和成熟，对数据稳定性、数据质量、数据成本的要求越来越高。为了能可持续地提供质量更高、产出更快、表现力更强的数据资产，数据治理成为数仓日常工作的重要一环。本文将从现状解读、发展阶段、解决方案以及思考与展望四大部分，分享电商数仓治理的发展历程和实践总结！查看全文>>

【干货】在抖音集团，存储实时数仓这样建

【简介】 在直播、电商等业务场景中存在着大量实时数据，这些数据对业务发展至关重要。而在处理实时数据时，我们也遇到了诸多挑战，比如实时数据开发门槛高、运维成本高以及资源浪费等。此外，实时数据处理比离线数据更复杂，需要应对多流JOIN、维度表变化等技术难题，并确保系统的稳定性和数据的准确性。本文将分享基于存储的实时数仓架构在不同业务场景的实践经验，以及该架构带来的收益。查看全文>>