「火山引擎」数智平台VeDI数据中台产品双月刊VOL.02

数据治理

火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「湖仓一体分析服务 LAS」「火山引擎 E-MapReduce」三款数据中台产品的功能迭代、重点功能介绍、产品联动使用案例、平台最新活动等多个有趣、有料的模块内容。

双月更新,您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~

接下来让我们来看看 9-10 月数据中台产品有什么大事件吧~

火山引擎大数据研发治理套件 DataLeap

一站式数据中台套件,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,提升数据研发效率、降低管理成本。搭配EMR/LAS大数据存储计算引擎,加速企业数据中台及湖仓一体平台建设,为企业数字化转型提供数据支撑。

火山引擎 湖仓一体分析服务 LAS

是面向湖仓一体架构的 Serverless 数据处理分析服务,提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto、Flink 生态,帮助企业轻松构建智能实时湖仓。

火山引擎 E-MapReduce

Stateless 云原生开源大数据平台,提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg等大数据生态组件,100%开源兼容,支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构,帮助用户轻松完成企业大数据平台的建设,降低运维门槛,快速形成大数据分析能力。

产品迭代一览

大数据研发治理 套件 DataLeap

  • 增强数据集成能力】数据源支持 Doris、ByteHouse(云数仓版)、BMQ、CloudFS。离线集成通道新增MySQL->Doris、LAS->Doris、LAS->ByteHouse(云数仓版)、MySQL->ByteHouse(云数仓版)。流式集成通道新增BMQ->ES、BMQ->CFS、BMQ->LAS

image.png

  • 扩展元数据管理】新增接入 ByteHouse数据表信息,提供对ByteHouse的元数据管理能力。可创建并管理业务术语并关联到数据表。帮助各级数据方检索、定义、方便理解数据,强化企业数据资产体系建设。

image.png

湖仓一体分析服务 LAS (私有化 v1.1)

  • 强化湖仓一体能力】支持非结构化数据存储及计算,包含非结构化文件的上传 / 存储 / 共享 / 处理 / HDFS 语义支持。

image.png

  • 提升运维管理能力】支持服务日志查询和下载,支持集群组件参数配置,方便运维人员排查问题,同时丰富了队列运行相关的监控指标。

image.png

  • 新增数据源能力】支持oracle jdbc sink,Kafka 数据源(自建 Kafka Connector)。

云原生 开源 大数据 平台 E-MapReduce

  • 【新增软件栈版本EMRv3.0.0】 采用Hadoop3.x版本序列,主要组件包括:Hadoop 3.3.1、Spark 3.2.1、Hive3.1.3,具体组件更新升级如下:

    • Flink版本升级到1.15.1;Iceberg升级到0.14.0;Hudi版本升级到0.11.1;Doris版本升级到1.1.1
    • 新增数据格式Delta Lake 2.0
  • 【新增软件栈版本EMRv2.0.0】 采用Hadoop2.x版本序列,降低使用Hadoop 2.x迁移到火山引擎的成本,主要组件包括:Hadoop 2.10.2、Hive 2.3.9、Spark 2.4.8
  • 弹性伸缩 Hadoop集群支持按时间弹性伸缩(生产可用)
  • 【存算分离】 支持计算存储分离架构(生产可用)
  • 【计费方式】 支持包年包月购买方式:创建集群支持包年包月的售卖方式;支持对包年包月集群退订;支持按量付费转包年包月


重点功能课堂

大数据研发治理 套件 DataLeap

  • 指标平台公测,帮助业务从源头规范化数据建设,达到指标“统一口径、高质量、无重复”的目标。在统一数据标准同时,以维度建模为理论基础,定义业务线、指标、数据模型, 支持多种数据源快速构建模型,提供多样指标构建方式,消除指标二义性,以服务化形式提供数据共享。

    • 规范定义】: 统一指标命名及口径管理,构建逻辑追溯指标血缘和影响范围
    • 建模研发】: 快速构建指标,基于规范定义在源模型构建计算逻辑关联指标
    • 管理中心】: 用于管理业务线、指标分类、扩展属性配置、指标服务授权等信息

image.png

湖仓一体分析服务 LAS

【Serverless:开箱即用,简化大数据分析链路】

【业务痛点】传统 Hadoop 架构开发建设门槛高,数据建设链路繁杂冗长,对开发人员的技术要求较高,人力需求较多,往往导致数据更新迭代、响应较慢,无法真正驱动业务快速增长。

【技术方案】LAS 通过提供 Serverless 全托管服务能力,能够有效简化大数据的加工分析的整体链路,用户无需关注任何运维管理工作,助力数据团队专注数据开发,借助系统提供的自优化、自调整能力,解决调优需求,显著降低应用门槛。

image.png

云原生开源大数据平台E-MapReduce

【全方位的企业级安全体系】

【简介】火山引擎E-MapReduce产品支持Kerberos和lAM两种强认证模式、RBAC模式、审计日志与访问审计等,安全管控服务支持高可用,协同火山引擎安全体系,实现全方位安全管控。

image.png


活动推荐

【活动】火山引擎 • 云上增长季

image.png

【简介】火山引擎云上增长季活动火热进行中,数据中台全线产品超低折扣,欢迎购买。

  • 大数据研发治理套件 DataLeap:数据开发特惠版首月1元;独享集成/计算资源组7折;
  • 湖仓一体分析服务 LAS:包年包月8折;按量计费6折;
  • 云原生开源大数据平台 E-MapReduce:EMR服务费用4折;

【链接】https://www.volcengine.com/activity/20221111

【活动】「DataFun数据治理系列」字节跳动数据血缘篇

image.png

【简介】10月31日,通过DataFun数据治理系列分享了字节跳动血缘架构演进之路、以及血缘技术实现及具体示例介绍。本主题重点阐述了字节跳动血缘系统架构设计与背景理念与演进实践。并通过血缘模型的的基础设计和优化,分享字节内部的数据血缘的使用经验。

  • 议题一:字节跳动 数据血缘 架构演进之路(上篇)
  • 议题二:字节跳动 数据血缘 技术实现与具体用例(下篇)

【活动回放】【活动回放】请打开👇🏻链接直接收看录播,更多精彩内容,请关注字节跳动数据平台公众号、视频号

【活动】Apache Hudi 中文社区10月交流会议

image.png

【简介】 Apache Hudi 是新一代流式数据湖平台,支持插入、更新、删除以及增量数据处理;可助力构建高效的企业级数据湖,目前已经在国内外多个大型公司生产落地。Apache Hudi 中文社区技术交流会固定于每月最后一个周四晚上19:30 到 20:30开播,会议由火山引擎湖仓一体分析服务 LAS 团队主办,围绕 Apache Hudi 沟通社区进展、互换想法。其中第五期于2022年10月27日分享的主题有 RocketMQ 数据入湖》 Presto on Hudi 查询优化》

【活动回放】 关注字节跳动数据平台视频号,点击「直播回放」搜索后观看。

案例推荐&技术干货

【文章】Spark AQE SkewedJoin 在字节跳动的实践和优化

image.png

【简介】本文将首先介绍 Spark AQE SkewedJoin 的基本原理以及字节跳动在使用 AQE SkewedJoin 的实践中遇到的一些问题;其次介绍针对遇到的问题所做的相关优化和功能增强,以及相关优化在字节跳动的收益;此外,我们还将分享 SkewedJoin 的使用经验。

【文章链接】https://mp.weixin.qq.com/s/qgxnBU7xjdkZRXGS9a7Wzw

【文章】字节跳动基于数据湖技术的近实时场景实践

image.png

【简介】我们采取的策略是设计一种近实时的计算架构,在保留离线计算数据的丰富度和复杂度的同时,又兼顾实时计算的时效性高的特点,将两者进行优势互补。这种近实时的方案,能满足刚才提到的分析型、运维型的业务需求。

【文章链接】https://mp.weixin.qq.com/s/RJMkrpONBWnUOG7YhGZ3WQ

【文章】字节跳动基于Apache Atlas的近实时消息同步能力优化

image.png

【简介】字节数据中台DataLeap的Data Catalog系统通过接收MQ中的近实时消息来同步部分元数据。Apache Atlas对于实时消息的消费处理不满足性能要求,内部使用Flink任务的处理方案在ToB场景中也存在诸多限制,所以团队自研了轻量级异步消息处理框架,支持了字节内部和火山引擎上同步元数据的诉求。本文定义了需求场景,并详细介绍框架的设计与实现。

【文章链接】https://mp.weixin.qq.com/s/5ws6uVva7NY8gpfWraHfhQ

【文章】字节跳动数据血缘图谱升级方案设计与实现

【简介】数据地图平台是字节跳动内部的大数据检索平台,每天近万的字节员工在此查找所需数据。数据地图通过提供便捷的找数,理解数据服务,大大节省了内部数据的沟通和建设成本。帮助用户快速定义、构建,理解,检索数据。

image.png

【文章链接】https://mp.weixin.qq.com/s/zisz08iuaxAkYpBAI-Jqpw

【文章】十分钟读懂字节跳动的Doris湖仓分析实践

【简介】Doris是一种MPP架构的分析型数据库,主要面向多维分析,数据报表,用户画像分析等场景。自带分析引擎和存储引擎,支持向量化执行引擎,不依赖其他组件,兼容MySQL协议。本文介绍了字节跳动基于Doris查询数据湖格式Hudi数据的设计思路、技术原理和后续规划。

image.png

【文章链接】https://mp.weixin.qq.com/s/qpsBl7bvxPyHGiG30sdQHQ

点击跳转 了解火山引擎数智平台VeDI全部产品

151
0
0
0
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论