「火山引擎数据中台产品双月刊」 VOL.07

数据中台大数据数据湖仓

火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。

产品迭代一览

大数据研发治理 套件 DataLeap

  •  公有云 -华南区服务部署】

    • 基于 EMR、流式计算 Flink 引擎下的数据集成、数据研发、数据安全、数据质量、数据地图、数据服务模块
    • 数据开发支持 EMR 引擎任务类型、通用任务、流式计算 Flink 版任务类型
    • 数据集成新增支持离线集成、流式集成任务
    • 数据安全支持权限管理、风险审计、审批中心
    • 数据质量支持 EMR 引擎的数据监控、数据探查、数据对比等能力
    • 数据地图支持数据检索、专题、血缘、元数据采集支持 EMR Hive/Doris/StarRocks
    • 数据服务支持创建数据集、QUERY,并支持 API 监控运维、应用管理、系统管理等全量功能
  •  公有云 -华东区服务部署】

    • 支持 LAS、流式计算 Flink 引擎下的离线流式任务
    • 数据地图、数据质量、数据安全支持 LAS 服务能力
  • 【私有化-功能迭代更新】

    • 离线数据集成支持 Gbase8S2LAS、OceanBase2LAS、实时集成 Kafka2LAS
    • 数据开发支持 LAS Flink 任务类型
    • 指标平台支持 HBase 数据源创建模型绑定
    • 数据地图支持 GaussDB 元数据采集
    • 数据安全新增审计日志功能
  •  公有云 -功能迭代更新】

    • 数据开发:新增 EMR Doris、EMR StarRocks 任务类型、Shell\Python\Notebook 任务支持 0.25CU/0.5CU 资源规格配置、临时查询支持交互式分析 Notebook 查询类型、LAS SQL 依赖推荐功能支持引导创建 Sensor 任务、Serverless Flink SQL 新增数据源登记支持自动解析、DAG 任务血缘查看、LAS、EMR 流式任务新增数据源登记类型、支持 EMR Doris、EMR StarRocks 元数据表查看及智能联想等
    • 数据集成:整库离线同步:MySQL、PostgreSQL、SQLServer、Oracle 同步至 LAS、实时整库同步:MySQL、PostgreSQL、SQLServer 同步至 LAS、Doris 、 StarRocks
    • 数据地图:EMR Hive、LAS 元数据支持以单库表形式进行采集、LAS/LAS Hive 支持 TTL 、支持 EMR Doris 库表管理
    • 数据质量:新增支持质量订阅功能
    • 数据安全:库表资源的历史权限查看、权限设置查看历史操作、按资源自动审批、审批流支持触发节点、支持批量上下载行枚举值、支持自定义问答&申请审批问答&批量设置问题、审批工单支持重新申请、新增资源包、自定义角色组,并支持应用在权限负责人、按角色代办等功能

云原生 数据仓库 ByteHouse

  •  ByteHouse 云数仓版 新增功能 

    • [云数仓版 SaaS] 上线火山引擎华东地域,支持多地域下单购买(正式发布)
    • [云数仓版 SaaS] 支持数据导入任务相关的监控和告警(正式发布)
    • [云数仓版 SaaS] 新增定时任务功能,支持对计算资源定时弹性伸缩(灰度发布)
    • [云数仓版 SaaS] 支持 SQL Editor,提供更完整的语义高亮支持,优化用户体验(灰度发布)
    • [云数仓版 SaaS] 支持 AWS Glue (ETL),支持导出到 AWS S3
    • [云数仓版 SaaS] 完成与 ClickHouse PHP driver 兼容
  •  ByteHouse 企业版 新增功能 

    • [企业版 PaaS] 开放 MySQL 端口,支持兼容 MySQL 协议、语法、函数
    • [企业版 PaaS] 支持创建时选择 3 副本及以上副本数

湖仓一体分析服务 LAS

  •  公共云-功能迭代更新 

    • 服务区域:在华东区域全线开服,与原有华北区域组成 2 大服务区域,能更好服务更大范围的客户。
    • 数据管理:新增 Table 类型,支持 Hive 内部表类型,开放 WareHouse 文件目录,快速帮助 Hadoop 用户无缝迁移至 LAS。
    • 迁移工具:提供 Hadoop HDFS / Hive 迁移工具,加速 Hadoop 平滑迁移,保质保量。
    • 查询分析:增强“SQL 编辑器”能力,智能补全包含库表联想、关键字填充、子句自动输入、语法自动识别等能力。
  •  私有化 2.0 上线 

    • 更加面向 Hadoop 开源生态

      • 本次迭代统一管控了 Hadoop、HBase、Kafka、Hive、OpenSearch、Tez、Kerberos、ZooKeeper,元数据配置上新增了 Hive Meta 支持集群内置 MySQL、独立 RDS。
      • 面向生态提供开源组件的技术能力。
      • Hadoop 生态、CDH 体系向 LAS 2.0 的迁移更容易对标、集成更容易实现。
    • LAS 湖仓能力、引擎增强

      • 存储引擎:新增非结构化文件的上传 / 存储 / 共享 / 处理 / HDFS 语义支持。
      • 资源调度:新增 YARN 资源管理编排能力。
      • 队列管理:支持创建及修改队列:配置队列 min、max 资源 quota、设置并发度、设置队列权重。
    • 运维管控能力大幅提升

      • 底层平台:支持运行在基于国产芯片架构的服务器上,包括国产 ARM 架构-鲲鹏,以及其他架构(至少支持 Intel X86 架构)的服务器上。兼容主流的 Linux 操作系统,支持国产操作系统,例如麒麟。
      • 集群管理:提供图形化的集群部署能力;创建支持预置自定义参数。支持集群重启;查看重启日志:查看服务重启的进度、当前环节状态、日志信息重启下线。对集群软件资源进行监控,保证平台运行效率软硬件资源日志和报错信息等。
      • 搭建并不断完善的一条面向集群、主机、服务、组件、参数粒度的全生命周期管控能力。
      • 重构了开箱即用的集群部署能力,全白屏化的一体化能力,界面操作实现全部组件的部署,包括 HA、安全等能力。

云原生 开源 大数据 平台 E-MapReduce

  •  平台功能更新 

    • 亚太东南(柔佛)Region 发布,欢迎体验!
    • 节点组支持垂直变配,支持升级节点配置规格
    • Presto、Trino 独立集群集成 Iceberg connector、Hudi connector
    • 节点监控指标丰富,包括 HDFS、Yarn、Zookeeper 等服务监控指标
    • Kafka、Pulsar、Clickhouse、Doris、Starrocks 独立集群下线 PL0 云盘,存量集群不受影响
  •  新增软件  3.4.4 

    • StarRocks 组件默认将 QueryProfile 功能关闭
    • StarRocks 组件中添加元数据管理功能,适配火山云服务大数据研发治理套件 DataLeap
  • 【新增软件  2.3.2】

    • 修复 Spark 运行日志存放路径
    • Ranger 中为 Spark 用户赋予库表的操作权限,解决 Spark ThriftServer 告警问题

点击查看更多介绍:https://www.volcengine.com/docs/6491/72143

重点功能课堂

大数据研发治理 套件 DataLeap

 火山引擎DataLeap  :整库搬迁解决方案上线,节省数据迁移成本】

火山引擎大数据研发治理套件 DataLeap 上线整库搬迁解决方案   包括整库离线同步、整库实时同步两大能力,大大提升数据上云便捷性,降低数据迁移成本,使用户易上手,低运维。整库迁移支持通过批量创建同步任务,如把一个Mysql DB 库内所有表一并上传到 LAS 中;整库 CDC 支持一键同步一个库内的多张表,先进行全量同步,后进行 CDC 实时同步。

  • 整库离线同步:  用户可通过火山引擎 DataLeap 周期性或一次性将整库表数据同步到目标端,方案包括“一次性全量、周期性全量、一次性增量、周期性增量、一次性全量周期性增量”五种类型,支持 MySQL、PostgreSQL、SQLServer、Oracle 等数据源;
  • 整库实时同步:  通过火山引擎 DataLeap 一键进行数据的全、增量一体化实时同步。整库实时同步解决方案支持“使用缓存”、“无需缓存,直接同步”两种缓存配置方式。一键实时整库同步解决方案支持多种数据源之间全增量一体化同步,之后再通过实时同步增量任务,依照选择配置单独选择进行实时增量数据同步,助力您将业务数据更高效、更便捷的同步至目标数据库中。

picture.image

云原生 数据仓库 ByteHouse

 克服 ClickHouse 运维难题:  ByteHouse 水平扩容功能 

在字节跳动内部,由于业务的快速增长,经常遇到集群规划性能不足,需要扩容的问题。字节内部,ByteHouse 支撑了内部数据看板,用户行为分析性等多个业务,服务的持续在线、性能的迅速提升非常重要,且用户表的表结构也非常多样。

基于内部需求,ByteHouse 自研了集群扩容能力,解决了自动化流程的问题,也提供了性能开销更低的扩容方式。

  • 数据库引擎优化

    •   ByteHouse 的数据库引擎自研了 Alter Table...Resharding命令,将一张表以分区的粒度进行重分布到另一张表。该命令支持两种方式:
    • 重分布到其他集群的另一张表。
    • 重分布到本集群的另一张表。

picture.image

  • 操作界面优化

    •   ByteHouse 数据库实现了 SQL 的底层能力进行数据重分布,实现了开销更低、适应性更强的重分布能力,但对于普通用户而言仍有使用门槛。因此 ByteHouse 在控制台也支持了水平扩容功能,组装了底层能力,实现产品化。
    •   通过界面化操作,ByteHouse 给用户的扩容流程带来了全新的便利:
    • 全流程自动化,不再需要自行编写脚本。
    • 开放一小部分手动空间。例如,在扩容前可选立即重分布的表,对于剩余的表,可在扩容后再选择时间重分布任务,适应一些希望在业务低峰时扩容大表,进一步降低大表只读带来的影响。
    • 包含容错处理,自动校验数据,流程便利可靠。

picture.image

说明文档链接:https://developer.volcengine.com/articles/7254818612518027325

湖仓一体分析服务 LAS

 LAS 助力搭建 大数据  +AI 湖仓 平台(  GPU   

  • 丰富的数据处理

    • 完善 Python 生态:LAS PySpark + DataLeap Notebook
    • GPU 加速:LAS Spark & Rapids
    • 降低数据处理门槛:LAS Spark English SDK
  • 深度学习LASML Runtime

    • Pandas on PySpark
    • Imported Model Support
    • PyTorch/TensorFlow on PySpark
  • 弹性 GPU 资源

    • 基于 Volcano Scheduler 深度优化,支持 GPU 资源调度和按量付费能力
    • 具备混合 Quota 能力,队列一体化(分析/加工/训练/推理)
  • 极致特征存储

    • 字节内部基于 ByteLake 构建离线特征存储

picture.image

云原生 开源 大数据 平台 E-MapReduce

 EMRStarRocks】

picture.image

  • 目前,火山引擎 EMR 已正式上线 StarRocks 集群。除 100% 开源兼容,完整提供 StarRocks 原生能力外,火山引擎 EMR 团队还进行了多方面的能力增强,为企业客户带来业界领先的引擎性能和产品使用体验。

  • StarRocks 引擎自身的产品特性:

    • MPP 分布式执行框架,单查询性能随集群水平扩展而不断提升。
    • 全面向量化执行引擎,充分发挥 CPU 处理能力。
    • 全新设计并深度定制的 CBO 优化器,包含多项优化和创新。
    • 可实时更新的列式存储引擎,降低存储成本,提升查询性能。
    • 支持智能物化视图,加速用户的查询请求。
    • 可作为计算引擎直接分析数据湖中的数据。
  • EMR StarRocks 增强特性

    • 与火山引擎大数据开发套件 DataLeap、全域数据集成 DataSail 等云上生态产品无缝对接,满足用户一站式的数据开发和集成需求。
    • 引擎增强,同时支持 Serving 和分析场景
    • 提供企业级诊断分析能力
    • 提供丰富的监控告警、扩容、参数和日志管理等功能

说明文档链接:https://www.volcengine.com/docs/6491/165967

活动推荐

【活动】DTCC2023 第 14 届中国数据库技术大会 - 《字节跳动基于开源 OLAP 引擎的探索与实践》

picture.image

【简介】  本次分享主要介绍了 火山引擎EMR如何基于 开源OLAP引擎构建实时分析平台,字节内部实践深度优化的OLAP内核 引擎如何去支撑客户的海量数据分析,支撑数百张业务表的实时数据导入和数百万次日查询,助力客户业务成功。

【活动回放】  https://developer.volcengine.com/articles/7278571191692951609

【活动】StarRocks 云原生湖仓 Meet Up 第二期 - 《火山引擎 EMR 在 StarRocks 成本优化上的思考》

picture.image

【简介】本次分享主要介绍了 火山引擎EMR 基于 StarRocks 的最新 存算分离 版本进行的探索和实践,详细解读了在成本、弹性、资源隔离和可靠性等方面带来的提升。目前,火山引擎 EMR StarRocks 已经在旅游、在线教育和游戏等多个行业取得了广泛应用,证明了其在不同领域的可靠性和适用性。

【活动回放】  https://developer.volcengine.com/articles/7278537449540845609

【活动】DataFunSummit 2023:数据指标体系峰会 - 从懂车帝业务看火山引擎 DataLeap 如何在数仓模型和产品应用中落地

picture.image

【简介】  本场活动中,  火山引擎 资深数仓研发工程师肖继哲解读 懂车帝 通过DataLeap指标服务统一构建汽车行业全方位的指标应用场景,从而建立指标体系构建规范,明确指标口径定义。了解指标建设如何在数仓模型及开发工作中收敛。最终建设指标体系的监控策略,保障指标数据质量和SLA 

【活动回放】  https://developer.volcengine.com/videos/7277482014654562345

【活动】火山引擎 DataLeap分享:DataOps、数据治理、指标体系最佳实践

picture.image

【简介】  在7月21日ArchSummit 全球架构师峰会(深圳站)及 DataFunCon.数据智能创新与实践大会(北京站)上,来自 火山引擎DataLeap 的三位专家分别就 DataOps  、数据治理和指标体系等方向进行了精彩的分享 

【活动回放】  https://mp.weixin.qq.com/s/tll1FDfKIaYKZfZlYUJrlw

【活动】CommunityOverCode Asia 2023

picture.image

【简介】随着 大数据 时代的到来,数据分析和 OLAP 技术在企业中的应用也越来越广泛,邀请业内的专家和学者分享他们在数据分析和 OLAP 技术方面的研究成果、实践经验和最新发展,涵盖数据分析和 OLAP 技术的研究进展、应用案例、最佳实践、性能优化等方面。

《基于 Apache Calcite 的多引擎指标管理最佳实践》

《大数据行列混合权限精细化管理实践》

《字节跳动基于 Parquet 格式的降本增效实践》

【活动回放】  https://apachecon.com/acasia2023/zh/tracks/olap.html

案例推荐 & 技术干货

【干货】OLAP 在火山 EMR 的最佳实践

picture.image

【简介】  传统OLAP架构,解决的更多是离线分析场景的需求,随着大规模数据服务场景的增多,业务侧不断有新的诉求提出,对数据分析的时效性要求变高,当前架构中存储和计算资源耦合,不同业务、时段及用户对二者要求往往不同,导致集群响应不够及时等问题。本文重点分享OLAP在火山EMR上的 云原生 能力及在火山相关客户中的应用实践。

【文章链接】  https://developer.volcengine.com/articles/7330449124149428275

【案例】途牛科技与火山引擎数智平台合作 打造企业大数据系统“降本”新范式

picture.image  【简介】  南京途牛科技有限公司与 火山引擎 数智平台(  VeDI  )达成深入合作,途牛 大数据 系统全面迁移至火山引擎 云原生 开源 大数据平台E-MapReduce  ,双方携手打造企业大数据系统“降本”新 范式 

【文章链接】  https://www.51cto.com/article/763701.html

【干货】DataLeap 数据资产实战:如何实现存储优化

picture.image

【简介】  Data Catalog作为 火山引擎 大数据研发治理 套件DataLeap产品的核心功能之一,经过多年打磨,服务于字节跳动内部几乎所有核心业务线,解决了数据生产者和消费者对于元数据和资产管理的各项核心需求。

【文章链接】  https://mp.weixin.qq.com/s/EnbE3MM8I8ND-phu86rPeg

【干货】从“13 天”到“0 天”延时,揭秘幸福里离线 SLA 保障最佳实践

picture.image

【简介】幸福里团队通过引入火山引擎大数据研发治理套件 DataLeap,综合推进离线数仓的 SLA 治理,将离线数仓 SLA 从 13 天降低为 0 天。本文将从策略制定、任务摸排收集、规范确定,宣贯推进等方向还原项目推进过程,期望为更多企业带来 SLA 治理思考和解决方案。

【文章链接】  https://mp.weixin.qq.com/s/siSwrqVrsgAicgYz8c5_Dg

【干货】字节跳动基于 Hudi 的机器学习应用场景

picture.image

【简介】本文主要介绍 火山引擎LAS 团队自研的多场景样本离线存储技术,用于处理 机器学习 系统的离线数据流。同时,还会为大家揭秘 流批一体 样本生成的过程,分享对 Hudi内核 所做出的优化和改造,探索其在数据处理领域的实际应用和效果。

【文章链接】  https://mp.weixin.qq.com/s/rvMjuofEndsPzIU4fTEsDw

【干货】干货丨字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践

picture.image

【简介】本文对目前主流数仓架构及 数据湖 方案的不足之处进行分析,介绍了字节内部基于实时/离线数据存储问题提出的的 湖仓 一体方案的设计思路,并分享该方案在实际业务场景中的应用情况。最后还会为大家分享 LAS 团队对湖仓一体架构的未来规划。

【文章链接】 https://mp.weixin.qq.com/s/TBdbqZmyh-ttSCIDJ0CU7g

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论