「火山引擎数据 中台产品双月刊」 VOL.01

数据中台大数据数据湖仓

火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「湖仓一体分析服务 LAS」「火山引擎 E-MapReduce」三款数据中台产品的功能迭代、重点功能介绍、产品联动使用案例、平台最新活动等多个有趣、有料的模块内容。

产品迭代一览

火山引擎大数据研发治理套件 DataLeap

  • 公有云【数据开发特惠版】(限时特惠)200元/月,提供面向数据开发场景的解决方案。每日免费提供20个公共调度实例资源及2CU*时公共计算资源,含基础数据开发、数据集成、任务运维、资产检索、数据安全管理功能。选择“计算引擎组合购买”方式,一键开通 DataLeap+LAS 服务后,您将开启以下服务体验。

picture.image

  • 数据服务是 API 服务的一站式平台。帮助用户将数据快速服务化,提供 API 创建、管理、运维和共享的全生命周期管理能力。同时保证服务高可靠性和高安全性。

picture.image

火山引擎湖仓一体分析服务 LAS

  • 【强化数据湖 (Data Lake) 能力】新增 Kafka 外表,支持 Kafka Table 作为 Flink Source,将 Kafka 外表数据写入 LAS 内表。

picture.image

  • 【新增弹性扩展按量计费能力】支持配置队列规模的最大值(Max)及最小值(Min),随用户的负载而在此范围内动态伸缩,计费方式为弹性费用,大大节约了闲置成本。

picture.image

  • 【强化湖仓一体能力】支持非 结构化数据 存储及计算,包含非结构化文件的上传 / 存储 / 共享 / 处理 / HDFS 语义支持。

picture.image

火山引擎云原生开源大数据平台 E-MapReduce

  • EMR 弹性伸缩功能灰度发布,支持用户根据时间配置伸缩策略,如有需求可以联系产品和运营团队开通体验。已支持弹性伸缩模式如下:
    • 固定数量模式:通过“最小实例数”属性,可以让您始终保持健康运行的 ECS 实例数量,自动替换不健康实例,以保证日常场景实时可用;
    • 定时伸缩模式:配置定时任务,一次性在固定时间增加或减少 ECS 实例,适合于突发性的且业务需求比较明确的场景;
    • 周期伸缩模式:配置周期性任务,定时地增加或减少 ECS 实例,适合于比较稳定的业务预期;

picture.image

  • 新增 EMR v1.3.0 软件栈。
    • 【集群】新增 Pulsar 集群类型,可以提供云原生消息队列服务;
    • 【组件】支持 CloudFS ,在 TOS 基础上提供兼容 HDFS 语义,同时可基于业务需要,开启缓存加速;
    • 【组件】Ranger 的 Spark、Hive 插件支持对 Iceberg 表格式进行鉴权控制;
    • 【组件】Doris 支持查询分析数据湖格式 Hudi,包括支持创建 Hudi 外表、查询分析 Hudi COW 和 MOR 表;

picture.image

  • 新增 EMR v1.3.1软件栈,该版本为小版本更新。
    • 【组件】EMR Flink 支持与 ByteHouse(云数仓版)对接;

    • 【组件】EMR Spark 3.x 版本升级到3.2.1;

重点功能课堂

火山引擎大数据研发治理套件 DataLeap

  • 数据安全介绍:提供数据权限的控制、为数据保驾护航、全方位保障大数据资产安全。您可以进行资源申请、权限审批、以及资源的授权管理。通过对申请授权和主动授权的资源进行定期规则扫描和行为审计。
    • 权限管理:对库表及资源对象的申请,授权、工单审批,自动审批
    • 安全管理:对L1-L4不同安全级别对象进行申请授权,主动授权管理
    • 审批中心:包含自动审批,加签,转办及对不同权限类型的自动审批规则定义

picture.image

火山引擎湖仓一体分析服务 LAS

Serverless :开箱即用,零门槛启动端到端数据分析】 【业务痛点】

  • 构建复杂数据流的学习和运维门槛
  • 繁杂的系统管理工作及调优工作

【技术方案】

  • 按需付费: 无任何前期投资,帮助企业快速构建数据服务
  • Serverless : 无需任何运维管理工作,帮助用户专注于数据本身
  • 自优化: 系统提供自优化、自调整能力,解决调优需求,分析师用户也能轻松使用

picture.image

火山引擎云原生开源大数据平台 E-MapReduce

【丰富完善的云原生管理运维能力】

【业务痛点】企业使用开源组件自建大数据平台时,为了保障平台长期稳定运行,不仅需要投入大量技术人员使用开源组件搭建运维管理平台并进行配置和运维,还将面临开源管理组件能力有限的问题,导致企业大数据平台 TCO 居高不下。

【技术方案】火山引擎 E-MapReduce 具备一站式云上运维管理能力,提供集群管理、服务管理、节点管理、引导操作、日志中心、配置中心,用户权限和弹性伸缩等丰富的运维管理功能。与此同时,EMR 提供了完善的服务监控指标体系,企业用户可以及时准确的感知集群组件及任务的运行异常状况。

picture.image

活动回顾

【活动】「胜算·在云」2022火山引擎数据智能科技峰会

picture.image

【简介】 9月2日,火山引擎数据智能科技峰会在杭州举办。会上正式发布了新一代企业级数据产品—数智平台 VeDI(Volcengine Data Intelligence),包括数据引擎(湖仓一体分析服务 LAS、云原生开源大数据平台 E-MapReduce)、数据建设和管理(大数据研发治理套件 DataLeap)、数据分析应用及解决方案的全链路数据能力。同时发布的还有火山引擎数智平台VeDI技术图谱,技术能力囊括“大数据引擎”、“大数据管理”和“大数据应用”3大核心方向,覆盖“数据存储”、“数据计算”、“行为分析”、“智能洞察”在内的13大细分场景。

【活动回放】 关注字节跳动数据平台视频号,点击「直播回放」搜索后观看。

【活动】企业级大数据平台构建的思考与实践

picture.image

【简介】 火山引擎开发者社区技术大讲堂第四期将为大家从开源大数据生态和源于字节跳动内部的智能实时湖仓两个方面详细介绍如何构建企业级数据湖仓,剖析大数据平台的架构与实践。来自火山引擎湖仓一体分析服务 LAS 和云原生开源大数据平台 EMR 的技术专家,分别分享了《字节跳动 EB 级湖仓一体分析服务 LAS 的实践与展望》和《基于火山引擎 EMR 构建企业级数据湖仓》,干货多多,不可错过

【活动回放】 关注字节跳动数据平台视频号,点击「直播回放」搜索后观看。

【活动】DataFunSummit2022 数据治理在线峰会

picture.image

【简介】 8月27日,DataFunSummit2022:数据治理在线峰会召开。火山引擎多位数据技术专家集中亮相,分享数据治理、数据安全,数据集成等相关实践。其中摘录了5个精彩议题与大家分享。

议题一:字节跳动一站式数据治理的思考及实践

  • 了解完整的数据治理思路、以及整体技术架构演进。

议题二:字节跳动大数据平台安全与权限治理实践

  • 了解安全产品体系、安全管控治理与资产保护能力

议题三:字节跳动数据治理实践

  • 解读数据BP模式、治理组织建设、治理制度建设,以用户体验为中心的数据体系建设方法

议题四:字节跳动埋点成本治理实践

  • 介绍埋点治理背景、详解整体策略及在字节跳动内部实践

议题五:字节跳动全域数据集成演进历程

  • 了解字节大规模数据下,丰富的异构数据源之间高速稳定的移动及同步能力, 提供高效、可靠的全域数据集成解决方案。

【活动回放】 https://developer.volcengine.com/videos/set/7145675320215994376/7145416265614491662

【活动】Apache Hudi 中文社区交流会议

picture.image

【简介】 Apache Hudi是新一代流式数据湖平台,支持插入、更新、删除以及增量数据处理;可助力构建高效的企业级数据湖。目前已经在国内外多个大型公司生产落地。Apache Hudi中文社区技术交流会固定于每双月最后一个周四 上午10:00 到 11:00开播,其中第三期在2022年8月25日举办 。会议由火山引擎湖仓一体分析服务 LAS 团队主办,围绕Apache Hudi沟通社区进展、互换想法。其中,字节跳动数据平台大数据工程师向大家分享《社区最新进展同步》。

【活动回放】 关注字节跳动数据平台视频号,点击「直播回放」搜索后观看。

案例推荐&技术干货

【文章】一文读懂字节跳动“埋点验证平台”

picture.image

【简介】 埋点数据作为推荐、搜索、产品优化的基石,数据质量的重要性不言而喻。目前埋点验证已在字节内部得到广泛使用,通过一键扫码开启基于埋点设计需求的验证、实时上报验证、自动生成验证报告,解决了埋点数据验证难、埋点质量保障难的问题。

【文章】HiveServer2 内存泄露问题定位与优化方案

picture.image

【简介】 HiveServer2 基于 Java 开发,当JVM出现内存泄露问题时, JVM 服务会停止响应并且退出,但这并不会引起操作系统的崩溃。本文详细介绍了火山引擎 EMR 研发团队发现 HiveServer2 异常停止服务后的问题定位思路和解决方案。仔细定位问题是否与官方已知 issue 一致,不仅可以最大程度地降低隐患,也将有助于深入掌握引擎本身的原理和实现逻辑。

【文章】提速 10 倍!源自字节跳动的新型云原生 Spark History Server 正式发布

picture.image

【简介】 近期火山引擎正式发布UIMeta,一款致力于监控、分析和优化的新型云原生 Spark History Server,相比于传统的事件日志文件,它在缩小了近乎 10倍体积的基础上,居然还实现了提速 10倍! 目前,UIMeta Service 已经取代了原有的 History Server,为字节跳动每天数百万的作业提供服务,并且成为火山引擎湖仓一体分析服务 LAS(LakeHouse Analytics Service)的默认服务。本篇文章为Databricks 主办的Data + AI Summit峰会上的分享回顾。

【文章】字节跳动杨震原:抖音电商是如何实现数据驱动的?

picture.image

【简介】 如何在满足抖音业务需求下实时性、敏捷性要求的同时确保稳定性?通过大数据研发治理套件DataLeap提供的一站式研发治理工具,实现敏捷研发和分布式数据治理。

【文章】火山引擎数智平台 VeDI 技术图谱发布,囊括大量数据中台产品能力

picture.image

【简介】 在9月2日火山引擎数据智能科技峰会上,火山引擎数智平台VeDI技术图谱首次发布,聚焦“大数据引擎”、“大数据管理”和“大数据应用”3大核心方向,覆盖“数据存储”、“数据计算”、“行为分析”、“智能洞察”在内的13大细分场景。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论