全球数字经济进入高速发展期,已经成为推进经济发展的新增长极。云原生技术作为下一代云计算的技术内核,在加快推进各产业数字化转型中发挥着重要作用,云原生大数据技术产品也逐步迭代升级,开始引领产业变革的浪潮。
近期,诸多行业大会围绕大数据容器化相关话题展开讨论。字节跳动云原生计算团队也将在以下大会中进行演讲直播,欢迎关注。
RocketMQ 在字节跳动的应用与实践
沈辉 |字节跳动基础架构研发工程师
会议 :RocketMQ Summit 2022 全球开发者峰会
演讲时间 :7月21日(周四) 11:35-12:00
议题简介 :本议题主要介绍 RocketMQ 在字节跳动内部的应用场景、面临的挑战,在面对这些场景与挑战的情况下,如何将 RocketMQ 在字节跳动内部落地,分享主要包含字节跳动内部 RocketMQ 的落地架构、新增的组件以及字节内部版本相较于社区版本的差异等内容。
👆 直播观看地址
Flink 流批一体 在字节跳动的探索与实 践
付振雄| 火山引擎 云原生 计算产品经理
会议 :GIAC 全球互联网架构大会
演讲时间 :7月23日(周六) 13:30-14:30
议题简介 :在业务规模不断壮大,数据不断膨胀的背景下,数据的使用及管理成本成为越来越多企业发展过程当中的痛点问题。如何降本增效,达到压缩成本和迅速转换数据价值的双赢结果是当前的热议话题。Flink 作为支持批流一体的计算引擎,被越来越多企业选择为流批一体解决方案中的重要一环。
听众收益 :
-
了解 Flink 流批一体在字节跳动的探索与实践;
-
了解字节跳动基于 Iceberg 的数据存储的探索;
-
字节跳动云原生计算流批一体解决方案。
👆 直播观看地址
基于 Zeppelin 的
Flink/Spark 云原生实践
陶克路|字节跳动基础架构研发工程师
王 正|字节跳动基础架构研发工程师
会议 :ApacheCon Asia 2022
演讲时间 :7月29日(周五) 16:10-16:50
议题简介 :
主要介绍如何在 Kubernetes 环境之上基于 Zeppelin 构建作业开发管理平台,并运行和管理 Flink/Spark on Native K8s 上的实践。
- Apache Zeppelin 介绍
- Apache Zeppelin 的云原生实践
- 基于 Zeppelin 的 Flink 云原生实践
- 基于 Zeppelin 的 Spark 云原生实践
👆 直播观看地址
Cloud Shuffle Service
在字节跳动 Spark 场景的应用实践
魏中佳|字节跳动基础架构 大数据 开发工程师
会议 :ApacheCon Asia 2022
演讲时间 : 7月30日(周六) 16:10-16:50
议题简介:
字节跳动内部主要使用 Spark 进行离线大数据处理,每天线上约有几十万的 Spark 作业。内部业务用户对 SLA 有明确需求,如果破线将对业务产生较大影响。Shuffle 是 Spark 引擎的一个重要操作,在大规模作业下,开源 ExternalShuffleService(ESS) 的实现机制容易带来大量随机读导致的磁盘 IOPS 瓶颈、Fetch 请求积压等问题,进而导致运算过程中经常会出现 Stage 重算甚至作业失败,继而引起资源使用的恶性循环,严重影响 SLA。此外,在字节跳动内部的在离线混部场景下,在线机器的磁盘容量等能力较小,运行中经常遇到磁盘满的问题。
在此背景下,字节跳动 Spark 团队一方面针对 ESS 做了大量的优化,包括 Shuffle 相关参数优化(减少随机读的请求)、增加 Shuffle 限流等,大大提高了 ESS 在 SSD 集群的稳定性;另一方面在 HDD 磁盘/在离线混部等场景的集群中,提出了 Cloud Shuffle Service(CSS) 作为解决方案,即 Map Task 通过 Push 的方式将同一个 Partition 的数据推送到同一个 CSS 工作节点,Reduce Task 可以从对应的节点进行顺序读,大大提高了读取的性能和 Shuffle 的稳定性,有效保障了 SLA。
目前字节跳动内部的线上 Spark / Flink / MapReduce 均已接入 CSS。
👆 直播观看地址
相关文章推荐