字节跳动基础架构两篇论文入选 VLDB 2024 - 文章 - 开发者社区

2024 年 8 月 26 至 30 日，VLDB 2024 将在中国广州举行。 字节跳动基础架构云原生中间件团队、批式计算团队研究成果分别被 VLDB 2024 接收，并受邀进行现场报告。

VLDB （International Conference on Very Large Data Bases） 是数据库三大国际顶级学术会议之一，也是中国计算机学会（CCF）推荐的 A 类国际学术会议。 自 1975 年成立以来，每年吸引全球顶级研究机构投稿，但录用率较低，对系统创新性、完整性、实验设计等方面都要求极高。VLDB 也因此成为数据库管理领域最杰出的研究和发展成果的实时传播场所，反映了当前数据库研究的前沿方向、工业界的最新技术和各国的研发水平。

ResLake: Towards Minimum Job Latency and Balanced Resource Utilization in Geo-distributed Job Scheduling

ResLake 是字节跳动基础架构计算和存储团队、应用研究中心和系统部网络团队，共同研发的多机房计算、存储、网络一体化资源管理系统。ResLake 既能兼顾作业完成时间（Job Completion Time, JCT），又能兼顾不同机房之间资源的负载均衡。ResLake 具备资源的全局视角，通过作业调度、数据调度、网络管控等手段，能显著优化计算和存储的排布，并有效降低运营成本。ResLake 上线后，作业平均 JCT 时间降低了 20%，机房间资源利用率均衡性提升了 53%，跨机房流量降低了 50%，并降低了46% 的存储成本。

Towards Resource Efficiency: Practical Insights into Large-Scale Spark Workloads at ByteDance

Spark 在字节跳动内部主要用来做大数据离线处理，日均运行百万级别的 Spark 作业，Shuffle 量高达 500 PB，CPU 资源需求达到千万核心级别。底层计算资源包括稳定资源和在离线混部资源。在追求降本增效的背景下，如何提高上述大规模 Spark 作业的资源使用效率是一个重大挑战。

为应对这一挑战，字节跳动基础架构批式计算和应用研究中心团队与上海交通大学的数据通信与数据工程实验室合作，基于线上的实际情况从三个方面进行了系统性的优化，包括多机制的 Shuffle 优化（稳定资源 External Shuffle Service 增强、混部资源自研 Remote Shuffle Service CSS）、细粒度的资源申请和运行时资源使用控制、规则+算法两个阶段的自动参数调优。在大规模上量 50w+ 作业中，日均可节省百万级 CPU 核、PB 级内存。

以上论文与现场报告将于 8 月底正式亮相 VLDB 2024。届时，字节跳动基础架构团队也将发布相关论文的对应解读文章，敬请持续关注。