2023 年 4 月 18-21 日,由 CNCF 主办的 KubeCon + CloudNativeCon 在阿姆斯特丹召开。这个汇聚领先开源社区和领先技术专家的云原生舞台,一直是连接全世界云原生开发者的重要阵地,也进一步推动着云原生的教育和进步。
在本届 KubeCon 上,火山引擎云原生团队和字节跳动编排调度团队为广大开发者带来了 2 个方向的精彩分享: 如何选择/落地原生社区开源项目 ; 如何基于内部技术实践帮助开源项目发现/解决问题 。
源于开源、反哺开源一直是开源社区健康发展的重要精神,我们也希望通过分享更多最佳实践,更积极地参与开源社区、融入开源社区。
议题一: Best Practices for Accelerated Image Distribution Using Dragonfly
分享人 :Wenbo QI(蚂蚁金服/Dragonfly 社区);Yingyang Huang(火山引擎/Dragonfly 社区)
议题简介 :Dragonfly 是一个基于 P2P 的图像和文件分发系统。本次议题主要介绍了 Dragonfly & Nydus 的系统架构以及系统设计,同时也介绍了 Dragonfly 如何在机器学习推理引擎中加速分发模型,并且会提供 Dragonfly & Nydus 在火山引擎(Volcano Engine)进行镜像加速的最佳实践,以及在镜像下载过程中的相关数据。 最后,描述 Dragonfly 如何与生态系统中的其他系统进行融合,例如 Harbor、Nydus 等。
完整内容 : 《火山引擎基于 Dragonfly 的加速实践》
议题二: Kubernetes Batch Processing at Scale - A Scheduling Perspective
分享人 :Lim Haw Jia(字节跳动);Fan Deliang(字节跳动)
议题简介 :在离线任务处理场景下,原生 Kubernetes 面临着 Pod 类型多元、统一调度约束、扩展性等诸多挑战。在字节跳动庞大的业务底层,Kubernetes 集群每天运行着近百万离线任务的企业,我们在这个问题上积累了一些最佳实践。在本次分享中,我们将深入分析基于 Kubernetes 托管离线任务的原因和收益,介绍如何实现托管规模的进一步提升;将探讨离线场景下一些有趣的发现,比如 Gang Scheduling 和 DRF 等特性,以及如何在 Kubernetes 场景下实现;将介绍如何将调度框架中计算密集型的部分并行,从而提升可扩展性。最后,我们会阐述在线融合调度后,在资源利用率和成本所获取的收益。
相关开源 : https://github.com/kubewharf
欢迎加入云原生交流群
- END -
加入我们