KubeCon 2023 | 字节跳动是怎么为 AI 打造云原生基础设施的

技术

picture.image

来源 | 字节跳动基础架构团队

9 月 26-28 日,由 Linux 基金会、CNCF 主办的 KubeCon + CloudNativeCon + Open Source Summit China 2023 将在上海举办。本次峰会将聚集全球社区,共同探讨云原生和开源领域的前沿洞察、核心技术与最佳实践,会议主题囊括安全、服务网格、网络+边缘、Open AI+数据、Web Assembly 等多个令人期待的技术热点。

作为社区的积极贡献者和最终用户,字节跳动与火山引擎积极参与本次大会,基于内部云原生+ AI 的实践推出了多个议题:

9 月 27 日

Type: 平台工程 | Platform Engineering 

picture.image

非侵入式在多集群联邦中启用 OpenKruise 和 Argo Workflow

时间:11:00am

演讲人 1:Rong Zhang | VIVO

演讲人 2:Tiecheng Shen | 火山引擎

议题简介:

为了避免供应商锁定,越来越多的公司正在转向多云和混合云架构。在这个过程中,基础设施管理员希望在多集群联邦中非侵入性地启用尚未进入多集群领域的云原生项目。其中,OpenKruise 和 Argo Workflow 是代表性的项目。一个重大挑战是我们需要能够灵活应用多云策略,并根据不同的资源对象处理联邦端和成员集群端之间的冲突。在本次演讲中,我们将回顾将工作负载从单个集群转移到多个集群的挑战。

Type: Open AI + 数据 | Open AI + Data 

picture.image

使用 KubeRay 和 Kueue 在 Kubernetes 中托管 Ray 工作负载

时间:11:00am

演讲人 1:Kante Yin | DaoCloud

演讲人 2:Jason Hu | 火山引擎

议题简介:

如今,机器学习的计算需求正在迅速增长。Ray 是一个统一的计算框架,可以让机器学习工程师轻松扩展他们的工作负载,而无需构建复杂的计算基础设施。另一方面,Kubernetes 是一个流行的开源容器编排平台,通过 KubeRay(Ray 工作负载的操作员),可以轻松管理各种工作负载。在字节跳动,每天都有数千个作业提交到由 KubeRay 创建的 Ray 集群中。通过在长时间运行的集群上调试程序并通过 Ray Job 自定义资源启动常规作业,用户可以从简化的工作流程中获益。同时,高效地管理并发的 Ray 作业面临着诸如作业饥饿和资源分配等挑战。Kueue 是一个基于 Kubernetes 的本地作业排队系统,提供资源管理、多租户支持和资源公平共享等功能,完美解决了 Kubernetes 中 Ray 作业的挑战。

picture.image

朝着无缝模型编译集成迈进

时间:11:50am

演讲人:Hongyu Zhu | 字节跳动

议题简介:

模型编译在 AI 加速中变得越来越重要。然而,在 IT 公司中采用模型编译用于生产模型并不是一件简单的事情。主要的负担包括来自不同领域、框架或格式的模型,从现有库过渡以及采用新的 ASIC。为了解决这些问题,ByteIR 被开发出来以提高模型编译的生产力。ByteIR 建立在 OpenXLA 和 LLVM/MLIR 编译器基础设施之上。它包括前端、编译器和运行时组件,每个组件解决不同的问题。例如,前端专注于模型覆盖和无缝框架集成;编译器专注于性能、新 ASIC 的采用和向后兼容库的过渡;运行时提供统一且无缝的生产集成。这三个组件可以一起工作,也可以选择独立工作以满足不同的业务需求。

picture.image

AI ASIC 的基准测试、优化和生态系统协作的整合

时间:3:50pm

演讲人:Minghui Yu | 字节跳动

议题简介:

ASIC 在 AI 加速中越来越受欢迎。然而,对于 IT 公司来说,采用新的 ASIC 并不容易。采用新的 ASIC 是一项耗时的工作,需要跨团队沟通、模型选择以及交付预期的性能和准确性。不透明的编译要求以及对给定 ASIC 的模型熟练度或不熟练度造成了巨大的负担。为了解决这些问题并加快评估过程,ByteMLPerf 从生产角度开发出来,以协助评估 ASIC。它专注于软件和硬件的易用性和多功能性,通过调整其基准测试工具来使模型和运行时在实际应用场景中保持一致,并将编译能力作为一流的 API 内置,从而显著提高可重复性。该工具提供了广泛的指标,以更好地反映实际情况进行综合评估。此外,编译后端最大限度地发挥了每个模型的性能潜力,并更好地利用了 ASIC。

9 月 28 日

Type: 新兴和先进技术 | Emerging + Advanced

picture.image

基于 WebAssembly 的 FaaS 框架,具备分布式机器学习能力

时间:11:00am

演讲人 1:Michael Yuan | Second State

演讲人 2:Wilson Wang | 字节跳动

议题简介:

我们的目标是创建一个利用 WebAssembly 的 FaaS 平台,这是一种安全且轻量级的技术,用于机器学习任务,特别是推理作业。为了实现这一目标,我们正在将 WebAssembly 与 Ray 集成,Ray 是一个广泛使用的用于扩展人工智能和 Python 应用程序的框架,以创建一个具有分布式机器学习能力的强大 FaaS 平台。Ray 的高级功能,如分布式调度、对象存储和任务间通信,使其成为一个优秀的 ML-enabled FaaS 平台选择,它统一了资源抽象,并消除了不同 FaaS 函数之间的障碍。通过将 WebAssembly 与 Ray 集成,我们可以使任务更加轻量级,并扩展 Ray 对编程语言(如 Rust、Go 和 JavaScript)的支持,以简化现有应用程序的移植过程。

Type: 运维+性能 | Operations + Performance

picture.image

在 Kubernetes 上构建一个精细化和智能化的资源管理系统

时间:11:50am

演讲人 1:He Cao | 火山引擎

演讲人 2:Wei Shao | 字节跳动

议题简介:

原生 Kubernetes 的资源管理能力有所局限:1. 静态的资源模型会导致节点的资源利用率较低,因为在线业务具有潮汐现象。2. 只支持申请整数个 GPU,在 AI 推理场景下会浪费大量昂贵的 GPU 资源。3. 原生的拓扑亲和策略只考虑了 NUMA 拓扑,难以满足搜索、推荐和 AI 大模型训练等业务对性能的要求。

本次演讲将介绍资源管理系统 Katalyst 及其在字节跳动的应用:1. 通过在离线混部提升资源利用率,并保障业务的 SLO 不受影响。2. 实现了 GPU 共享调度,支持 1% 算力粒度和 1 MiB 显存粒度的容器调度,从而提升了 AI 推理场景下的 GPU 利用率。3. 实现了拓扑感知调度,并扩展了 GPU 和 RDMA 在 PCIe Switch 级别的亲和策略,从而在分布式模型训练场景下可以使用 GPU DirectRDMA 技术来提升训练速度。4. 通过在线超分、规格推荐、潮汐混部等低使用门槛的措施提升资源效能。

picture.image

如何使用集群自动缩放器将批处理作业的节点扩展到 2k 个节点

时间:11:50am

演讲人:Lei Qian | 火山引擎

议题简介:

批处理作业具有批量创建和删除的特点,而云提供了强大的弹性。因此,批处理作业和云是完美的匹配。在云原生世界中,我们可以使用 Kubernetes 和集群自动缩放器来降低成本。但与微服务不同,批处理作业对集群的弹性要求更高,给集群自动缩放器带来了更多挑战。在我们的场景中,用户将在短时间内创建多达 16,000 个 Pod。当这批任务完成时,集群需要快速缩小。在本次演讲中,我们将分享在批量创建和删除场景中使用集群自动缩放器遇到的一些问题和解决方案。例如,为什么集群无法成功扩展,为什么 Pod 创建时间如此长,为什么空闲节点没有及时删除等等。通过解决这些问题,我们能够将集群扩展到 2,000 个节点。

期待与大家线下相遇,一起开启云上增长新空间!

picture.image

  • END -

近期活动

活动名称:Katalyst 编程挑战

报名时间:9 月 01 日 - 9 月 22 日

活动详情:

picture.image

44
0
0
0
关于作者
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论