火山引擎分布式云原生平台 DCP 推出注册节点:云端拓展,激发数据中心新潜能

混合云容器与中间件分布式

picture.image

来源 | 火山引擎云原生团队

背景

数字化转型浪潮下,企业正面临前所未有的数据中心管理挑战。根据 Gartner 在 2023 年 9 月发布的报告《Navigate Cloud Computing and Data Center Infrastructure Markets》:

随着数据中心基础设施的不断发展与云计算市场的日益成熟,企业各类工作负载的上云需求也在快速增长,但是由于公有云的局限性,70% 的工作负载仍未迁移至公有云上,其中绝大部分为关键业务与应用。与此同时,本地基础设施是否能够提供云化(cloud-inspired)和云原生(cloud-native)的能力愈发受到关注。

一方面,随着业务需求的不断增长和变化,企业会通过上云来扩展其数据中心资源,充分享受云资源的弹性和灵活性;另一方面,为了适应云计算与自建数据中心共存的混合云状态,企业也需要从传统的集中式数据中心架构,转向更加分散和灵活的混合资源管理模式。然而,这一过程并不是一帆风顺的,企业向云端转型传统数据中心运维之间往往存在一些不协调,主要包括:

  • 企业云上业务的增长使得云下资源难以利旧,云下 CPU、GPU 存在显著的资源利用率低的浪费问题。
  • 使用自建或私有云容器服务导致高昂的运维成本,并需额外构建监控和日志系统,增加了运维的复杂性
  • 实现云上与云下统一资源管理与应用分发面临挑战,特别是跨地域资源的整合难度大,影响了资源的集中优化配置

为了应对以上问题,火山引擎分布式云原生平台 DCP 上线注册节点(DCP Node)能力,通过云上云下混合节点统一管理的创新云原生实践,帮助企业更灵活、更安全、更高效地管理数据中心,实现降本提效。

注册节点 - 云上云下混合节点管理

所谓注册节点,它针对的是企业云上业务日益弹性高效,但自有 IDC 闲散服务器无法有效利用和运维的问题。它支持远程节点的注册接入云上集群,可以帮助企业实现统一应用发布,从而节省搭建和维护本地集群的成本。同时,结合火山引擎托管 Prometheus VMP 等产品和服务的能力,企业可以实现云上统一的监控、资源调度等,真正实现云上云下统一管控。

picture.image

注册节点提供了以下核心产品能力与价值:

  • 混合节点管理:将自有 IDC 节点或三方云节点一键接入火山 VKE 容器集群,支持公网、专线、VPN等多种网络接入环境,实现云上云下节点统一管理。

  • 集群免运维:采用火山引擎托管版容器服务 VKE 作为注册节点的控制面,通过 VKE 集群控制台及 API 进行云下工作负载管理,最小化用户对集群的运维负担。

  • 中心化运维:提供专用的监控、日志采集组件,支持对云下节点及负载的观测指标的统一云上存储,并提供指标查询面板及异常指标告警能力。

  • 节点自治:在断网或网络信号弱的环境下提供注册节点及应用自治能力,确保关键业务的连续性和稳定性,可适用于弱网连接场景。

  • GPU 资源调度:提供了注册节点的 NVIDIA GPU 组件及运行时安装,支持云上统一的 GPU 负载调度。

  • 云上产品赋能:与火山引擎横向产品如多云集群管理、观测治理、持续交付等深度集成,提供了一站式全场景产品能力体验。

落地案例 - 数据中心管理新范式

下面我们结合几个客户场景案例,来认识注册节点是如何为用户优化管理流程、削减运维开销、助力用户实现更高效/经济的数据中心运作的。

Spotter — IDC 资源利旧

Spotter 是一家自研型的 B2B 跨境电商平台,致力于通过技术、物流、供应链金融、亚马逊运营支持等服务为优质“中国制造”品牌商提供一站式出海的先进方案。公司已与亚马逊生态内的众多知名品牌商建立战略合作关系,其愿景是助力中国企业生根欧美市场,为优秀产品出海开辟新航道。

目前,该客户的电商服务容器化后在自建的 IDC 容器集群中运行,但是由于缺乏足够的运维经验和人力资源,客户正在考虑引入外部的产品服务,以提升运维的效率和系统的稳定性。同时,客户也面临着资源利用和成本控制的双重考量:

  • 希望寻找一个提供容器服务产品并给予客户支持的供应商,但构建私有化平台成本太高;
  • 能够充分利用现有的 IDC 十几台服务器资源,以最大化资源利用率,并需要能够支持服务器的高效、无缝上下架操作;
  • 在 IDC 服务器资源不足以应对业务高峰时,能够迅速借助云端资源进行弹性扩展,确保业务的连续性

picture.image

通过使用火山引擎分布式云原生平台 DCP 的注册节点能力,该客户取得了以下收益:

  • 提供稳定高效的容器服务和云端资源扩展能力
  • 利旧 IDC 服务器,并通过云上 Kubernetes 统一调度提升资源利用率,避免资源的闲置和浪费
  • 复用火山引擎云上监控,无需重复构建运维体系,降低运维成本
  • 相比传统私有化平台,在成本控制上更具优势,实现了资源和成本的双重优化

某餐饮企业 — 多门店管理

该客户是一家国际知名的餐饮连锁企业,在中国拥有逾千家分店,遍布全国各个城市。每家分店均部署了 1-2 台服务器,支撑着点餐等关键店内服务。随着分店数量的迅速增长,如何有效管理这些服务器、发布应用及监控运维,成为了一个日益严峻的挑战。具体来看,该客户面临的问题和需求包括:

  • 尝试在总部通过构建 Kubernetes 容器集群来统一管理各门店的服务器(每个门店配置 1 台),但 VPN 网络的不稳定性和间歇性断线问题,使得在断网情况下无法确保门店业务的持续运行;
  • 亟需一个面向广泛门店高效的标准化发布流程,并支持两种模式:一是能够同时对所有门店进行应用发布,二是能够灵活对特定门店或门店组合进行分批次的版本更新;
  • 对于上千家门店的服务器和应用运维,需要实现统一的监控和日志管理。特别对于发布失败的情况,系统应能够提供详细的失败日志,以便于快速定位问题并进行有效排障。

picture.image

通过使用火山引擎分布式云原生平台 DCP 的注册节点能力,该客户取得了以下收益:

  • 通过云上 Kubernetes 统一调度,并结合云上持续交付产品,满足多门店灵活、高效的应用发布
  • 利用注册节点自治能力,保证在门店断网时业务可正常访问,提升系统稳定性
  • 复用火山云上监控、日志产品能力,实现多门店统一运维,提高运维效率

某 AI 视频创作公司 — 混合资源管理

该客户作为一家领先的 AI 视频创作公司,利用尖端的 AI 数字人技术和智能剪辑技术,为用户提供了一个高效且易于操作的视频创作平台。为了支持其创新服务,客户利用火山引擎公有云容器服务,成功部署了在线 AI 推理服务,并使用弹性容器实例(VCI)来应对业务流量高峰。然而,在 AI 训练领域,客户遇到了一些挑战和需求:

  • 资源利用率低:当前,部分业务部门使用分散的 IDC 和三方云上的预付费 GPU 服务器进行 AI 训练,由于缺乏资源共享机制,导致资源利用率不高,增加了闲置成本。
  • 管理复杂性:现有的 AI 训练任务需要手动指定 GPU 节点逐一执行,这一过程不仅操作繁琐,而且在任务监控和故障排查上也存在复杂性。客户希望能够通过 Kubernetes 集群管理,实现任务的统一下发和集中管理。
  • 资源统一管理:鉴于现有的在线业务已经运行在火山公有云集群中,客户希望避免新建额外的集群,而是希望在现有集群基础上,实现混合资源的统一管理和云上云下业务的统一分发。此外,当本地资源不足以应对业务需求时,需要能够迅速扩展到云端资源。

picture.image

通过注册节点的落地,火山引擎云原生团队为客户打造了一个统一高效的混合资源管理体系,具体收益如下:

  • 基于火山引擎已有 VKE 集群实现云上云下混合节点管理,提高了资源的使用效率,有效减少了资源的闲置和浪费
  • 复用云上监控运维、GPU 管理与调度等能力,显著降低了运维的复杂度和工作量
  • 当云下资源不足时,可通过云上云主机或弹性容器资源拓展,确保业务的稳定性与连续性

目前,火山引擎分布式云原生平台 DCP 已开启注册节点功能公测https://www.volcengine.com/product/dcp,欢迎更多感兴趣的企业用户试用体验!

picture.image

开启轻量级上云之旅

关于火山引擎分布式云原生平台 DCP

火山引擎分布式云原生平台 DCP(Distributed Cloud Native Platform)是面向多云多 Kubernetes 集群场景的企业级云原生统一管理平台。提供多云集群统一管理与运维、应用跨集群分发、统一流量管控等能力,为用户打造无处不在的云原生一致体验。

相关链接

[1] 火山引擎分布式云原生平台 DCP 正式公测!

[2] 助力 AIGC 开发,火山引擎函数服务推出 Serverless GPU 功能

[3] 字节跳动的多云云原生实践之路

picture.image

picture.image

picture.image

0
0
0
0
关于作者
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论