火山引擎发布新一代云原生监控引擎 VMP

Kubernetes

随着全球企业容器化进程的加速,企业云环境变得越来越复杂,如何让一个监控系统及时地、准确地告知用户应用运行是否正常是十分重要的。

开源项目 Prometheus 因其具有动态发现与繁荣的开源社区等优势,已逐渐成为容器观测事实上的标准解决方案,被大量企业用于监控云原生系统。然而随着系统复杂度不断攀升,大规模管理 Prometheus 基础设施对很多企业来说仍是一个巨大挑战。

为了帮助企业实现用 Prometheus 监控大量指标,近日,火山引擎正式推出托管 Prometheus 服务(Volcengine Managed Service for Prometheus, VMP),为用户提供更好的云原生体验。

高可用免运维的云原生监控引擎

火山引擎 VMP 是一套基于开源 Prometheus 监控引擎开发的开箱即用的产品方案,致力于为用户打造免运维、高可用的新一代云原生监控引擎系统。

picture.image

产品架构图

与自建 Prometheus 相比,VMP 围绕易用性、可靠性开发了多种能力,并充分整合开源生态。用户使用后无需关注监控系统后端复杂的构建,也无需考虑维护海量数据的存储和运维成本,可以将更多精力放在核心业务增长上。

节省成本

作为全托管式服务,与自建 Prometheus 相比,VMP 能够极大节省用户的使用成本。

picture.image

稳定可靠

火山引擎 VMP 采用单 AZ 多副本、跨 AZ 高可用的方案,这使得 VMP 在出现实例故障、AZ 故障的情况下依旧可以正常使用,保障了监控服务的稳定性和可靠性。

多兼容可迁移

VMP 在兼容开源生态前提下,具有以下兼容性优势:

  • 兼容 Prometheus 社区生态。支持 Prometheus 社区提供的第三方 Exporter,能够很好的满足用户对各种环境、插件的监控;
  • 兼容原生 Prometheus.yaml 采集规则配置文件和配置方法,允许用户自定义采集规则;
  • 兼容 PromQL 语法

因此,VMP 服务具备良好的迁移性,已经在使用原生 Promethus 的用户,可以直接迁移至 VMP 服务中,包括配置文件、对接了原生 Promethus 的代码、Grafana 面板等。

简单易用

VMP 支持快速创建逻辑隔离或物理隔离的云端存储,用户无需手工配置、调优 Prometheus 环境。无需考虑维护海量数据的存储成本,支持接入公有云 VKE 等产品,满足监控告警的需求。

性能出色

单条 query 扫描样本可多达 3 亿条数据,具有出色的性能优势。

覆盖丰富监控场景

在监控能力层面,火山引擎 VMP 解决了长期以来企业在容器观测上面临的多重挑战,包括多样化组件的监控、动态化的监控对象、大规模集群的复杂性等。它也基于字节跳动大规模可观测实践,提供了大量用户自定义的能力。

Kubernetes 集群监控场景

VMP 支持全面的 Kubernetes 集群监控场景。支持通过 node-exporter、cAdvisor 和 kube-state-metrics 进行据采集,并实现集群节点、集群组件、应用等多维度的监控。Kubernetes 云原生集群监控主要涉及到 3 类指标,包括:Node 节点指标、Pod 容器指标和 Kubernetes 云原生集群资源指标。

picture.image

自定义监控场景

在自定义监控场景下,用户可以自定义需要上报的监控指标对主机或实例的某些指定状态进行监控,例:磁盘使用空间、内存统计信息等。VMP 也支持对一些核心处理步骤的耗时进行监控,如请求响应时间等。

picture.image

开源生态指标观测场景

VMP 拥有良好的开源亲和性,支持基于社区开源的第三方 Exporter,面向开源生态(中间件、数据库等)进行指标观测。

picture.image

内部业务如何使用VMP?

字节跳动机器学习团队是 VMP 的用户之一,其活跃时序数达到了千万级。

在应对其 AI 业务场景时,传统的 Prometheus 会因为短生命周期监控对象多而导致 series churn ① 的问题,VMP 有效解决了该类问题,为机器学习团队提供了稳定的 Prometheus 监控服务。同时,AI 场景下,活跃时序的波动较大,该团队也通过 VMP 按量计费的特性有效控制了成本。

幸福里是字节跳动旗下的房产信息平台,也选择了 VMP 为其提供监控告警服务。

幸福里 APP 集内容、社区、工具于一体,用户量大,因此需要一款灵活、准确度高的监控告警工具保障应用稳定性。研发团队通过 VMP 采集容器服务 VKE 的稳定性指标并配置相应的告警,保证了幸福里平稳使用云上容器服务,有效降低运维成本。

结语

VMP 在全面兼容 Prometheus 开源生态的基础上,实现了自动化运维和高可用性,满足了用户在云原生监控领域的需求,大大减轻了用户的运维负担和使用成本。在未来,VMP 将继续围绕容器服务提供更多的优质能力,为用户提供更加全面、稳定、灵活、经济的云原生监控解决方案。

注释

① series churn: series churn 描述的是一个 time series 集合变到了不活跃状态,并且被一个新的 time series 集合取代。在 Kubernetes 中,由于 auto scaling 和 rolling update,新旧副本不断更替,series churn 对 Prometheus 性能的影响变得很大。由于旧的 time series 不会被马上回收,所以 time series 的总量会出现一个线性的增长,当总量变得很大时,一个涉及到大量 time series 的查询操作就很容易使 Prometheus OOM。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论