云搜索服务需要重点关注的指标 - 文章 - 开发者社区

场景介绍

在使用云搜索服务时，我们建议您重点关注如下指标和监控，并配置相应的告警，有如下两个目的：

本文会介绍在云搜索服务中，我们需要重点关注的，基础且重要的指标和监控

运行状态相关

监控整个集群中的节点，是否处于健康状态检查异常，您可以在云搜索控制台查看相关实例拓扑和状态。我们建议您在云监控中，重点对如下指标配置更高级别的告警：

实例数据节点数
实例健康状态(0=Green 1=Yellow 2=Red 3=Lost)，如果为 Red，Lost 需要重点关注。Red 状态表明一个或多个主分片无法分配，Lost 代表实例离线。
集群磁盘平均使用率 & 最大使用率：在磁盘达到水位线之后，集群可能会出现异常状态，需要关注平均使用率和最大使用率(数据倾斜)

集群性能相关

关于集群性能，基础且重要的指标包括：

节点 CPU 使用率：可以查看慢日志，结合 hot_thread API 进行分析
节点 JVM heap 内存使用率：过高的 JVM heap 可能导致 OOM，需要检查 shard，segment 是否过多，或是请求量激增，查询不够优化等可能原因。
JVM 老年代每分钟 GC 次数

其他基础指标

GET _cat/allocation?h=shards,node&v
shards node
    12 es-master-xxxxxx-1
    11 es-master-xxxxxx-2
    12 es-master-xxxxxx-0

GET /_cat/indices?v&s=store.size:desc

# 查看 docs 列是否超过额定数额
GET /_cat/shards?v&s=docs:desc

参考文档

如果您有其他问题，欢迎您联系火山引擎技术支持服务