云搜索服务需要重点关注的指标

容器与中间件中间件技术服务知识库
场景介绍

在使用云搜索服务时,我们建议您重点关注如下指标和监控,并配置相应的告警,有如下两个目的:

  • 对已经出现的异常进行快速定位,在最短的时间内消除影响。
  • 在整个集群潜在的问题进行事前发现并修正,保证业务的稳定性。

本文会介绍在云搜索服务中,我们需要重点关注的,基础且重要的指标和监控

运行状态相关

监控整个集群中的节点,是否处于健康状态检查异常,您可以在云搜索控制台查看相关实例拓扑和状态。 图片 我们建议您在云监控中,重点对如下指标配置更高级别的告警:

  1. 实例数据节点数
  2. 实例健康状态(0=Green 1=Yellow 2=Red 3=Lost),如果为 Red,Lost 需要重点关注。Red 状态表明一个或多个主分片无法分配,Lost 代表实例离线。
  3. 集群磁盘平均使用率 & 最大使用率:在磁盘达到水位线之后,集群可能会出现异常状态,需要关注平均使用率和最大使用率(数据倾斜)
集群性能相关

图片 关于集群性能,基础且重要的指标包括:

  1. 节点 CPU 使用率:可以查看慢日志,结合 hot_thread API 进行分析
  2. 节点 JVM heap 内存使用率:过高的 JVM heap 可能导致 OOM,需要检查 shard,segment 是否过多,或是请求量激增,查询不够优化等可能原因。
  3. JVM 老年代每分钟 GC 次数
其他基础指标
  1. 节点 shard 是否过多,最大值由 cluster.max_shards_per_node 控制,默认值为 1000
GET _cat/allocation?h=shards,node&v
shards node
    12 es-master-xxxxxx-1
    11 es-master-xxxxxx-2
    12 es-master-xxxxxx-0
  1. 节点是否存在超大索引,考虑分片设置是否合理
GET /_cat/indices?v&s=store.size:desc
  1. 在云搜索服务中,单个分片存储的文档数不能超过 21 亿,检查文档数是否快接近阈值,避免写入报错。
# 查看 docs 列是否超过额定数额
GET /_cat/shards?v&s=docs:desc
参考文档

如果您有其他问题,欢迎您联系火山引擎技术支持服务

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论