场景介绍
在使用云搜索服务时,我们建议您重点关注如下指标和监控,并配置相应的告警,有如下两个目的:
- 对已经出现的异常进行快速定位,在最短的时间内消除影响。
- 在整个集群潜在的问题进行事前发现并修正,保证业务的稳定性。
本文会介绍在云搜索服务中,我们需要重点关注的,基础且重要的指标和监控
运行状态相关
监控整个集群中的节点,是否处于健康状态检查异常,您可以在云搜索控制台查看相关实例拓扑和状态。 我们建议您在云监控中,重点对如下指标配置更高级别的告警:
- 实例数据节点数
- 实例健康状态(0=Green 1=Yellow 2=Red 3=Lost),如果为 Red,Lost 需要重点关注。Red 状态表明一个或多个主分片无法分配,Lost 代表实例离线。
- 集群磁盘平均使用率 & 最大使用率:在磁盘达到水位线之后,集群可能会出现异常状态,需要关注平均使用率和最大使用率(数据倾斜)
集群性能相关
关于集群性能,基础且重要的指标包括:
- 节点 CPU 使用率:可以查看慢日志,结合 hot_thread API 进行分析
- 节点 JVM heap 内存使用率:过高的 JVM heap 可能导致 OOM,需要检查 shard,segment 是否过多,或是请求量激增,查询不够优化等可能原因。
- JVM 老年代每分钟 GC 次数
其他基础指标
- 节点 shard 是否过多,最大值由 cluster.max_shards_per_node 控制,默认值为 1000
GET _cat/allocation?h=shards,node&v
shards node
12 es-master-xxxxxx-1
11 es-master-xxxxxx-2
12 es-master-xxxxxx-0
- 节点是否存在超大索引,考虑分片设置是否合理
GET /_cat/indices?v&s=store.size:desc
- 在云搜索服务中,单个分片存储的文档数不能超过 21 亿,检查文档数是否快接近阈值,避免写入报错。
# 查看 docs 列是否超过额定数额
GET /_cat/shards?v&s=docs:desc
参考文档
- 如何配置云搜索服务指标告警:https://www.volcengine.com/docs/6465/106099
- 如何查看实例监控:https://www.volcengine.com/docs/6465/70790
如果您有其他问题,欢迎您联系火山引擎技术支持服务