Kafka运维篇之使用SMM监控Kafka集群复制

技术

继之前《Kafka运维篇之初识Streams Messaging Manager》、《Kafka运维篇之使用SMM监控Kafka集群》和《Kafka运维篇之使用SMM预警策略管理Kafka预警》之后。我们今天介绍使用使用 SMM 监控 Kafka 集群的复制。

监视集群复制概述

您可以使用Streams Replication Manager(SRM)在SMM中实现跨集群的KafkaTopic复制。 SRM是一种企业级复制解决方案,可实现容错,可扩展且健壮的跨集群KafkaTopic复制。SRM提供了动态更改配置的功能,并使Topic属性在高性能的集群之间保持同步。SRM还提供了自定义扩展,可促进安装,管理和监视,从而使SRM成为针对任务关键型工作负载构建的完整复制解决方案。有关SRM的更多信息,请参阅Streams Replication Manager for HDF和HDP文档库。 您需要在SMM中配置SRM属性。在SMM中配置SRM之后,可以使用SMM来监视环境中可用的所有Kafka集群复制。您可以在SMM中查看所有复制详细信息。您可以在SMM中监视Kafka集群复制的状态,与复制关联的Topic数,吞吐量,复制延迟以及Kafka集群复制的检查点延迟。

注意

您还可以根据在预警策略中配置的条件创建预警以接收通知,以监视系统中的Kafka集群复制。

查看复制详细信息

选择集群后,SMM将显示复制的详细信息,其中所选集群是目标集群。

您可以查看复制的状态,源集群名称,目标集群名称,要复制的Topic数,消费者组数,复制的吞吐量,复制延迟和检查点延迟。SMM还显示两个图形,一个表示复制的吞吐量,另一个显示复制的复制等待时间以及每个要复制Topic的详细信息。 执行以下步骤以查看集群复制的详细信息:

在 “ 集群复制 ” 页面中,单击集群复制或复制旁边的下拉图标,如下图所示:

picture.image

复制详细信息如下图所示:

picture.image

按源搜索集群复制

您可以使用页面右上方的按源搜索栏按源集群名称搜索集群复制。例如,如果目标集群是amsterdam,并且在“按源搜索”栏中输入scottsdale,则SMM将显示scottsdale和amsterdam之间的Kafka集群复制,如下图所示:

picture.image

通过快速范围监视集群复制

您可以按时间范围过滤集群复制。您可以从下拉列表中选择以下任何过滤器值,以显示所选时间范围内的集群复制详细信息:

• 最近 1 小时

• 最近 6 小时

• 最近 24 小时

• 最近 2 天

下图显示了“ 快速范围”下拉列表:

picture.image

监视要复制的集群的状态

您可以在“集群复制”页面的“状态”列中监视Kafka集群复制的状态。

状态具有三种变化:

• 活性。表示集群复制正在运行。

• 无效。指示集群复制未在运行。

• 警告。表示集群复制面临问题。

如果Kafka集群复制的状态显示为非活动或警告,请检查日志,并对复制进行故障排除。

监视要复制的Topic

您可以在“集群复制”页面的“Topic”列中监视与复制关联的Topic数。 单击集群复制以获取Topic详细信息。SMM显示有关Topic的以下详细信息:

• 源 Topic 名称。源中 Topic 的名称。

• 分区。源上 Topic 的分区数。

• 消费者组。消费该 Topic 数据的消费者组的数量。

• 吞吐量。每秒从一个 Topic 在源集群和目标集群之间复制的数据。吞吐量以每秒字节数为单位。默认情况下, SMM 显示平均吞吐量。您还可以通过单击 Topic 详细信息上方的 MAX 或 MIN 按钮来获取 Topic 的最大或最小吞吐量。

• 复制延迟。 Topic 消息从源集群复制到目标集群所花费的时间。复制等待时间以毫秒为单位。默认情况下, SMM 显示平均复制延迟。您还可以通过单击 Topic 详细信息上方的 MAX 或 MIN 按钮来获取 Topic 的最大或最小复制延迟。

• 检查点延迟。将 Topic 的消息提交到源集群后,将其发送到目标集群上的检查点所花费的时间。检查点等待时间以毫秒为单位。默认情况下, SMM 显示平均检查点延迟。您还可以通过单击 Topic 详细信息上方的 MAX 或 MIN 按钮来获取 Topic 的最大或最小检查点延迟。

下图显示了集群复制中Topic的详细信息:

picture.image

在该图中,您可以看到从CDFCluster复制到CDFClusterDR的Topic数为7,Topic详细信息包括Topic名称,源集群中Topic的分区数,使用每个Topic的消息的消费者组的数量,每个Topic的吞吐量,复制延迟和检查点延迟。

按Topic名称搜索

您可以使用“按Topic名称搜索”栏按名称搜索Topic并获取该Topic的详细信息。下图显示了CDFCluster__heartbeatsTopic的详细信息:

picture.image

监视集群复制的吞吐量

您可以在SMM中监视Kafka集群复制的吞吐量。 吞吐量定义为每秒在源集群和目标集群之间复制的数据。吞吐量以每秒字节数为单位。

picture.image

在该图像中,您可以看到CDFCluster到CDFClusterDR复制的平均吞吐量为每秒3个字节。您可以通过单击集群复制上方的MAX或MIN按钮来获取复制的最大或最小吞吐量。 您还可以以图形方式监视集群复制的吞吐量。SMM在集群详细信息中显示每个集群的吞吐量图。下图显示了CDFCluster到CDFClusterDR复制的吞吐量图:

picture.image

监视复制延迟以进行集群复制

您可以在SMM中监视Kafka集群复制的复制延迟。 复制等待时间定义为消息从源集群复制到目标集群所花费的时间。复制等待时间以毫秒为单位。

picture.image

在该图像中,您可以看到CDFCluster到CDFClusterDR复制的平均复制延迟为16.0毫秒。您可以通过单击集群复制上方的MAX或MIN按钮来获取复制的最大或最小复制延迟。 您可以以图形方式监视集群复制的复制延迟。SMM在集群详细信息中显示每个集群的“复制延迟”图。下图显示了CDFCluster到CDFClusterDR复制的复制延迟图:

picture.image

监视集群复制的检查点延迟

您可以在SMM中监视Kafka集群复制的检查点延迟。 检查点等待时间定义为Topic消息在源集群上提交后,在目标集群上到达目标集群的检查点所花费的时间。检查点等待时间以毫秒为单位。

picture.image

在该图像中,您可以看到CDFCluster到CDFClusterDR复制的平均检查点延迟为4.6毫秒。您可以通过单击集群复制上方的MAX或MIN按钮来获取复制的最大或最小复制延迟。

注意

如果集群复制或Topic的检查点延迟显示为“不可用”,则意味着未定义消费者组。

通过值监视吞吐量和延迟

您可以获取吞吐量,复制延迟和检查点延迟的平均值,最大值和最小值。 您可以在以下级别上执行此操作:

• 集群复制级别。单击 AVG , MAX 或 MIN 按钮,如下图所示,以获取集群复制的吞吐量,复制延迟和检查点延迟的平均值,最大值或最小值。

picture.image

• Topic 级别。单击 AVG , MAX 或 MIN 按钮,如下图所示,以获取 Topic 的吞吐量,复制延迟和检查点延迟的平均值,最大值或最小值。

picture.image

来源:https://docs.cloudera.com/csp/2.0.1/monitoring-kafka-cluster-replications/topics/smm-monitoring-replications-overview.html

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生数据库 veDB 核心技术剖析与展望
veDB 是一款分布式数据库,采用了云原生计算存储分离架构。本次演讲将为大家介绍火山引擎这款云原生数据库的核心技术原理,并对未来进行展望。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论