DevOps 成神之路 — 第 17 天：基础设施监控和自动扩展！ - 文章 - 开发者社区

欢迎来到我们为期 30 天的构建强大云基础设施课程的第 17 天！在本课中，我们将深入探讨基础设施监控、自动扩展和自我修复的关键方面。在本课程结束时，您将充分了解如何建立能够适应和响应不断变化的需求的弹性系统。

picture.image

什么是基础设施监控？

基础设施监控是收集、分析和解释有关云资源的运行状况、性能和可用性的数据的过程。它可以实时洞察您的基础设施状态，并帮助您在潜在问题升级之前识别它们。

与云提供商一起设置基础设施监控和自动扩展解决方案：

与云提供商建立基础设施监控和自动扩展解决方案对于维护稳定高效的云环境至关重要。让我们详细介绍一下两个流行的云提供商的流程：AWS（亚马逊网络服务）和 GCP（谷歌云平台）。

1. 与云提供商一起设置基础设施监控
：AWS — Amazon CloudWatch

Amazon CloudWatch 是 AWS 提供的一项监控服务，使您能够收集和跟踪指标、收集和监控日志文件以及设置警报。

以下是使用 Amazon CloudWatch 设置基础设施监控的分步指南：
步骤 1：启用资源监控
当您启动资源（例如 EC2 实例、RDS 数据库等）时，您可以在创建时启用监控或稍后通过 AWS 管理控制台或 AWS CLI。启用后，所选资源开始向 CloudWatch 发送指标。

步骤 2：定义警报
CloudWatch 警报允许您根据指标（例如 CPU 利用率、网络流量或错误率）定义阈值。当某个指标超过阈值时，就会触发警报，您可以选择发送通知，甚至采取自动操作。

步骤 3：创建仪表板
您可以在 CloudWatch 中创建自定义仪表板以可视化您的监控数据。仪表板可以在一个屏幕上显示多个指标、警报和其他监控元素，让您全面了解基础设施的运行状况。

步骤4：日志收集与分析（可选）
CloudWatch还提供日志管理功能，方便您收集、监控和分析日志数据。您可以设置日志组和日志流以从不同来源获取日志。

示例（通过 AWS 管理控制台设置 AWS CloudWatch 警报）：

登录 AWS 管理控制台。
从“服务”菜单导航到 CloudWatch。
在左侧边栏中，单击“警报”，然后单击“创建警报”。
选择您要为其创建警报的指标（例如，EC2 实例 CPU 利用率）。
配置警报的阈值、周期和操作（例如，发送电子邮件通知）。
单击“创建警报”。

b. GCP — Stackdriver 监控
Google Cloud 的监控服务 Stackdriver Monitoring 为 GCP 资源和应用程序提供了强大的监控功能。

以下是如何使用 Stackdriver 设置基础设施监控：
步骤 1：启用资源监控
与 AWS 类似，当您在 GCP 中创建资源（例如，Compute Engine 实例、Cloud SQL 数据库）时，您可以在设置过程中或之后通过以下方式启用监控：GCP Console 或 gcloud CLI。

步骤 2：定义警报策略
在 Stackdriver 中，您可以定义警报策略来监控指标并在满足某些条件时触发通知或操作。这些策略非常灵活，可以基于 CPU 利用率、延迟、错误率或自定义指标。

步骤 3：创建仪表板
Stackdriver 允许您创建自定义仪表板以可视化监控数据。您可以将图表、指标和日志添加到这些仪表板中，以全面了解基础设施的运行状况。

步骤 4：日志收集和分析（可选）
Stackdriver 提供类似于 CloudWatch 的日志记录功能，以帮助您收集、分析和存储来自各种来源的日志。

示例（通过 GCP Console 设置 Stackdriver 警报策略）：

登录 GCP Console。
从左侧边栏导航至“监控”。
单击“警报”，然后单击“创建策略”。
选择要监控的资源类型和指标（例如，Compute Engine 实例 CPU 利用率）。
配置条件、阈值和通知渠道（例如电子邮件、短信）。
单击“保存策略”。

与云提供商设置自动缩放 AWS — Auto Scaling
AWS Auto Scaling 允许您根据需求自动调整 EC2 实例的数量。

以下是如何使用 AWS 设置自动扩展：
步骤 1：创建 Auto Scaling 组
Auto Scaling 组是具有相似特征的 EC2 实例的集合。您可以定义组的最小、最大和所需容量。

步骤 2：配置扩展策略
扩展策略决定 Auto Scaling 组何时以及如何调整实例数量。有两种类型的扩展策略：基于目标指标的扩展（例如，将平均CPU利用率维持在60%）或基于自定义指标的扩展。

步骤 3：设置扩展触发器
您可以设置根据特定条件启动扩展操作的触发器。例如，当平均 CPU 利用率在指定时间段内超过特定阈值时，您可以进行扩展。

示例（通过 AWS 管理控制台设置 AWS Auto Scaling 组）：

登录 AWS 管理控制台。
从“服务”菜单导航到 EC2。
在左侧边栏中，单击“Auto Scaling 组”，然后单击“创建 Auto Scaling 组”。
配置组详细信息（例如实例类型、容量设置）。
定义扩展策略和触发器。
检查设置并单击“创建 Auto Scaling 组”。

b. GCP — 实例组
Google Cloud 的实例组允许您管理相同虚拟机实例的集合并使用它们进行自动扩展。

以下是如何使用 GCP 设置自动扩展：
步骤 1：创建实例模板实例
模板定义组中 VM 实例的机器类型、启动磁盘映像和其他属性。

步骤 2：设置实例组
您可以使用实例模板创建实例组。该组可以是区域性的（跨越多个区域）或区域性的（在单个区域内）。

步骤 3：配置自动扩展
您可以为实例组设置自动扩展策略，根据 CPU 利用率等指标定义何时扩展或缩减。

示例（通过 GCP Console 设置 GCP 实例组）：

登录 GCP Console。
从左侧边栏导航到“Compute Engine”。
单击“实例组”，然后单击“创建新实例组”。
配置组详细信息并选择实例模板。
根据所需条件设置自动缩放策略。
单击“创建”。

通过执行这些步骤，您可以设置针对特定云提供商量身定制的强大基础设施监控和自动扩展解决方案。这些实践将帮助您确保您的云环境高效、可靠，并且能够有效地处理不断变化的需求。

利用监控数据进行自动缩放：

为了有效地实现自动伸缩，您需要根据监控数据定义合适的伸缩策略。例如，您可以在 CPU 利用率超过某个阈值时扩大规模，或者在非高峰时段缩小规模。

示例（AWS Auto Scaling）

import boto3

Create an Auto Scaling client

autoscaling = boto3.client( 'autoscaling' )

Update Auto Scaling Group with a new desired capacity

response = autoscaling.update_auto_scaling_group(

AutoScalingGroupName=

'my-asg' ,

DesiredCapacity=

5 ,

)

print (response)

实施自我修复基础设施：

实施自我修复基础设施涉及创建一个自动检测故障并采取纠正措施而无需人工干预的系统。下面是一个示例项目，使用部署在云服务器上的简单 Web 应用程序来演示自我修复基础架构。

示例项目：自我修复 Web 应用程序

创建一个在遇到故障时自动重新启动的 Web 应用程序，确保持续可用性。

工具和技术：

编程语言：Python (Flask Framework)
云平台：AWS (Amazon Web Services)
云服务：EC2 (弹性计算云)、CloudWatch
其他技术：Boto3 (AWS SDK for Python)

步骤 1：创建 Web 应用程序
我们将使用 Flask 框架创建一个基本的 Web 应用程序。该应用程序将有一个简单的端点，以“Hello, World!”作为响应。

app.py

from flask import Flask

app = Flask(__name__)

@app.route('/')

def

hello ():

return

'Hello, World!'

if __name__ == '__main__' :

app.run(host=

'0.0.0.0' , port= 80 )

步骤 2：在 EC2 上部署 Web 应用程序
我们将在 AWS 上启动一个 EC2 实例并在其上部署 Flask 应用程序。为简单起见，我们将使用默认的 Amazon Linux AMI。

步骤 3：创建自我修复脚本
我们将编写一个在 EC2 实例上运行并持续监控 Web 应用程序的 Python 脚本。如果应用程序停止响应，脚本将自动重新启动 Flask 服务器。

self_healing.py

import requests

import subprocess

import time

def

is_application_running ():

try :

    response = requests.get(

'http://localhost/' )

return response.status_code == 200

except requests.RequestException:

return

False

def

restart_application ():

subprocess.run([

'sudo' , 'systemctl' , 'restart' , 'my-flask-app' ])

def

main ():

while

True :

not is_application_running():

print ( "Application is not responding. Restarting..." )

        restart\_application()

else :

print ( "Application is running fine." )

    time.sleep(

5 )

if __name__ == '__main__' :

main()

步骤 4：设置 CloudWatch 警报
我们将配置一个 CloudWatch 警报来监控 EC2 实例的 CPU 利用率。如果CPU利用率超过一定阈值，就会触发伸缩组更换实例。

步骤 5：部署自我修复脚本
我们将在 EC2 实例上安装自我修复脚本，并使用 Supervisord 等进程管理器在后台运行它。

步骤 6：测试自我修复
现在，您可以通过手动停止 Flask 应用程序或导致 CPU 使用率过高来模拟故障场景。自我修复脚本将检测故障并自动重新启动应用程序。此外，如果 CPU 利用率超过阈值，该实例将被 CloudWatch 警报触发替换。

因此，自我修复基础设施是一个强大的概念，可以提高基于云的应用程序的可用性和可靠性。通过结合监控、自动检测和纠正措施，您可以创建一个无需人工干预即可从故障中恢复并保持高服务水平的系统。

让我们分析一些有关基础设施监控和自动扩展的面试问题！

您如何使用 AWS CloudWatch 设置基础设施监控？
解释日志收集和分析在基础设施监控中的重要性？
解释一下 AWS Auto Scaling 中基于目标指标的扩展和基于自定义指标的扩展之间的区别？
如何确保平滑的自动扩展而不导致资源突然激增？
自愈系统应该能够处理哪些常见的故障场景？
监控在自我修复基础设施中发挥什么作用？

恭喜！您现在已经了解了如何设置基础设施监控、实施自动扩展以及创建自我修复系统。这些实践对于构建有弹性且高效的云基础设施至关重要。请继续关注我们有关保护云环境的下一课。

知识星球

可加入我的知识星球，我们一起探索devops的成神之路。

后台留言较多，来不及回复，那么我们星球见！

picture.image

微信号 ｜ HELLO程序员

视频号｜ iron.guo