在GPU实例中安装配置dcgm-exporter

计算弹性计算技术服务知识库

测试环境:VeLinux 1.0

创建并连接GPU实例

安装CUDA驱动

  • 下载并安装CUDA

依次执行以下命令,完成CUDA的下载。

nvidia-smi //查看该实例驱动信息
wget https://developer.download.nvidia.com/compute/cuda/11.4.1/local_installers/cuda_11.4.1_470.57.02_linux.run  //下载对应版本CUDA
sudo sh cuda_11.4.1_470.57.02_linux.run //完成CUDA安装
nvidia-smi //安装后,再次执行该命令查看驱动信息,确保安装成功

下载CUDA时,建议在官网https://developer.nvidia.com/cuda-toolkit-archive,根据Driver版本进行CUDA版本选择后再进行安装。

  • 配置CUDA环境变量
vim ~/.bashrc
//将以下信息填入配置文件中
export PATH=$PATH:/usr/local/cuda-11.4/bin
export LD\_LIBRARY\_PATH=$LD\_LIBRARY\_PATH:/usr/local/cuda-11.4/lib64
//执行以下命令,使环境变量生效
source ~/.bashrc
nvcc -V //验证CUDA安装

图片

安装docker

  1. 依次执行以下命令安装docker-ce;
sudo apt-get update
sudo apt-get install \
    ca-certificates \
    curl \
    gnupg \
    lsb-release
sudo mkdir -p /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/debian/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
echo \
  "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/debian \
  $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt update
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-compose-plugin
docker version //查看docker容器版本信息,出现如下回显,表明安装成功

图片

  1. 依次执行以下命令安装nvidia-docker(可选)。
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
apt update
apt install -y nvidia-docker2 //安装nvidia-docker2容器
systemctl daemon-reload
systemctl restart docker //重启docker容器

软件配置

更多信息可参考Nvidia官方地址:NVIDIA HGX A100 Software User Guide :: NVIDIA Tesla Documentation

  • 开启FM服务
sudo systemctl start nvidia-fabricmanager //执行以下命令启动Fabric Manager服务。
sudo systemctl status nvidia-fabricmanager //执行以下命令查看Fabric Manager服务是否正常启动,回显active(running)表示启动成功。
sudo systemctl enable nvidia-fabricmanager //执行以下命令配置Fabric Manager服务随实例开机自启动。
  • NVSwitch配置和查询库(NSCQ)
apt search libnvidia-nscq-*
sudo apt-get install -y libnvidia-nscq-470 //根据CUDA Driver版本确定
ls -ol /usr/lib/x86_64-linux-gnu/libnvidia-nscq*
nv-hostengine --version

图片

  • 安装DCGM
sudo nv-hostengine -t //安装DCGM前,确保没有nv-hostengine运行
sudo apt remove datacenter-gpu-manager //删除之前的安装
sudo apt-key del 7fa2af80 //从系统中删除任何旧的 GPG 密钥
distribution=$(. /etc/os-release;echo $ID$VERSION_ID | sed -e 's/\.//g') //确定分布式名称
wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb //安装存储库元数据和 CUDA GPG 密钥
sudo apt-get update
sudo apt-get install -y datacenter-gpu-manager //安装dcgm
sudo systemctl --now enable nvidia-dcgm //启用 DCGM systemd 服务(重启时)并立即启动
systemctl start dcgm
systemctl status dcgm 
dcgmi discovery -l //要验证安装,请使用dcgmi查询系统。您应该会看到系统中所有支持的 GPU(以及任何 NVSwitch)的列表
dcgmi nvlink -s //检查 DCGM 是否可以枚举系统中存在的 NVLink

图片 图片

运行dcgm-exporter

更多信息可参考官方地址:DCGM-Exporter ‒ NVIDIA Cloud Native Technologies documentation

DCGM_EXPORTER_VERSION=2.1.4-2.3.1 && \
docker run -d --rm \
   --gpus all \
   --net host \
   --cap-add SYS_ADMIN \
   nvcr.io/nvidia/k8s/dcgm-exporter:${DCGM_EXPORTER_VERSION}-ubuntu20.04 \
   -f /etc/dcgm-exporter/dcp-metrics-included.csv //dcgm-exporter版本号取决于您拉取的镜像的版本号
ss -lntp //检查localhost对应端口
curl localhost:9400/metrics //检索指标

图片 可成功获取到GPU卡信息。 如果您有其他问题,欢迎您联系火山引擎技术支持服务

147
0
0
0
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论