VKE集群中GPU节点无法获取dcgm-exporter指标

问题描述

VKE集群中的GPU节点无法通过编译安装的dcgm-exporter工具获取到GPU指标信息,当执行命令dcgm-exporter -f /etc/dcgm-exporter/dcp-metrics-included.csv指定文件时,会出现如下图所示报错信息: 图片

问题分析

  1. 在VKE集群GPU节点测试过程中,发现该问题必现。
  2. VKE集群的GPU节点使用的镜像为官方VeLinux 1.0版本镜像,单独使用该镜像创建测试实例,发现编译安装的dcgm-exporter可正常使用并且能够拿到指定的指标信息。
  3. 由于VKE在创建GPU集群时,会默认安装nvidia-device-plugin组件,结合报错信息来看,猜测为dcgm-exporter冲突。

问题解决

  1. nvidia-device-plugin组件为默认安装,需登录VKE控制台,选择目标集群,点击“运维管理”。

图片

  1. 找到nvidia-device-plugin组件,点击“卸载”。

图片

  1. 卸载完成后,再次点击安装,安装时,取消勾选“dcgm-exporter”插件。

图片

  1. 再次测试,服务正常启动监听。同时,GPU指标也已获取到。

图片 图片 如果您有其他问题,欢迎您联系火山引擎技术支持服务

0
0
0
0
评论
未登录
暂无评论