问题描述
VKE集群中的GPU节点无法通过编译安装的dcgm-exporter工具获取到GPU指标信息,当执行命令dcgm-exporter -f /etc/dcgm-exporter/dcp-metrics-included.csv指定文件时,会出现如下图所示报错信息:

问题分析
- 在VKE集群GPU节点测试过程中,发现该问题必现。
- VKE集群的GPU节点使用的镜像为官方VeLinux 1.0版本镜像,单独使用该镜像创建测试实例,发现编译安装的dcgm-exporter可正常使用并且能够拿到指定的指标信息。
- 由于VKE在创建GPU集群时,会默认安装nvidia-device-plugin组件,结合报错信息来看,猜测为dcgm-exporter冲突。
问题解决
- nvidia-device-plugin组件为默认安装,需登录VKE控制台,选择目标集群,点击“运维管理”。

- 找到nvidia-device-plugin组件,点击“卸载”。

- 卸载完成后,再次点击安装,安装时,取消勾选“dcgm-exporter”插件。

- 再次测试,服务正常启动监听。同时,GPU指标也已获取到。
如果您有其他问题,欢迎您联系火山引擎技术支持服务。

