由于nouveau模块导致Nvidia GPU operator无法正常运行

问题描述

centos7.9系统中部署k8s,然后通过Nvidia GPU operator的方式运行Nvidia驱动,发现pod一直不能处于ready状态。

问题分析

查看Nvidia driver pod event无法获取有用信息,通过查看pod日志收集到以下信息。 image

问题解决

需要从系统中去掉nouveau, rivafb, nvidiafb or rivatv这些模块。 1.把驱动加入黑名单中

cat /etc/modprobe.d/blacklist.conf
blacklist nouveau
options nouveau modeset=0

2.备份initramfs nouveau image镜像

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

3.使用dracut重新建立initramfs nouveau

dracut -v /boot/initramfs-$(uname -r).img $(uname -r)

4.重启系统

reboot

5.确认是否加载

lsmod | grep nouveau

6.确认Nvidia pod是否正常启动

kubectl get pod -n <GPU-namespace>
参考文档

https://docs.nvidia.com/datacenter/cloud-native/kubernetes/install-k8s.html#step-0-configuring-the-system

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论