由于nouveau模块导致Nvidia GPU operator无法正常运行

问题描述

centos7.9系统中部署k8s,然后通过Nvidia GPU operator的方式运行Nvidia驱动,发现pod一直不能处于ready状态。

问题分析

查看Nvidia driver pod event无法获取有用信息,通过查看pod日志收集到以下信息。 image

问题解决

需要从系统中去掉nouveau, rivafb, nvidiafb or rivatv这些模块。 1.把驱动加入黑名单中

cat /etc/modprobe.d/blacklist.conf
blacklist nouveau
options nouveau modeset=0

2.备份initramfs nouveau image镜像

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

3.使用dracut重新建立initramfs nouveau

dracut -v /boot/initramfs-$(uname -r).img $(uname -r)

4.重启系统

reboot

5.确认是否加载

lsmod | grep nouveau

6.确认Nvidia pod是否正常启动

kubectl get pod -n <GPU-namespace>
参考文档

https://docs.nvidia.com/datacenter/cloud-native/kubernetes/install-k8s.html#step-0-configuring-the-system

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

所属团队号:
相关资源
边缘计算在视频直播场景的应用与实践
视频直播作为当前视频行业的核心场景之一,对于高清化、实时性、交互性要求较高,需要强大算力保障用户流畅观看与互动体验。本次分享主要从视频直播场景需求切入,介绍基于边缘计算的视频直播场景方案及其架构、应用与实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论