You need to enable JavaScript to run this app.
导航
NVIDIA驱动FAQ
最近更新时间:2024.08.12 14:12:29首次发布时间:2022.03.02 14:59:27

NVIDIA Tesla驱动问题

哪些实例需要安装NVIDIA Tesla驱动?

GPU计算型和高性能计算GPU型实例推荐安装NVIDIA Tesla驱动(GPU驱动、CUDA工具包等),具体规格族请参见实例规格介绍

实例如何安装GPU驱动?

方式一:创建GPU实例时同时安装Tesla驱动

驱动安装方式
支持的镜像版本
后台自动安装创建实例时,支持选择常规版的Linux或veLinux镜像,并勾选“后台自动安装GPU驱动”(默认勾选),系统将自动安装指定版本的GPU驱动、CUDA和cuDNN库。具体请参见使用自动安装GPU驱动的常规版镜像
自动加载驱动GPU版的Linux和veLinux公共镜像中默认安装了GPU驱动,使用该类镜像创建的GPU实例将自带指定版本的GPU驱动,CUDA则需要您在创建实例后自行安装。具体请参见使用预装GPU驱动的GPU版镜像

方式二:创建GPU实例后单独安装GPU驱动

若您使用公共镜像创建GPU实例时未选择安装GPU驱动,或者使用自定义镜像创建GPU实例,为确保您能够正常使用实例,请参考安装GPU驱动安装CUDA工具包安装NVIDIA-Fabric Manager软件包手动安装驱动。

Nvidia驱动安装成功,但执行nvidia-smi命令无效,显示驱动未安装,该如何排查?

问题分析:可能是kernel-devel和kernel版本不一致,导致在安装RPM包过程中驱动程序编译出错。

解决方案:在实例内运行rpm -qa | grep $(uname -r)命令查看kernel和kernel-devel的版本号,检测版本是否一致。若不一致,请从正规渠道下载对应的kernel-devel包,再重新安装驱动。

执行nvidia-smi命令查看的CUDA版本和实际的安装版本为何不一致?

执行nvidia-smi命令查询到的CUDA版本代表您的GPU实例可以支持的最高CUDA版本,并不代表您实际安装的CUDA版本。

如何查询GPU显卡的详细信息?

不同操作系统的GPU实例,查看GPU显卡信息的操作如下:

  • Linux操作系统,您可以执行nvidia-smi命令,查看GPU显卡的详细信息。

  • Windows操作系统,您可以在设备管理器中查看GPU显卡的详细信息。

如果您想了解GPU卡的运行和使用情况,请参考云监控概述查看。

为什么A100/A800显卡间网络无法互通?

搭载多张A100/A800显卡的实例需要安装NVIDIA-Fabric Manager软件包实现多A100/A800显卡间通过NVSwitch互联。

  • 公共镜像默认已安装NVIDIA-Fabric Manager软件包,您只需启动NVIDIA-Fabric Manager即可实现互联。
  • 如果您使用未内置NVIDIA-Fabric Manager软件包的自定义镜像,购买了搭载多张A100/A800显卡的GPU型实例后,则必须安装与GPU驱动版本对应的NVIDIA-Fabric Manager软件包,否则将无法正常使用实例。安装操作请参见安装NVIDIA-Fabric Manager软件包

如何查看NVSwitch GPU显卡间带宽?

搭载A100/A800显卡的实例支持通过NVSwitch互联,如需了解NVSwitch GPU-to-GPU bandwidth,请参见NVIDIA官网

如何升级NVIDIA Tesla驱动?

如果GPU实例中安装的Tesla驱动版本不适用于当前场景,或您安装了错误的驱动版本导致GPU实例无法使用,您可以升级Tesla驱动。升级Tesla驱动时,需要先卸载当前的Tesla驱动,然后再重新安装新版本的Tesla驱动。

  1. 卸载Tesla驱动。
    1. 卸载GPU驱动和CUDA工具包
    2. (条件必选)卸载NVIDIA-Fabric Manager软件包。如果是搭载A100/A800显卡的GPU实例,则需要卸载NVIDIA-Fabric Manager软件包。
  2. 安装新的Tesla驱动。
    1. 安装GPU驱动
    2. 安装CUDA工具包
    3. (条件必选)安装NVIDIA-Fabric Manager软件包。如果是搭载A100/A800显卡的GPU实例,则需要安装与GPU驱动版本对应的NVIDIA-Fabric Manager软件包,否则无法正常使用GPU实例。

NVIDIA GRID驱动问题

哪些实例推荐安装NVIDIA GRID驱动?

GPU渲染型实例推荐安装GRID驱动来满足图形图像处理(3D渲染,视频编码/解码)的需求,渲染型实例规格族请参见实例规格介绍

GPU计算型实例支持安装GRID驱动吗?

支持。GRID驱动用于获得GPU卡的图形加速能力,适用于OpenGL等图形计算的场景。您需通过NVIDIA官方渠道购买NVIDIA GRID License后安装,具体操作请参见安装NVIDIA GRID驱动

为什么Windows系统的GPU实例安装GRID驱动后,使用VNC登录出现黑屏?

Windows系统的GPU实例安装GRID驱动后,VM的显示输出将由GRID驱动管理,VNC无法再获取到集成显卡的画面,因此,VNC显示会变成黑屏状态,属于正常现象。建议您使用ECS Terminal方式登录GPU实例,具体操作请参见通过控制台登录Windows实例

如何升级NVIDIA GRID驱动?

若安装的GRID驱动版本无法满足您的业务需求,您可以:

  1. 卸载GRID驱动
  2. 通过NVIDIA官方渠道获取新的GRID驱动安装包后,安装GRID驱动

Nvidia ECC Mode问题

什么是ECC Mode?

ECC (Error Correcting Code) 是一种实现内存错误检查和纠正的技术,通过GPU驱动开启ECC Mode后,驱动会通过消耗一部分显存作为校验位来对数据损坏进行发现,一般情况下损坏可进行自动修正,当无法自动修正时认为显存出现UE(Uncorrectable Error),需要通过Dynamic Page Retirement或者Row Remapping进行坏区规避。

如何查看实例的ECC状态?

登录GPU云服务器,执行如下命令即可查看当前ECC状态。

nvidia-smi -q -d ecc

alt

什么情况下应该关闭或者打开ECC?

通常情况下,对于渲染型业务建议关闭ECC,对于计算型业务建议开启ECC。由于ECC本身会占用显存并伴随性能损失,存在部分计算场景会关闭ECC的情况,但存在风险,通常不建议这样操作。

为什么在GPU云服务器上开启/关闭ECC不生效?

问题现象:部分用户使用GPU云服务器时,通过驱动设置ECC Mode,重启实例以后查询显示设置未生效。

问题原因:这是因为NVIDIA Tesla 535及以上版本驱动,Legacy Persistence Mode支持不佳。

解决办法:需要开启Persistence Daemon启用新版持久化功能,再进行ECC设置,操作步骤如下:

  1. 登录GPU云服务器
  2. 执行以下命令,开启Persistence Mode。本文参考Persistence Daemon方式开启Persistence Mode。
    sudo nvidia-persistenced --user <username>    # 运行Persistence Daemon,username为您的用户名
    nvidia-smi -pm 1    	                        # 开启Persistence Mode
    
  3. 执行如下命令,进行ECC设置。
    nvidia-smi -pm 0                           	# 关闭Persistence Mode
    nvidia-persistenced --persistence-mode    	# 启动Persistence Daemon
    nvidia-smi -e 1                            	# 开启ECC Mode(1为Enable,0为Disable)
    reboot now                                	# 重启OS
    
  4. 重新登录云服务器后可通过以下命令查询ECC开启状态。
    nvidia-smi -q -d ecc