进入系统的syslog
或dmesg
中查看在出错时间附近是否有“xid”错误,“xid”错误信息包含NVRM: Xid
,例如“xid”错误值为63:
[Mon Jan 9 13:49:48 2023] NVRM: Xid (PCI:0000:6b:01): 63, pid=4881, Row Remapper: New row marked for remapping, reset gpu to activate.
说明
当出现以上“xid”错误63并提示“reset gpu”问题时,可以使用以下命令查看问题GPU.
nvidia-smi -q | grep -Ei "ECC Errors|Correctable|Volatile|Aggregate|Remap|^GPU|Bit ECC|Retired Pages"
例如下图GPU 6在remmap rows
出现了不可修复的错误:
执行以下命令,查看nvidia-fabricmanager运行状态是否正常,回显Active: active (running)
则表示正常。systemctl status nvidia-fabricmanager
执行nvidia-smi -r命令进行修复。