本文主要介绍如何排查和解决GPU实例在使用过程中,出现“nvidia-fabricmanager.service”的异常问题。
登录目标实例,操作详情可参考登录Linux实例。
请执行如下命令,确认nvidia-fabricmanager
状态是否为active (running)
。
systemctl status nvidia-fabricmanager.service
正常运行示例如下
若不是active (running)
状态,请进行如下操作:
请确认实例是否需要nvidia-fabricmanager.service服务。
仅高性能计算GPU型实例需要nvidia-fabricmanager.service服务,其他实例中的nvidia-fabricmanager
服务状态异常或不存在,视为正常情况。关于高性能计算GPU型。
请确认实例上的nvidia-fabricmanager.service
服务版本和驱动版本是否配套。
执行如下命令,查看服务版本。
/usr/bin/nv-fabricmanager -v
执行如下命令,查看驱动版本。
nvidia-smi
对比两者的版本是否一致。
systemctl restart nvidia-fabricmanager.service
若还未解决您的问题,请提交工单获取技术支持。