You need to enable JavaScript to run this app.
导航
nvidia-fabricmanager.service状态异常解决方案
最近更新时间:2024.10.18 17:12:44首次发布时间:2024.07.26 10:20:39

本文主要介绍如何排查和解决GPU实例在使用过程中,出现“nvidia-fabricmanager.service”的异常问题。

操作步骤

  1. 登录目标实例,操作详情可参考登录Linux实例

  2. 请执行如下命令,确认nvidia-fabricmanager状态是否为active (running)

    systemctl status nvidia-fabricmanager.service
    

    正常运行示例如下
    alt

  3. 若不是active (running)状态,请进行如下操作:

    1. 请确认实例是否需要nvidia-fabricmanager.service服务。
      仅高性能计算GPU型实例需要nvidia-fabricmanager.service服务,其他实例中的nvidia-fabricmanager服务状态异常或不存在,视为正常情况。关于高性能计算GPU型

    2. 请确认实例上的nvidia-fabricmanager.service服务版本和驱动版本是否配套。

      1. 执行如下命令,查看服务版本。

        /usr/bin/nv-fabricmanager -v
        

        alt

      2. 执行如下命令,查看驱动版本。

        nvidia-smi
        
      3. 对比两者的版本是否一致。

        • 若版本不一致,请保持一致,服务才能正常启动。
        • 若版本一致,执行如下命令,重启并检查服务状态。
          systemctl restart nvidia-fabricmanager.service 
          
      4. 若还未解决您的问题,请提交工单获取技术支持。