You need to enable JavaScript to run this app.
导航
自动安装 GPU 驱动
最近更新时间:2024.11.14 19:43:15首次发布时间:2024.11.14 19:43:15

容器服务为 NVIDIA GPU 节点池提供自动安装 GPU 驱动功能,基于公共镜像创建的节点可在 GPU 相关规则族下实现自动安装 GPU 驱动。本文为您介绍如何为 GPU 节点自动安装 GPU 驱动。

背景信息

VKE Nvidia GPU 节点池支持通过标签 vke.volcengine.com/nvidia-driver-version 选择驱动版本,目前可选的驱动版本范围如下:

  • 470.161.03
  • 535.129.03
  • 535.183.06

使用限制

  • 免责声明:此功能无法保证所有驱动在所有卡型下可用,因此,需要自行保证选择的 GPU 驱动版本与 GPU 型号匹配,并进行充分测试,否则可能导致性能降低或存在未知风险。
  • 若需要使用自动安装 GPU 驱动功能,节点配置需要注意以下情况:
    • 系统镜像:目前仅支持公共镜像中的 veLinux 标准版和 Ubuntu。
    • 计算规格:目前仅支持使用高性能计算 GPU 型或部分 GPU 计算型(不包括 vws 结尾的 GPU 渲染型)规格族。
  • 目前仅支持部分 GPU 驱动版本,若不满足实际使用场景,可自定义安装 GPU 驱动,更多详细介绍参见:自定义安装 GPU 驱动

操作步骤

通过节点池添加节点标签的方式配置自动安装 GPU 驱动相关信息,当节点添加到节点池时,系统将自动安装配置的 GPU 驱动。

注意

仅当节点添加到节点池时,才会根据节点池中的节点标签识别并触发驱动安装。常见使用场景如下:

  • 新建节点池场景,所有节点均属于新添加到节点池的节点,均能够根据节点池中的节点标签识别并触发驱动安装,推荐此方式使用自定义 GPU 驱动功能。
  • 针对已有节点池中的新增节点,依然属于新添加到节点池的节点,能够根据节点池中的节点标签识别并触发驱动安装。
  • 针对已有节点池中的存量节点,不属于新添加到节点池中的节点,无法根据节点池中的节点标签识别并触发驱动安装。参考解决方案如下:
    • 方案一:确保不影响业务正常运行的前提下手动移除存量节点,并通过添加已有节点方式重新添加。
    • 方案二:确保不影响业务正常运行的前提下使用节点扩缩容功能将存量节点全部缩容,然后重新扩容节点。

本文以创建节点池为例进行介绍,节点池添加节点标签的操作步骤如下:

  1. 登录 容器服务控制台,单击目标集群名称进入集群管理页面。
  2. 在左侧导航栏选择 节点池,进入节点池管理页面。
  3. 单击 创建节点池 或已有节点池右侧操作列的 编辑,在 更多配置 中为节点池添加节点标签 vke.volcengine.com/nvidia-driver-version,完成后单击 确定

alt

警告

务必确保使用的驱动版本在 GPU 卡型支持的范围内,若超出卡型支持范围,将因 GPU 驱动无法安装,导致节点扩容失败。