购买高性能计算GPU型实例--GPU云服务器-火山引擎

文档中心

立即注册

导航

购买高性能计算GPU型实例

最近更新时间：2024.05.21 10:31:17首次发布时间：2021.07.09 11:14:25

您可以根据业务场景购买高性能计算GPU型实例。

约束限制

高性能计算GPU实例自身的使用限制如下：
- 创建高性能计算GPU型实例后，高性能计算集群的RDMA网络会在VPC网络的基础上增加RDMA网卡，当前默认RDMA设备IP地址为固定的198.x.x.x/33.x.x.x网段，您可以使用该网段在多个具有RDMA网卡的高性能GPU实例之间进行RDMA网络通信。
- RDMA网卡和GPU实例绑定后，不支持挂载、卸载RDMA网卡。
- RDMA网卡和VPC网络之间不可以互相通信，GPU实例之间只能采用VPC网卡对VPC网卡、RDMA网卡对RDMA网卡的方式通信。
- 不能为RDMA网卡挂载公网IP地址和配置负载均衡。
高性能计算GPU型实例目前仅对已通过企业实名认证的用户开放。如有需要建议您进行企业认证，认证成功后方可使用相关功能。个人认证如何变更为企业认证，请参见个人认证升级为企业认证。

步骤一：创建高性能计算集群

创建高性能计算GPU实例前，您需要首先创建高性能计算集群，后续将新购买的高性能计算GPU型实例部署在该集群中即可，但不允许将已创建的云服务器加入高性能计算集群。

登录高性能计算集群控制台。

单击“创建集群”按钮，配置以下参数。

参数	说明	取值示例
地域	不同地域间内网完全隔离。建议选择距离您业务更近的地域，可以降低网络延时，提高访问速度。	华北2（北京）
可用区	可用区是指同一地域中电力、网络隔离的物理区域。为保证集群内实例RDMA网络互通，您需要确定集群和集群内实例所属的可用区。	可用区A
名称	配置高性能计算集群的名称。	-

单击“确定”按钮，创建集群。

步骤二：购买高性能计算GPU型实例

高性能计算GPU型实例的购买过程，除了在基础配置页面选择步骤一创建的高性能计算集群外，其余操作与ECS实例相似，详情请参见通过向导购买实例。

说明

高性能计算GPU型实例规格介绍请参见实例规格介绍。
GPU驱动相关介绍请参见NVIDIA驱动安装指引。

开启RDMA网络观测性增强（hpcpni2）

当您使用公共镜像创建 高性能计算GPU型hpcpni2 实例时，还需要在选择镜像阶段，决定是否开启“RDMA网络观测性增强”（默认开启），开启后系统将自动安装RDMA网络监控插件，用于监控RDMA网络的健康状况。
alt

说明

您也可以在实例创建成功后，参考RDMA网络监控手动安装插件。
请不要在插件安装过程中停止或重启实例，导致安装失败，实例重新启动后不再继续安装。
若您使用开启了“RDMA网络观测性增强”功能的hpcpni2实例创建自定义镜像，则该镜像中包含RDMA监控插件。
为hpcpni2实例更换操作系统时，若您开启了“RDMA网络观测性增强”，则更换后的镜像同样包含RDMA监控插件。

步骤三：启动Fabric Manager服务

NVIDIA-Fabric Manager服务可以使多A100/A800显卡间通过NVSwitch互联。
当您选用公共镜像购买搭载了多张A100/A800显卡的高性能计算GPU型实例后，将默认安装该服务，您需要手动将其启动，否则将无法正常使用实例。如果您选用未安装该服务的镜像，请首先参见安装NVIDIA-Fabric Manager软件包手动完成安装。

执行以下命令启动Fabric Manager服务。
sudo systemctl start nvidia-fabricmanager
执行以下命令查看Fabric Manager服务是否正常启动，回显active（running）表示启动成功。
sudo systemctl status nvidia-fabricmanager
（可选）执行以下命令配置Fabric Manager服务随实例开机自启动。
sudo systemctl enable nvidia-fabricmanager