您可以根据业务场景购买高性能计算GPU型实例。
高性能计算GPU实例自身的使用限制如下:
创建高性能计算GPU型实例后,高性能计算集群的RDMA网络会在VPC网络的基础上增加RDMA网卡,当前默认RDMA设备IP地址为固定的198.x.x.x/33.x.x.x网段,您可以使用该网段在多个具有RDMA网卡的高性能GPU实例之间进行RDMA网络通信。
RDMA网卡和GPU实例绑定后,不支持挂载、卸载RDMA网卡。
RDMA网卡和VPC网络之间不可以互相通信,GPU实例之间只能采用VPC网卡对VPC网卡、RDMA网卡对RDMA网卡的方式通信。
不能为RDMA网卡挂载公网IP地址和配置负载均衡。
高性能计算GPU型实例目前仅对已通过企业实名认证的用户开放。如有需要建议您进行企业认证,认证成功后方可使用相关功能。个人认证如何变更为企业认证,请参见个人认证升级为企业认证。
创建高性能计算GPU实例前,您需要首先创建高性能计算集群,后续将新购买的高性能计算GPU型实例部署在该集群中即可,但不允许将已创建的云服务器加入高性能计算集群。
参数 | 说明 | 取值示例 |
---|---|---|
地域 | 不同地域间内网完全隔离。建议选择距离您业务更近的地域,可以降低网络延时,提高访问速度。 | 华北2(北京) |
可用区 | 可用区是指同一地域中电力、网络隔离的物理区域。为保证集群内实例RDMA网络互通,您需要确定集群和集群内实例所属的可用区。 | 可用区A |
名称 | 配置高性能计算集群的名称。 | - |
高性能计算GPU型实例的购买过程,除了在基础配置页面选择步骤一创建的高性能计算集群外,其余操作与ECS实例相似,详情请参见通过向导购买实例。
说明
开启RDMA网络观测性增强(hpcpni2)
当您使用公共镜像创建 高性能计算GPU型hpcpni2 实例时,还需要在选择镜像阶段,决定是否开启“RDMA网络观测性增强”(默认开启),开启后系统将自动安装RDMA网络监控插件,用于监控RDMA网络的健康状况。
说明
NVIDIA-Fabric Manager服务可以使多A100/A800显卡间通过NVSwitch互联。
当您选用公共镜像购买搭载了多张A100/A800显卡的高性能计算GPU型实例后,将默认安装该服务,您需要手动将其启动,否则将无法正常使用实例。如果您选用未安装该服务的镜像,请首先参见安装NVIDIA-Fabric Manager软件包手动完成安装。
执行以下命令启动Fabric Manager服务。sudo systemctl start nvidia-fabricmanager
执行以下命令查看Fabric Manager服务是否正常启动,回显active(running)
表示启动成功。sudo systemctl status nvidia-fabricmanager
(可选)执行以下命令配置Fabric Manager服务随实例开机自启动。sudo systemctl enable nvidia-fabricmanager