本文以Ubuntu 20.04的ecs.hpcpni2.28xlarge
实例为例,介绍如何使用InfiniBand在单台实例内或两台实例间测试RDMA网络性能。
HPC实例是在原有GPU实例的基础上,加入了RDMA网络,可大幅提升网络性能,提高大规模集群加速比,适用于高性能计算、人工智能、机器学习等业务场景。
InfiniBand是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。
执行以下命令,安装测试软件包。apt update && apt install -y infiniband-diags
使用 ibstatus
命令查看网卡速率,回显如下,表示有4张RDMA网卡,单张网卡速率为200 Gbps。
执行以下命令,检查是否已安装RDMA相关库及正确版本。火山引擎已为您默认安装,您无需重新安装。
dpkg -l perftest ibverbs-providers libibumad3 libibverbs1 libnl-3-200 libnl-route-3-200 librdmacm1
回显如下,表示已全部安装。
执行ib_write_bw -d mlx5_1 &
命令,回显如下。
继续执行ib_write_bw -d mlx5_1 127.0.0.1 --report_gbits
命令,回显如下,带宽值接近 200Gb/s。
进行多机测试时,请确认两台实例已加入同一高性能计算集群。
在 A 实例中执行ib_write_bw -d mlx5_1 -x 3
命令。
在 B 实例中输入如下命令,<MACHINE_A_HOST> 请替换为 A 实例的 RDMA 网卡 IP,本文以名为mlx5_1
的RDMA网卡为例。
ib_write_bw -d mlx5_1 -x 3 <MACHINE_A_HOST> --report_gbits
回显如下,带宽值接近 200Gb/s。