在多机多卡的训练或高性能计算场景,机间RDMA网络的带宽十分关键。通过RDMA网络观测性增强功能,实例的RDMA网络吞吐、收发包数量、每分钟RDMA网络出入方向暂停时长等信息可被观测;这些指标可反映RDMA网络的健康状况。
创建hpcpni2实例时,可选择是否勾选“RDMA网络观测性增强”功能,开启后系统将自动安装RDMA网络监控插件,用于监测RDMA网络的健康状况。对于已有的存量实例,也可通过脚本安装来实现上述功能。
该功能现已在全地域上线。功能详情请参考文档中心-火山引擎。