随着云服务器性能的增加,其内网络出现性能瓶颈的概率越来越高。本文介绍如何通过HostDiagnose工具定位实例内网络问题。
HostDiagnose是火山引擎提供的,实例内网络问题定位工具。通过该工具,您可以判断主机内网络基础配置是否正常、主机内网络 (PCIe硬件、PCIe配置) 是否正常,网卡硬件是否正常、以及主机间网络 (路由等) 是否正常。
当前仅支持如下操作系统的高性能计算GPU型实例使用该功能。购买操作请参见购买高性能计算GPU型实例。
镜像 | 发行版本 |
---|---|
Debian | Debian 10 64位 |
veLinux | veLinux 1.0 64位 |
Ubuntu | Ubuntu 20.04 64位 |
依次执行如下命令,下载并安装HostDiagnose工具。
wget https://host-diagnose-cn-beijing.tos-cn-beijing.volces.com/host-diagnose.deb dpkg -i diagnose.deb
执行如下命令,验证工具是否正常运行。
host-diagnose -v
执行如下命令,获取帮助命令。
host-diagnose -h
命令解释如下:
命令 | 说明 |
---|---|
diagnose | 对当前机器进行链路检测分析,详见链路分析(diagnose)。 |
analyze | 用于分析此前导出的检查结果,详见分析检查结果(analyze)。 |
topo | 展示当前机器的PCI拓扑结构,详见查看拓扑结构(topo)。 |
baseline | 用于展示GPU类型和主机类型的诊断基线,详见查看诊断基线(baseline)。 |
host-diagnose diagnose
命令用于实现对当前机器的检测,如下图所示。
使用示例如下:
注意
执行-r 2
命令及以上级别命令会导致当前训练业务失败。
示例1:分析环境信息
设置检查级别为“1”,即执行如下命令,分析环境信息。
host-diagnose diagnose -r 1
示例2:检查配置与打流测试
执行如下命令,进行配置检查与打流分析。
host-diagnose diagnose -r 2
执行如下命令,分析此前导出的检查结果。
host-diagnose analyze <file-path> [flags]
执行如下命令,查看当前实例的PCI拓扑结构。
host-diagnose topo
执行如下命令,查看火山引擎提供的实例的GPU类型和主机类型的诊断基线。
host-diagnose baseline