随着云服务器复杂度不断增加,其内部出现性能退化的概率也越来越高。本文主要介绍如何通过HostDiagnose工具,定位实例内的网络问题。
HostDiagnose是火山引擎提供的实例内故障诊断工具,能够协助您判断实例中网络基础配置、网络PCIe硬件与PCIe配置、网卡硬件、异构卡硬件及机间网络与路由等是否正常。
HostDiagnose暂仅支持在如下操作系统的GPU计算型、高性能计算GPU型实例中使用。
镜像 | 发行版本 |
---|---|
veLinux | veLinux 1.0 64位 |
Debian | Debian 10 64位 |
Ubuntu | Ubuntu 22.04 64位 |
Ubuntu 20.04 64位 |
依次执行如下命令,通过公网下载并安装HostDiagnose工具。
wget https://host-diagnose-cn-beijing.tos-cn-beijing.volces.com/latest/host-diagnose.deb apt install -y ./host-diagnose.deb
执行如下命令,查看工具版本,验证工具是否可以正常运行。
host-diagnose -v
您可以执行如下命令,查看HostDiagnose工具支持的检测功能。
host-diagnose -h
重要功能说明:
功能名称 | 说明 |
---|---|
diagnose | 对当前机器进行链路检测分析,详见链路分析(diagnose)。 |
analyze | 用于分析此前导出的检查结果,详见分析检查结果(analyze)。 |
baseline | 用于展示GPU类型和主机类型的诊断基线,详见查看诊断基线(baseline)。 |
您可以执行如下命令,对当前实例进行检测、诊断。
host-diagnose diagnose [flags]
请将[flags]
替换为如下参数,使用多个参数请用空格分隔:
参数 | 说明 | 取值样例 |
---|---|---|
| 可选,设置诊断结果的文件格式。取值:
| raw |
| 可选,指定保存诊断结果的文件名及其路径。 说明
| /var/log/diagnose |
| 必选,设置诊断级别。取值:
| 1 |
您还可以执行如下命令,获取完整的命令使用说明。
host-diagnose diagnose -h
回显示例:
注意
执行-r 2
及以上级别命令会导致当前训练业务失败。
执行如下命令,设置检查级别为1
,对实例环境信息进行诊断、检查。
host-diagnose diagnose -r 1
回显示例:
您可以执行如下命令,分析此前导出的检查结果。
host-diagnose analyze <file-path>
说明
请将<file-path>
替换为存放诊断结果的文件路径。
您还可以执行如下命令,获取完整的命令使用说明。
host-diagnose analyze -h
回显示例:
您可以执行如下命令,查看火山引擎提供的实例的GPU类型和主机类型的诊断基线。
host-diagnose baseline [flags]
请将[flags]
替换为如下参数,使用多个参数请用空格分隔:
参数 | 说明 | 取值样例 |
---|---|---|
--gpu_type | 可选,GPU类型。 | - |
--host_type | 可选,主机类型。 | - |
--rdmanic_num | 可选,指定RDMA网卡数量,默认值为4 | 4 |
您还可以执行如下命令,获取完整的命令使用说明。
host-diagnose baseline -h
回显示例: