You need to enable JavaScript to run this app.
导航
使用HostDiagnose工具检测实例网络问题
最近更新时间:2024.11.26 10:28:47首次发布时间:2023.11.10 15:15:35

随着云服务器复杂度不断增加,其内部出现性能退化的概率也越来越高。本文主要介绍如何通过HostDiagnose工具,定位实例内的网络问题。

关于HostDiagnose

HostDiagnose是火山引擎提供的实例内故障诊断工具,能够协助您判断实例中网络基础配置、网络PCIe硬件与PCIe配置、网卡硬件、异构卡硬件及机间网络与路由等是否正常。

注意事项

HostDiagnose暂仅支持在如下操作系统的GPU计算型高性能计算GPU型实例中使用。

镜像发行版本
veLinuxveLinux 1.0 64位
DebianDebian 10 64位
UbuntuUbuntu 22.04 64位
Ubuntu 20.04 64位

步骤一:安装HostDiagnose工具

  1. 登录目标实例

  2. 依次执行如下命令,通过公网下载并安装HostDiagnose工具。

    wget https://host-diagnose-cn-beijing.tos-cn-beijing.volces.com/latest/host-diagnose.deb
    apt install -y ./host-diagnose.deb
    
  3. 执行如下命令,查看工具版本,验证工具是否可以正常运行。

    host-diagnose -v
    

步骤二:查看工具功能(可选)

您可以执行如下命令,查看HostDiagnose工具支持的检测功能。

host-diagnose -h

重要功能说明:

功能名称说明
diagnose对当前机器进行链路检测分析,详见链路分析(diagnose)
analyze用于分析此前导出的检查结果,详见分析检查结果(analyze)
baseline用于展示GPU类型和主机类型的诊断基线,详见查看诊断基线(baseline)

步骤三:进行环境检查

进行链路分析(diagnose)

您可以执行如下命令,对当前实例进行检测、诊断。

host-diagnose diagnose [flags]

请将[flags]替换为如下参数,使用多个参数请用空格分隔:

参数说明取值样例

-f

可选,设置诊断结果的文件格式。取值:

  • raw:默认值,设置文件为Raw格式。
  • json:设置文件为JSON格式。

raw

-o

可选,指定保存诊断结果的文件名及其路径。

说明

  • 不传本参数时,诊断结果将展示在实例屏幕上,不会存储。
  • 传入本参数后,诊断结果将保存至指定文件中,不会展示在屏幕上。

/var/log/diagnose

-r

必选,设置诊断级别。取值:

  • 1:环境检查。
  • 2:性能检查。

1

您还可以执行如下命令,获取完整的命令使用说明。

host-diagnose diagnose -h

回显示例:

使用示例

注意

执行-r 2及以上级别命令会导致当前训练业务失败。

执行如下命令,设置检查级别为1,对实例环境信息进行诊断、检查。

host-diagnose diagnose -r 1

回显示例:

分析检查结果(analyze)

您可以执行如下命令,分析此前导出的检查结果。

host-diagnose analyze <file-path>

说明

请将<file-path>替换为存放诊断结果的文件路径。

您还可以执行如下命令,获取完整的命令使用说明。

host-diagnose analyze -h

回显示例:

查看诊断基线(baseline)

您可以执行如下命令,查看火山引擎提供的实例的GPU类型和主机类型的诊断基线。

host-diagnose baseline [flags]

请将[flags]替换为如下参数,使用多个参数请用空格分隔:

参数说明取值样例
--gpu_type可选,GPU类型。-
--host_type可选,主机类型。-
--rdmanic_num可选,指定RDMA网卡数量,默认值为44

您还可以执行如下命令,获取完整的命令使用说明。

host-diagnose baseline -h

回显示例:

后续操作

  • 若HostDiagnose检查通过,说明通过本命令未发现实例异常。如需继续定位问题,请联系客户经理。
  • 若HostDiagnose检查未通过,请根据错误对象回显内容,联系客户经理。