You need to enable JavaScript to run this app.
导航
使用HostDiagnose工具检测实例网络问题
最近更新时间:2023.12.07 17:10:32首次发布时间:2023.11.10 15:15:35

随着云服务器性能的增加,其内网络出现性能瓶颈的概率越来越高。本文介绍如何通过HostDiagnose工具定位实例内网络问题。

关于HostDiagnose

HostDiagnose是火山引擎提供的,实例内网络问题定位工具。通过该工具,您可以判断主机内网络基础配置是否正常、主机内网络 (PCIe硬件、PCIe配置) 是否正常,网卡硬件是否正常、以及主机间网络 (路由等) 是否正常。

注意事项

当前仅支持如下操作系统的高性能计算GPU型实例使用该功能。购买操作请参见购买高性能计算GPU型实例

镜像发行版本
DebianDebian 10 64位
veLinuxveLinux 1.0 64位
UbuntuUbuntu 20.04 64位

操作步骤

步骤一:安装HostDiagnose工具

  1. 登录高性能计算GPU型实例

  2. 依次执行如下命令,下载并安装HostDiagnose工具。

    wget https://host-diagnose-cn-beijing.tos-cn-beijing.volces.com/host-diagnose.deb
    dpkg -i diagnose.deb 
    
  3. 执行如下命令,验证工具是否正常运行。

    host-diagnose -v
    

步骤二:环境检查

执行如下命令,获取帮助命令。

host-diagnose -h

alt

命令解释如下:

命令说明
diagnose对当前机器进行链路检测分析,详见链路分析(diagnose)
analyze用于分析此前导出的检查结果,详见分析检查结果(analyze)
topo展示当前机器的PCI拓扑结构,详见查看拓扑结构(topo)
baseline用于展示GPU类型和主机类型的诊断基线,详见查看诊断基线(baseline)

链路分析(diagnose)

host-diagnose diagnose命令用于实现对当前机器的检测,如下图所示。
alt

使用示例如下:

注意

执行-r 2命令及以上级别命令会导致当前训练业务失败。

  • 示例1:分析环境信息
    设置检查级别为“1”,即执行如下命令,分析环境信息。

    host-diagnose diagnose -r 1
    

    alt

  • 示例2:检查配置与打流测试

    执行如下命令,进行配置检查与打流分析。

    host-diagnose diagnose -r 2
    

    alt

分析检查结果(analyze)

执行如下命令,分析此前导出的检查结果。

host-diagnose analyze <file-path> [flags]

alt

查看拓扑结构(topo)

执行如下命令,查看当前实例的PCI拓扑结构。

host-diagnose topo

alt

查看诊断基线(baseline)

执行如下命令,查看火山引擎提供的实例的GPU类型和主机类型的诊断基线。

host-diagnose baseline

后续操作

  • 若HostDiagnose检查通过,说明通过本命令未发现实例异常。如需继续定位问题,请联系客户经理。
  • 若HostDiagnose检查未通过,请根据错误对象回显内容,联系客户经理。