HostDiagnose是火山引擎提供的,实例内网络问题定位工具。通过该工具,您可以判断主机内网络 (PCIe硬件、PCIe配置) 是否正常,网卡硬件是否正常、以及一些网络基础配置 (路由等) 是否正常。
随着云服务器性能的增加,其内网络出现性能瓶颈的概率越来越高。本文介绍如何通过批量作业功能,在多台实例中使用HostDiagnose工具检测、定位实例内网络问题。
说明
若您仅需在一台实例中检测网络问题,可直接在目标实例中执行 wget -q -O iaas_assist_trigger.sh https://host-diagnose-cn-beijing.tos-cn-beijing.volces.com/iaas_assist_trigger.sh && bash iaas_assist_trigger.sh
命令。
由于命令执行时间较长,请避免SSH连接自动断开。
暂仅支持高性能计算GPU型实例使用。
需要安装批量作业客户端、Docker和NVIDIA Docker。
执行命令会导致当前训练业务失败。
您可以根据本步骤,获取火山引擎提供的HostDiagnose命令内容。
登录高性能计算GPU型实例,操作详情可查看登录实例。
执行如下命令,下载Shell命令内容。
获取最新版本命令(推荐)
wget https://host-diagnose-cn-beijing.tos-cn-beijing.volces.com/iaas_assist_trigger.sh
获取指定版本命令
wget https://host-diagnose-cn-beijing.tos-cn-beijing.volces.com/{version}/iaas_assist_trigger.sh
执行vi iaas_assist_trigger.sh
命令,查看并复制完整Shell命令信息。
您可以通过本步骤,将“步骤一”获取的命令制作为批量作业自定义命令,即可批量在多台实例中执行HostDiagnose命令。
登录批量作业控制台。
选择“自定义命令”页签,进入自定义命令列表页面。
单击“创建自定义命令”按钮,进入创建自定义命令页面。
下文仅列出适用于本场景的参数配置,更多参数配置可查看克隆到自定义命令。
使用最新版本命令
参数 | 说明 |
---|---|
命令类型 | 选择Shell 。 |
命令内容 | 填入步骤一获取的最新版本命令内容。 |
默认执行用户 | 指定root 用户执行。 |
超时时间 | 设置命令在每个实例上执行的超时时间为 1800 s,执行超时后,批量作业将判断该任务在对应实例上执行失败。 |
使用指定版本命令
参数 | 说明 |
---|---|
命令类型 | 选择Shell 。 |
命令内容 | 填入步骤一获取的最新版本命令内容。 |
使用参数 | 勾选“开启”选择框,开启自定义参数。 |
默认执行用户 | 指定root 用户执行。 |
超时时间 | 设置命令在每个实例上执行的超时时间为 1800 s,执行超时后,批量作业将判断该任务在对应实例上执行失败。 |
您可以创建作业,在多台实例中执行“步骤二”创建的自定义命令。
登录批量作业控制台。
选择“作业管理”页签,进入作业列表页面。
单击“创建作业”按钮,进入创建作业页面。
下文仅列出适用于本场景的参数配置,更多参数配置可查看创建作业。
参数 | 说明 |
---|---|
命令类型 | 指定本作业命令类型为 自定义命令。 |
命令 | 选择“步骤二”中创建的自定义命令。 |
参数 | 仅使用指定版本的HostDiagnose命令需填写,请填写通过客户经理获取的版本号。 |
执行对象 | 选择需要执行命令的高性能计算GPU型实例。
|
您可以在批量作业控制台查看作业执行结果,操作详情可查看查看作业执行结果。结果示例如下所示:
检测通过
作业执行成功,且命令回显如下所示,表示实例通过检测。
未通过检测
作业会显示执行失败或部分失败,错误的执行对象下且命令回显如下所示,表示检测到实例存在问题需要修复。
作业执行完成后,您可以根据执行结果进行后续操作。
若HostDiagnose检查通过,说明通过本工具未发现实例异常。如需继续定位问题,请联系客户经理。
若HostDiagnose检查未通过,请根据错误对象回显内容,下载实例中生成的检测日志压缩包,并联系客户经理。
日志压缩包在实例中的存放路径可在命令回显末尾获取,路径格式为:
/tmp/{instance_id}.tar.gz
,请下载该文件。