疑似故障节点上报--机器学习平台-火山引擎

文档中心

导航

疑似故障节点上报

最近更新时间：2024.10.09 17:52:38首次发布时间：2024.09.27 16:33:32

说明

此功能为开白功能，需按需申请使用。

功能概述

在自定义任务中，新增疑似故障节点上报功能。该功能旨在开放用户的自主运维能力，增加工作负载层面的用户自主判断，支持用户主动发现并上报疑似故障节点。通过排除封锁此类疑似故障节点，从而较大减轻因反复调度到该节点而导致任务降速、频繁失败的现象，帮助提升任务运行效率，优化用户使用体验。

使用限制

快速开始

页面交互

针对想要上报的节点（此处示例为worker_0），在其操作列中找到「疑似故障节点上报」按钮，点击跳出上报弹窗。
1. 备注：支持用户备注故障相关信息，帮助平台快速排查定位，非必选。
2. 任务停止后...诊断（约5-10分钟）：故障上报，任务停止后可执行任务诊断操作，非必选。
进行备注信息填写和诊断选项勾选后，点击确定完成上报。

export MLP_CMD_NODE=xxxx

描述：针对机器学习平台「疑似故障节点」模块的命令集合。

描述：上报疑似故障节点。通过选择下表中不同的参数来完成上报，详见下表。

参数	缩写	说明	必填
--instance_id	-id	指定task id + worker名，必选，具体格式可查看-h中的参数说明。	是
--fault_message	-m	节点异常辅助排查信息，非必选。	否

示例如下：

mlp ml_node report -id t-20240522211327-xxxxx-worker-0

描述：查询疑似故障节点。

参数	缩写	说明	必填
无

示例如下：

mlp ml_node list

描述：撤销疑似故障节点。

参数	缩写	说明	必填
--resource_group_id	-id	资源组ID	是
--node_ip	-ip	节点IP	是

示例如下：

mlp ml_node resume -id r-20240522211205-xxxxx -ip 10.255.xx.xx

描述：创建任务

参数	缩写	说明	必填
--use_suspected_node	无	设置该flag之后该任务仅使用曾经被标记为疑似故障的节点	否

其他参数请参考命令行工具使用文档
示例如下：

volc ml_task submit --use_suspected_node -c {path_to_your_config_file}

机器上报为疑似故障机后将会立即封锁，即不会再调度新的负载到该节点上。若此时机器上仍有其他正在运行的负载，则该负载创建人将会同步收到告警邮件通知，需要配合停止当前负载（影响的负载类型包括：未开启机器故障自动重试的自定义任务/开发机/因队列资源不足而无法自动迁移的在线任务），以确机器可执行故障排查操作。
机器上报后平台会自动补充备机，但连续上报多台机器可能会出现备机不足情况。
List 接口返回的字段 "Detecting": true 表示正在检测中，且无法执行撤销上报操作。
List 接口返回的字段 "Detecting": false 表示机器已检测完，且火山认为没问题，可以正常调度负载使用；用户此时可以通过 resume接口撤销上报，但撤销与否不影响调度，只影响 list 接口返回是否有该节点。如果对于检测的结果有异议可以提出 oncall 进行沟通。
若节点检测完后被认为有确定故障，则会自动下线维修，在 list 接口中不再返回。