You need to enable JavaScript to run this app.
导航
疑似故障节点上报
最近更新时间:2024.10.09 17:52:38首次发布时间:2024.09.27 16:33:32

说明

此功能为开白功能,需按需申请使用。

功能概述

在自定义任务中,新增疑似故障节点上报功能。该功能旨在开放用户的自主运维能力,增加工作负载层面的用户自主判断,支持用户主动发现并上报疑似故障节点。通过排除封锁此类疑似故障节点,从而较大减轻因反复调度到该节点而导致任务降速、频繁失败的现象,帮助提升任务运行效率,优化用户使用体验。

使用限制
  1. 该功能仅限任务创建人进行上报。

  2. 同一任务下,用户最多可选择一个节点作为疑似故障机上报处理。

  3. 任意状态下的任务和worker都支持疑似故障节点上报。但若当前任务为为非终态,故障节点上报后,该任务将同步停止运行。

  4. 目前仅支持自定义任务进行疑似故障机上报操作。


快速开始

页面交互

  1. 点击进入自定义任务-任务详情页-概览信息-当前运行配置列表:

  1. 针对想要上报的节点(此处示例为worker_0),在其操作列中找到「疑似故障节点上报」按钮,点击跳出上报弹窗。

    1. 备注:支持用户备注故障相关信息,帮助平台快速排查定位,非必选。

    2. 任务停止后...诊断(约5-10分钟):故障上报,任务停止后可执行任务诊断操作,非必选。

  2. 进行备注信息填写和诊断选项勾选后,点击确定完成上报。

命令行工具

  1. 目前该功能为开白功能,需要在本地通过 MLP_CMD_NODE变量使用,命令如下:
export MLP_CMD_NODE=xxxx

ml_node

描述:针对机器学习平台「疑似故障节点」模块的命令集合。

report

描述:上报疑似故障节点。通过选择下表中不同的参数来完成上报,详见下表。

参数缩写说明必填
--instance_id-id指定task id + worker名,必选,具体格式可查看-h中的参数说明。
--fault_message-m节点异常辅助排查信息,非必选。

示例如下:

mlp ml_node report -id t-20240522211327-xxxxx-worker-0
list

描述:查询疑似故障节点。

参数缩写说明必填

示例如下:

mlp ml_node list
resume

描述:撤销疑似故障节点。

参数缩写说明必填
--resource_group_id-id资源组ID
--node_ip-ip节点IP

示例如下:

mlp ml_node resume -id r-20240522211205-xxxxx -ip 10.255.xx.xx
submit

描述:创建任务

参数缩写说明必填
--use_suspected_node设置该flag之后该任务仅使用曾经被标记为疑似故障的节点

其他参数请参考 命令行工具使用文档
示例如下:

volc ml_task submit --use_suspected_node -c {path_to_your_config_file}

备注说明

  1. 机器上报为疑似故障机后将会立即封锁,即不会再调度新的负载到该节点上。若此时机器上仍有其他正在运行的负载,则该负载创建人将会同步收到告警邮件通知,需要配合停止当前负载(影响的负载类型包括:未开启机器故障自动重试的自定义任务/开发机/因队列资源不足而无法自动迁移的在线任务),以确机器可执行故障排查操作。

  2. 机器上报后平台会自动补充备机,但连续上报多台机器可能会出现备机不足情况。

  3. List 接口返回的字段 "Detecting": true 表示正在检测中,且无法执行撤销上报操作。

  4. List 接口返回的字段 "Detecting": false 表示机器已检测完,且火山认为没问题,可以正常调度负载使用;用户此时可以通过 resume接口撤销上报,但撤销与否不影响调度,只影响 list 接口返回是否有该节点。如果对于检测的结果有异议可以提出 oncall 进行沟通。

  5. 若节点检测完后被认为有确定故障,则会自动下线维修,在 list 接口中不再返回。