说明
此功能为开白功能,需按需申请使用。
在自定义任务中,新增疑似故障节点上报功能。该功能旨在开放用户的自主运维能力,增加工作负载层面的用户自主判断,支持用户主动发现并上报疑似故障节点。通过排除封锁此类疑似故障节点,从而较大减轻因反复调度到该节点而导致任务降速、频繁失败的现象,帮助提升任务运行效率,优化用户使用体验。
该功能仅限任务创建人进行上报。
同一任务下,用户最多可选择一个节点作为疑似故障机上报处理。
任意状态下的任务和worker都支持疑似故障节点上报。但若当前任务为为非终态,故障节点上报后,该任务将同步停止运行。
目前仅支持自定义任务进行疑似故障机上报操作。
针对想要上报的节点(此处示例为worker_0),在其操作列中找到「疑似故障节点上报」按钮,点击跳出上报弹窗。
备注:支持用户备注故障相关信息,帮助平台快速排查定位,非必选。
任务停止后...诊断(约5-10分钟):故障上报,任务停止后可执行任务诊断操作,非必选。
进行备注信息填写和诊断选项勾选后,点击确定完成上报。
MLP_CMD_NODE
变量使用,命令如下:export MLP_CMD_NODE=xxxx
ml_node
描述:针对机器学习平台「疑似故障节点」模块的命令集合。
report
描述:上报疑似故障节点。通过选择下表中不同的参数来完成上报,详见下表。
参数 | 缩写 | 说明 | 必填 |
---|---|---|---|
--instance_id | -id | 指定task id + worker名,必选,具体格式可查看-h中的参数说明。 | 是 |
--fault_message | -m | 节点异常辅助排查信息,非必选。 | 否 |
示例如下:
mlp ml_node report -id t-20240522211327-xxxxx-worker-0
list
描述:查询疑似故障节点。
参数 | 缩写 | 说明 | 必填 |
---|---|---|---|
无 |
示例如下:
mlp ml_node list
resume
描述:撤销疑似故障节点。
参数 | 缩写 | 说明 | 必填 |
---|---|---|---|
--resource_group_id | -id | 资源组ID | 是 |
--node_ip | -ip | 节点IP | 是 |
示例如下:
mlp ml_node resume -id r-20240522211205-xxxxx -ip 10.255.xx.xx
submit
描述:创建任务
参数 | 缩写 | 说明 | 必填 |
---|---|---|---|
--use_suspected_node | 无 | 设置该flag之后该任务仅使用曾经被标记为疑似故障的节点 | 否 |
其他参数请参考 命令行工具使用文档
示例如下:
volc ml_task submit --use_suspected_node -c {path_to_your_config_file}
机器上报为疑似故障机后将会立即封锁,即不会再调度新的负载到该节点上。若此时机器上仍有其他正在运行的负载,则该负载创建人将会同步收到告警邮件通知,需要配合停止当前负载(影响的负载类型包括:未开启机器故障自动重试的自定义任务/开发机/因队列资源不足而无法自动迁移的在线任务),以确机器可执行故障排查操作。
机器上报后平台会自动补充备机,但连续上报多台机器可能会出现备机不足情况。
List
接口返回的字段 "Detecting": true
表示正在检测中,且无法执行撤销上报操作。
List
接口返回的字段 "Detecting": false
表示机器已检测完,且火山认为没问题,可以正常调度负载使用;用户此时可以通过 resume
接口撤销上报,但撤销与否不影响调度,只影响 list
接口返回是否有该节点。如果对于检测的结果有异议可以提出 oncall 进行沟通。
若节点检测完后被认为有确定故障,则会自动下线维修,在 list
接口中不再返回。