节点发生故障后,将在 48 小时内完成负载清退。清退完成后,我们将即刻对负载所在的节点进行维修。
为了能给您带来更好的服务体验,需要您尽量在 48 小时内完成开发机或自定义任务清退,以保障您正在运行中的任务不丢失。感谢您的配合!
邮件通知
在检测到需要下线的节点上存在你的负载时,我们会以邮件的形式通知您所涉及的开发机或自定义任务的名称和ID,协助您快速完成清退。为了及时感知此类信息,需要您及时绑定邮箱,详见配置任务的消息通知。
操作指南
重启正在运行中的开发机
- 收到邮件通知后,进入机器学习平台主页面,通过左侧导航栏进入「训练&推理」 - 「开发机」。
- 在发给您邮件通知中,包含需要关闭的开发机的名称和ID。据此,您可以在「全部」或「我创建的」右侧通过名称或ID查询,找到需要关闭的开发机。
- 在操作列单击「关机」按钮。开发机关闭后,单击「开机」,您的任务将自动调度到正常节点上运行。
复制自定义任务
- 进入机器学习平台主页面,通过左侧导航栏进入「训练&推理」 - 「自定义任务」。
- 在发给您邮件通知中,包含需要关闭的自定义任务的名称和ID。据此,您可以在「全部」或「我创建的」右侧通过名称或ID查询,找到需要关闭的自定义任务。
- 在操作列单击「···」中的「停止」按钮。单击「复制」按钮,您的任务将自动调度到正常节点上运行。
迁移推理服务
正常情况下,当机器故障时在线服务会自动迁移,即创建新的实例,删掉运行在故障机器上的旧实例。仅当队列中配额不足时,由于受到配额限制无法创建新实例,需要您进行手动的队列配额清理和实例迁移。
- 在发给您邮件通知中,包含需要进行迁移的推理服务的名称和ID。据此,您可以在「全部」或「我创建的」右侧通过名称或ID查询,找到相应的推理服务。
- 在「实例列表」-「操作」列,单击「迁移」,您的任务将自动调度到正常节点上运行。