对于预付费(包年包月)场景,用户将购买到的资源组中的资源以配额(quota)的形式划分成若干个队列并用于不同业务,但不同业务可能因为忙闲不均导致同一时段某些队列有较多的 quota 闲置而某些队列的 quota 吃紧、有大量任务排队,导致整个资源组维度上出现资源浪费。
为了解决上述痛点,提升资源组的整体利用率,机器学习平台提供了如下解决方案:
当前用户拥有 >= 1 个预付费队列(原专有队列)的使用权限。
资源组中存在 >=1 个开启了 空闲资源出借 的预付费队列。
用户登录机器学习平台,参考发起单机 / 分布式训练任务的步骤完成任务创建表单中相关字段的配置。
选择当前用户有权限的预付费队列。
将使用闲时资源的开关配置为开启
,提交表单即可完成任务的创建。
由于闲时任务可能因 quota 回收被中断,所以强烈建议用户在代码中包含 checkpoint 机制,便于任务被强杀后,能在下一次调度成功时通过 checkpoint 恢复上一次的训练。
为了及时感知到任务被强杀的时机,请用户在【账号管理】中完成邮箱的配置,当任务被杀后系统将自动发送邮件通知用户。
为任务配置计算资源。
创建闲时任务后,出借 quota 的队列有足够的空闲 quota 时,闲时任务便能成功调度,同时在本队列的详情页中展示这部分临时 quota 的使用情况。
当出借 quota 的队列中提交的非闲时任务排队时,平台将会为该队列回收 quota 以保障这部分任务的调度。