基于多部署能力的更新,扩缩容能力将作用于每个部署上。即平台支持对每个部署进行手动扩缩容和自动扩缩容配置。其中自动扩缩容可根据配置策略动态伸缩实例数,便于根据业务的潮汐特性自动进行扩缩容。
登录机器学习平台,单击左侧导航栏中的「在线服务」进入列表页面。
单击需要配置的服务,进入服务详情页面。
平台有两处支持部署的扩缩容操作,当您需要新增一个部署并配置扩缩容时,您可点击「新增部署」。并且在新增页面中选择指定「实例数」或打开「自动扩缩容」开关。
若打开「自动扩缩容」开关,则需进行「定时扩缩容」或「指标扩缩容」策略配置
定时扩缩容
定时扩缩容采用Cron
语句进行时间配置,通过分钟、小时、日期、月份和星期,一共五个参数,可以为任务设定具体的执行时间。具体参数配置见下表:
参数名称 | 参数说明 |
---|---|
分 |
|
时 |
|
日 |
|
月 |
|
星期 |
|
支持设置实例数变更数目,完成策略配置后,策略将在执行时间启动,自动扩缩容至设置的实例数。
参数名称 | 参数说明 |
---|---|
0 * * * * | 每小时执行策略。 |
0 0 * * * | 每天的00:00 执行策略。 |
0 0 * * 0 | 每周日的00:00 执行策略。 |
0 0 1 * * | 每月第一天的00:00 执行策略。 |
0 12 * * * | 每天12:00 执行策略。 |
指标扩缩容
指标扩缩容根据监测指标进行策略配置,策略扩缩容机制为:按公式desiredReplicas = ceil[currentReplicas * ( currentMetricValue / desiredMetricValue )]
计算应扩/缩容数目,设置多个监测指标时,按各个指标计算出的应扩缩容数目取最大值作为扩缩容实例数。具体参数配置见下表:
参数名称 | 参数说明 |
---|---|
CPU利用率 |
|
GPU利用率 |
|
内存利用率 |
|
最小实例数 | 限制扩缩容的最小实例数,设置数值需要≥1 。 必填。 |
最大实例数 | 限制扩缩容的最大实例数,设置数值需要≥1 。 必填。 |
扩容观察期 |
|
缩容观察期 |
|
扩容步长 | 每一段时间扩容的资源量。如果用户希望每15秒扩容一倍,可以配置每15 秒扩容100% ,直到扩容到指标稳定或到达最大实例数。 |
缩容步长 | 每一段时间缩容的资源量。如果用户希望每分钟减少4 个实例,可以配置每60 秒缩容4 个实例。直到缩容到指标稳定或到达最小实例数。 |
在已创建部署的「扩缩容」操作中同样可进行指定「实例数」和「自动扩缩容」配置,具体配置方式同上。
说明
手动指定「实例数」和「自动扩缩容」不会同时生效,当开启「自动扩缩容」时,手动设置「实例数」将关闭配置状态,后台会自动根据部署负载重新自动设置部署的实例数量。
扩缩容能力与 mGPU 能力不兼容。