机器学习平台支持对服务进行自动扩缩容配置,可根据配置策略动态伸缩实例数,便于根据业务的潮汐特性自动进行扩缩容。
操作步骤
- 登录机器学习平台,单击左侧导航栏中的【模型服务】-【在线服务】进入列表页面。
- 单击列表页面左上方的【+ 创建服务】进入创建页面。
- 在创建页面的【资源配置】栏中打开【自动扩缩容】开关。
- 进行【定时扩缩容】或【指标扩缩容】策略配置
- 定时扩缩容
- 定时扩缩容采用Cron语句进行时间配置,通过分钟、小时、日期、月份和星期,一共五个参数,可以为任务设定具体的执行时间。具体参数配置见下表:
参数名称 | 参数说明 |
---|
分 | - 代表执行时间中的分钟。
- 支持输入0-59之间的数字,输入
* 代表匹配任何值。选填。
|
时 | - 代表执行时间中的小时。
- 支持输入 0-23 之间的数字,输入
* 表示匹配任何值。选填。
|
日 | - 代表执行时间中的日期。
- 支持输入 1-31 之间的数字,输入
* 表示匹配任何值。选填。
|
月 | - 代表执行时间中的月份。
- 支持输入 1-12 之间的数字,输入
* 表示匹配任何值。选填。
|
星期 | - 代表执行时间中的星期。
- 支持输入 0-6 之间的数字,0代表星期日,输入
* 表示匹配任何值。选填。
|
Cron语句 | 执行时间 |
---|
0 * * * * | 每小时执行策略。 |
0 0 * * * | 每天的 00:00 执行策略。 |
0 0 * * 0 | 每周日的 00:00 执行策略。 |
0 0 1 * * | 每月第一天的 00:00 执行策略。 |
0 12 * * * | 每天 12:00 执行策略。 |
- 支持设置实例数变更数目,完成策略配置后,策略将在执行时间启动,自动扩缩容至设置的实例数。
- 指标扩缩容
- 指标扩缩容根据监测指标进行策略配置,策略扩缩容机制为:按公式
desiredReplicas = ceil[currentReplicas * ( currentMetricValue / desiredMetricValue )]
计算应扩/缩容数目,设置多个监测指标时,按各个指标计算出的应扩缩容数目取最大值作为扩缩容实例数。具体参数配置见下表:
参数名称 | 参数说明 |
---|
CPU利用率 | - 通过所有实例CPU使用量/所有实例CPU总分配规格计算得出。
- 支持输入0-100之间的数字。
- 将设置的CPU利用率作为
desiredMetricValue 代入公式desiredReplicas = ceil[currentReplicas * ( currentMetricValue / desiredMetricValue )] 中计算出 desiredReplicas 作为应扩缩容的实例数目。 - 当实际CPU利用率达到策略设置值时执行扩/缩容策略,将实例数变更为计算出的数目。
|
GPU利用率 | - 通过所有实例GPU利用率取平均数计算得出。GPU利用率指标:DCGM_FI_DEV_GPU_UTIL
- 支持输入0-100之间的数字。
- 将设置的GPU利用率作为
desiredMetricValue 代入公式desiredReplicas = ceil[currentReplicas * ( currentMetricValue / desiredMetricValue )] 中计算出 desiredReplicas 作为应扩缩容的实例数目。 - 当实际GPU利用率达到策略设置值时执行扩/缩容策略,将实例数变更为计算出的数目。
|
内存利用率 | - 通过所有实例内存使用量/所有实例内存总分配规格计算得出。
- 支持输入0-100之间的数字。
- 将设置的内存利用率作为
desiredMetricValue 代入公式desiredReplicas = ceil[currentReplicas * ( currentMetricValue / desiredMetricValue )] 中计算出 desiredReplicas 作为应扩缩容的实例数目。 - 当实际内存利用率达到策略设置值时执行扩缩容策略,将实例数变更为计算出的数目。
|
最小实例数 | 限制扩缩容的最小实例数。 必填。 |
最大实例数 | 限制扩缩容的最大实例数。 必填。 |
采样频率 | 每5秒进行一次实际指标采样。 |
扩容观察期 | - 观察期的设置是为了避免指标波动产生毛刺而频繁变更实例数的现象。
- 数值范围0-3600。
- 观察期设置为0,立即进行扩容。
- 观察期设置>0,观察期内,若采样值高于预设的监测指标,则在观察期结束后进行扩容。
|
缩容观察期 | - 数值范围0-3600。
- 观察期设置为0,立即进行缩容。
- 观察期设置>0,观察期内,若采样值低于预设的监测指标,则在观察期结束后进行缩容。
- 观察期越长,触发缩容所需时间越长。最终弹性扩缩容的期望实例数会根据观察期内期望实例数与当前时刻实例数共同决定。
|
扩容步长 | 每一段时间扩容的资源量。如果用户希望每15秒扩容一倍,可以配置每15秒扩容100%,直到扩容到指标稳定或到达最大实例数。 |
缩容步长 | 每一段时间缩容的资源量。如果用户希望每分钟减少4个实例,可以配置每60秒缩容4个实例。直到缩容到指标稳定或到达最小实例数。 |
- 在已创建服务的【升级】操作中同样可进行【自动扩缩容】配置,具体配置方式同上。
说明
当用户手动通过「扩缩容」手动设置服务的实例数时,如果服务同时配置了自动扩缩容能力,那么后台会自动根据服务负载重新自动设置服务的实例数量。