You need to enable JavaScript to run this app.
导航
为部署配置扩缩容策略(new)
最近更新时间:2024.12.12 17:39:24首次发布时间:2024.12.12 17:39:24
操作步骤

基于多部署能力的更新,扩缩容能力将作用于每个部署上。即平台支持对每个部署进行手动扩缩容和自动扩缩容配置。其中自动扩缩容可根据配置策略动态伸缩实例数,便于根据业务的潮汐特性自动进行扩缩容。

  1. 登录机器学习平台,单击左侧导航栏中的「在线服务」进入列表页面。

  2. 单击需要配置的服务,进入服务详情页面。

  3. 平台有两处支持部署的扩缩容操作,当您需要新增一个部署并配置扩缩容时,您可点击「新增部署」。并且在新增页面中选择指定「实例数」或打开「自动扩缩容」开关。

  4. 若打开「自动扩缩容」开关,则需进行「定时扩缩容」或「指标扩缩容」策略配置

    1. 定时扩缩容

      • 定时扩缩容采用Cron语句进行时间配置,通过分钟、小时、日期、月份和星期,一共五个参数,可以为任务设定具体的执行时间。具体参数配置见下表:

        参数名称参数说明

        • 代表执行时间中的分钟。

        • 支持输入0-59之间的数字,输入*代表匹配任何值。选填。

        • 代表执行时间中的小时。

        • 支持输入0-23之间的数字,输入*表示匹配任何值。选填。

        • 代表执行时间中的日期。

        • 支持输入1-31之间的数字,输入*表示匹配任何值。选填。

        • 代表执行时间中的月份。

        • 支持输入1-12之间的数字,输入*表示匹配任何值。选填。

        星期

        • 代表执行时间中的星期。

        • 支持输入0-6之间的数字,0代表星期日,输入*表示匹配任何值。选填。

      • 支持设置实例数变更数目,完成策略配置后,策略将在执行时间启动,自动扩缩容至设置的实例数。

        参数名称参数说明
        0 * * * *每小时执行策略。
        0 0 * * *每天的00:00执行策略。
        0 0 * * 0每周日的00:00执行策略。
        0 0 1 * *每月第一天的00:00执行策略。
        0 12 * * *每天12:00执行策略。
    2. 指标扩缩容

      • 指标扩缩容根据监测指标进行策略配置,策略扩缩容机制为:按公式desiredReplicas = ceil[currentReplicas * ( currentMetricValue / desiredMetricValue )]计算应扩/缩容数目,设置多个监测指标时,按各个指标计算出的应扩缩容数目取最大值作为扩缩容实例数。具体参数配置见下表:

        参数名称参数说明

        CPU利用率

        • 通过所有实例CPU使用量/所有实例CPU总分配规格计算得出。

        • 支持输入0-100之间的数字。

        • 将设置的CPU利用率作为 desiredMetricValue 代入公式desiredReplicas = ceil[currentReplicas * ( currentMetricValue / desiredMetricValue )]中计算出 desiredReplicas 作为应扩缩容的实例数目。每15秒进行一次计算。

        • 当实际CPU利用率达到策略设置值时执行扩/缩容策略,将实例数变更为计算出的数目。

        GPU利用率

        • 通过所有实例GPU利用率取平均数计算得出。GPU利用率指标:DCGM_FI_DEV_GPU_UTIL

        • 支持输入0-100之间的数字。

        • 将设置的GPU利用率作为 desiredMetricValue 代入公式desiredReplicas = ceil[currentReplicas * ( currentMetricValue / desiredMetricValue )]中计算出 desiredReplicas 作为应扩缩容的实例数目。每15秒进行一次计算。

        • 当实际GPU利用率达到策略设置值时执行扩/缩容策略,将实例数变更为计算出的数目。

        内存利用率

        • 通过所有实例内存使用量/所有实例内存总分配规格计算得出。

        • 支持输入0-100之间的数字。

        • 将设置的内存利用率作为 desiredMetricValue 代入公式desiredReplicas = ceil[currentReplicas * ( currentMetricValue / desiredMetricValue )]中计算出 desiredReplicas 作为应扩缩容的实例数目。每15秒进行一次计算。

        • 当实际内存利用率达到策略设置值时执行扩缩容策略,将实例数变更为计算出的数目。

        最小实例数限制扩缩容的最小实例数,设置数值需要≥1必填。
        最大实例数限制扩缩容的最大实例数,设置数值需要≥1必填。

        扩容观察期

        • 观察期的设置是为了避免指标波动产生毛刺而频繁变更实例数的现象。

        • 数值范围0-3600

        • 观察期设置为0,立即进行扩容。

        • 观察期设置>0,观察期内,若采样值全部高于预设的监测指标,则在观察期结束后进行扩容。

        缩容观察期

        • 数值范围0-3600

        • 观察期设置为0,立即进行缩容。

        • 观察期设置>0,观察期内,若采样值全部低于预设的监测指标,则在观察期结束后进行缩容。

        • 观察期越长,触发缩容所需时间越长。最终弹性扩缩容的期望实例数会根据观察期内期望实例数与当前时刻实例数共同决定。

        扩容步长每一段时间扩容的资源量。如果用户希望每15秒扩容一倍,可以配置每15秒扩容100%,直到扩容到指标稳定或到达最大实例数。
        缩容步长每一段时间缩容的资源量。如果用户希望每分钟减少4个实例,可以配置每60秒缩容4个实例。直到缩容到指标稳定或到达最小实例数。
  5. 在已创建部署的「扩缩容」操作中同样可进行指定「实例数」和「自动扩缩容」配置,具体配置方式同上。

说明

手动指定「实例数」和「自动扩缩容」不会同时生效,当开启「自动扩缩容」时,手动设置「实例数」将关闭配置状态,后台会自动根据部署负载重新自动设置部署的实例数量。

兼容说明

扩缩容能力与 mGPU 能力不兼容。