扩缩容--持续交付-火山引擎

文档中心

立即注册

导航

扩缩容

最近更新时间：2024.12.17 10:46:43首次发布时间：2024.08.28 14:53:17

本文为您介绍如何对 AI 应用的副本数进行扩缩容。

背景信息

AI 应用提供手动扩缩和自动扩缩两种方式：

当应用扩缩容为紧急需求时，例如突发性的流量高峰，您可以选择手动扩缩方式。
当应用扩缩容为非紧急需求时，例如周期性的流量高峰，您可以选择自动扩缩方式。

前提条件

已创建并部署 AI 应用，且应用必须部署在容器服务 VKE 集群。具体操作可参见创建和部署 AI 应用。

操作步骤

登录当前应用。
1. 登录持续交付控制台。
2. 在左侧导航栏选择 AI 应用。
3. 在 AI 应用页面，选择目标 AI 应用，单击应用卡片，进入当前应用的基本信息页签。

手动扩缩

注意

如果您同时配置了自动弹性伸缩策略，手动伸缩结果可能被自动伸缩覆盖，导致不生效。

在当前 AI 应用的 基本信息 页签，单击右上角的 手动扩缩。
在弹出的对话框中设置目标实例数。
单击确定，开始扩缩容应用。

自动扩缩

说明

每个应用仅支持添加一个弹性伸缩策略。

切换至当前应用的 弹性伸缩 页签，单击 配置弹性伸缩。
在弹出的 配置弹性伸缩 面板中，按要求配置相关信息。

配置项说明

实例数设置允许达到的最小实例数和最大实例数。策略触发时，实例将在此范围内伸缩。

配置项	说明
实例数	设置允许达到的最小实例数和最大实例数。策略触发时，实例将在此范围内伸缩。
伸缩指标	配置伸缩的监测指标，系统基于此指标决定是否需要进行伸缩。请至少配置一个伸缩指标。伸缩指标支持： CPU 利用率：按`所有 Pod 实例 CPU 使用量 / 所有 Pod 实例 CPU 请求量`的百分比，作为监测指标，当 CPU 利用率达到目标值，则进行伸缩。内存利用率：按`所有 Pod 实例内存使用量 / 所有 Pod 实例内存请求量`的百分比，作为监测指标，当内存利用率达到目标值，则进行伸缩。 GPU 利用率：使用 `DCGM_FI_PROF_SM_ACTIVE` 指标反映 GPU 利用率，表示在一个时间间隔内，至少一个线程束在一个 SM（Streaming Multiprocessor）上处于 Active 的时间占比。当 GPU 利用率达到目标值，则进行伸缩。
高级设置	可选配置。冷静窗口时间：扩缩容到来时，自动扩缩算法会在过去 [输入值] 时间内选择期望实例数最高的一个值，该配置是为了防止副本数抖动的过于频繁。例如：冷静窗口时间是 300 s。当扩缩容到来时，系统会先观察 300 s，选择期望实例最高的一个值，进行扩缩容。扩容速率：在指定时间周期内，最多扩容的实例数。缩容速率：在指定时间周期内，最多缩容的实例数。禁止缩容：开启后将永远不会缩容该应用的实例，能有效防止在流量高峰期缩容造成业务风险。默认关闭。

伸缩指标

配置伸缩的监测指标，系统基于此指标决定是否需要进行伸缩。请至少配置一个伸缩指标。伸缩指标支持：

CPU 利用率：按所有 Pod 实例 CPU 使用量 / 所有 Pod 实例 CPU 请求量的百分比，作为监测指标，当 CPU 利用率达到目标值，则进行伸缩。
内存利用率：按所有 Pod 实例内存使用量 / 所有 Pod 实例内存请求量的百分比，作为监测指标，当内存利用率达到目标值，则进行伸缩。
GPU 利用率：使用 DCGM_FI_PROF_SM_ACTIVE 指标反映 GPU 利用率，表示在一个时间间隔内，至少一个线程束在一个 SM（Streaming Multiprocessor）上处于 Active 的时间占比。当 GPU 利用率达到目标值，则进行伸缩。

高级设置

可选配置。

冷静窗口时间：扩缩容到来时，自动扩缩算法会在过去 [输入值] 时间内选择期望实例数最高的一个值，该配置是为了防止副本数抖动的过于频繁。例如：冷静窗口时间是 300 s。当扩缩容到来时，系统会先观察 300 s，选择期望实例最高的一个值，进行扩缩容。
扩容速率：在指定时间周期内，最多扩容的实例数。
缩容速率：在指定时间周期内，最多缩容的实例数。
禁止缩容：开启后将永远不会缩容该应用的实例，能有效防止在流量高峰期缩容造成业务风险。默认关闭。

配置完成后，单击确定。
配置并启用自动扩缩策略后，可通过观察 环境 > 实例列表 中的实例数量，验证自动扩缩策略是否符合预期。

持续交付

背景信息

前提条件

操作步骤

手动扩缩

自动扩缩

相关操作