云监控 是火山引擎云上一站式监控告警解决方案。可以帮助您收集并可视化展示容器服务集群、节点、命名空间、工作负载、容器组和容器等多种资源状态。本文为您介绍容器服务接入云监控的流程和步骤。
说明
【邀测·申请试用】:该功能目前处于邀测阶段,如需使用,请提交申请。
前提条件
- 注册火山引擎平台账号,并完成实名认证、充值账户、授权等准备工作,详情请参见 准备工作。
- 保证账号余额不低于 100 元(含代金券,且除去代金券后余额不为零),以确保能够正常创建按量计费类型的资源。
- 已开通容器服务、云监控服务。
- 已创建容器服务集群,详情请参见 创建集群。
接入云监控
在容器服务集群中安装云监控采集器组件,即可接入云监控。
- 登录 容器服务控制台。
- 在左侧导航栏中选择 集群,单击选择目标集群。
- 在左侧导航栏中,选择 组件管理。单击 监控 页签。

- 将鼠标移动到 metrics-collector 组件上,选择该组件右上角的
...
> 安装,完成采集组件安装。

查看监控信息
- 登录云监控控制台。
- 在左侧导航栏中,单击 云产品监控。
- 在产品列表中选择 容器 > 容器服务,进入容器服务监控信息页面。

- 在资源选择下拉列表中,选择容器服务相关资源,即可查看具体资源监控信息。

集群
集群监控大盘展示了集群纬度的监控信息,包括当前账号下已接入云监控的集群,集群资源的总量信息和单个资源信息,包括:
- 资源总量信息:告警概况、集群 CPU 使用率分布、集群内存使用率分布等。
- 单个资源信息:单个集群的 CPU 用量、CPU 使用率、内存用量、内存使用率、节点数量等。
- 在资源选择下拉列表中,选择 集群,即可查看集群的监控信息。

- 在集群列表中,单击目标集群名称,即可查看详细的监控信息。支持设置查询的时间段。

命名空间
命名空间监控大盘展示了命名空间纬度的监控信息,包括当前账号下所有已接入云监控的集群中,命名空间资源总量信息和单个资源信息,包括:
- 资源总量信息:告警概况、命名空间 CPU 用量分布、命名空间内存用量分布等。
- 单个资源信息:单个命名空间的 CPU 用量、内存用量等。
- 在资源选择下拉列表中,选择 命名空间,即可查看命名空间的监控信息。

- 在命名空间列表中,单击目标命名空间的名称,即可查看详细的监控信息。支持设置查询的时间段。

节点
节点监控大盘展示了节点纬度的监控信息,包括当前账号下所有已接入云监控的集群中,节点资源总量信息和单个资源信息,包括:
- 资源总量信息:告警概况、节点 CPU 使用率分布、节点内存使用率分布等。
- 单个资源信息:单个命名空间的 CPU 用量、内存用量等。
- 在资源选择下拉列表中,选择 节点,即可查看节点的监控信息。

- 在节点列表中,单击目标节点的名称,即可查看详细的监控信息。支持设置查询的时间段。

存储卷声明
存储卷声明监控大盘展示了存储卷声明纬度的监控信息,包括当前账号下所有已接入云监控的集群中,存储卷声明总量信息和单个资源信息,包括:
- 在资源选择下拉列表中,选择 存储卷声明,即可查看容器的监控信息。

- 在存储卷声明列表中,支持通过集群、命名空间筛选存储卷声明。单击目标存储卷声明的名称,即可查看详细的监控信息。支持设置查询的时间段。

工作负载
说明
本章节以无状态负载 Deployment 为例,其他类型工作负载的监控查看方式相同。
工作负载监控大盘展示了工作负载纬度的监控信息,包括当前账号下所有已接入云监控的集群中,工作负载总量信息和单个资源信息,包括:
- 资源总量信息:告警概况、无状态负载 CPU 使用率分布、无状态负载内存使用率分布等。
- 单个资源信息:单个工作负载的 CPU 用量、CPU 使用率、GPU 显存用量、GPU 显存使用率、内存用量、内存使用率等。
- 在资源选择下拉列表中,选择 工作负载 > 无状态负载,即可查看无状态负载的监控信息。

- 在工作负载列表中,支持通过集群和命名空间筛选工作负载。单击目标工作负载的名称,即可查看详细的监控信息。支持设置查询的时间段。

容器组
容器组监控大盘展示了容器组纬度的监控信息,包括当前账号下所有已接入云监控的集群中,容器组总量信息和单个资源信息,包括:
- 资源总量信息:告警概况、容器组 CPU 使用率分布、容器组内存使用率分布等。
- 单个资源信息:单个容器组的 CPU 用量、CPU 使用率、GPU 显存用量、GPU 显存使用率、内存用量、内存使用率等。
- 在资源选择下拉列表中,选择 容器组,即可查看容器组的监控信息。

- 在容器组列表中,支持通过集群、命名空间、工作负载类型、工作负载筛选容器组。单击目标容器组的名称,即可查看详细的监控信息。支持设置查询的时间段。

容器
容器监控大盘展示了容器纬度的监控信息,包括当前账号下所有已接入云监控的集群中,容器总量信息和单个资源信息,包括:
- 资源总量信息:告警概况、容器 CPU 使用率分布、容器内存使用率分布等。
- 单个资源信息:单个容器的 CPU 用量、CPU 使用率、GPU 显存用量、GPU 显存使用率、内存用量、内存使用率等。
- 在资源选择下拉列表中,选择 容器,即可查看容器的监控信息。

- 在容器列表中,支持通过集群、命名空间、工作负载类型、工作负载筛选容器。单击目标容器的名称,即可查看详细的监控信息。支持设置查询的时间段。

后续操作
查看指标
您可以使用云监控的 API 来查询指标数据。详情请参见 云产品监控指标。
配置告警
您可以使用云监控的告警中心配置相关告警。详情请参见 创建告警策略。