You need to enable JavaScript to run this app.
导航
容器组诊断
最近更新时间:2024.12.05 15:24:28首次发布时间:2023.08.11 10:50:27

集群诊断可以帮助用户发现容器服务集群中各类资源可能存在的潜在风险,包括:节点池、节点、容器组等。本文为您介绍如何配置容器组诊断。

前提条件

  • 已创建集群,操作说明参见 创建集群
  • 已安装 node-problem-detector 组件,并升级至 v0.8.19-vke.1 及以上版本。详情请参见 安装组件

配置诊断

  1. 登录 容器服务控制台
  2. 单击左侧导航栏中的 集群
  3. 在集群列表页面,单击需要配置的目标集群。
  4. 在集群管理页面的左侧导航栏中,单击 故障诊断
  5. 单击 创建诊断任务,配置容器组诊断任务。
    alt
    配置项说明
    诊断类型配置需要进行诊断的资源类型,本示例中选择 容器组
    命名空间选择容器组所在的命名空间。
    容器组在左侧 全部容器组 列表中,单击勾选需要进行诊断的容器组,将其加入到右侧的 已选择容器组 列表中。
  6. 单击 确定,完成配置,系统开始进行诊断,并生成诊断报告。

查看诊断结果

诊断任务执行完成后,如果当前诊断任务的状态为 异常,则说明容器组中存在风险项。您可以单击诊断任务列表 操作 列中对应的 查看详情,查看诊断报告。
alt

诊断结果中会展示所有的诊断项、成功诊断项、未通过诊断项和警告诊断项,您需要查看 待处理 下的诊断项,并完成问题修复。
alt

下载诊断报告

诊断任务完成后,您可以下载 PDF 格式的诊断报告。

  1. 诊断完成后,单击诊断任务列表 操作 列中对应的 查看详情,查看诊断结果。
  2. 单击右上角 下载报告,即可下载 PDF 格式的诊断报告。

alt

诊断项说明和修复建议

说明

不同类型容器组(容器组、弹性容器组)的检查项略有不同,请以控制台为准。

Pod 负载

诊断项检查内容修复建议参考文档

Pod 内存使用情况

检查 Pod 内存使用率是否 > 85%。内存负载过高可能导致 OOM(Out of Memory),影响业务的正常运行。

增加 Pod 实例数或配置弹性伸缩。

Pod CPU 使用情况检查 Pod 的 CPU 使用率是否 > 85%。CPU 负载过高可能导致 CPU 争抢,影响业务的正常运行。

Pod 状态

诊断项检查内容修复建议参考文档

Pod 容器镜像下载阻塞情况

检查 Pod 镜像是否下载成功。

检查 Pod 状态及日志。

Pod 初始化状态检查 Pod 是否正常初始化。检查 Pod 状态及日志。查看容器组信息
Pod 调度状态检查 Pod 是否被正常调度。确定 Pod 不能被正常调度的原因(资源不足、节点亲和性等)。查看容器组信息
Pod 容器重启次数统计检查 Pod 重启次数,频繁重启表示 Pod 工作异常。检查 Pod 状态及日志。查看容器组信息

镜像缓存是否可用

开启镜像缓存,检测镜像缓存是否就绪,异常状态包括:

  • 警告:未使用镜像缓存。
  • 异常:使用镜像缓存且当前镜像缓存全部不可用。

检查对应的镜像缓存状态是否正常, 如疑问, 请 提交工单 处理。

镜像缓存

Pod 容器镜像 Secrets 有效性检查检查 Pod 使用免密组件拉取镜像时,配置的保密字典(Secret)是否有效。若失效,Pod 将无法使用免密组件正确拉取镜像。请检查 Pod 状态及日志。使用免密组件拉取私有镜像创建工作负载