集群诊断可以帮助用户发现容器服务集群中各类资源可能存在的潜在风险,包括:节点池、节点、容器组等。本文为您介绍如何配置容器组诊断。
配置项 | 说明 |
---|---|
诊断类型 | 配置需要进行诊断的资源类型,本示例中选择 容器组。 |
命名空间 | 选择容器组所在的命名空间。 |
容器组 | 在左侧 全部容器组 列表中,单击勾选需要进行诊断的容器组,将其加入到右侧的 已选择容器组 列表中。 |
诊断任务执行完成后,如果当前诊断任务的状态为 异常,则说明容器组中存在风险项。您可以单击诊断任务列表 操作 列中对应的 查看详情,查看诊断报告。
诊断结果中会展示所有的诊断项、成功诊断项、未通过诊断项和警告诊断项,您需要查看 待处理 下的诊断项,并完成问题修复。
诊断任务完成后,您可以下载 PDF 格式的诊断报告。
说明
不同类型容器组(容器组、弹性容器组)的检查项略有不同,请以控制台为准。
诊断项 | 检查内容 | 修复建议 | 参考文档 |
---|---|---|---|
Pod 内存使用情况 | 检查 Pod 内存使用率是否 > 85%。内存负载过高可能导致 OOM(Out of Memory),影响业务的正常运行。 | 增加 Pod 实例数或配置弹性伸缩。 | |
Pod CPU 使用情况 | 检查 Pod 的 CPU 使用率是否 > 85%。CPU 负载过高可能导致 CPU 争抢,影响业务的正常运行。 |
诊断项 | 检查内容 | 修复建议 | 参考文档 |
---|---|---|---|
Pod 容器镜像下载阻塞情况 | 检查 Pod 镜像是否下载成功。 | 检查 Pod 状态及日志。 | |
Pod 初始化状态 | 检查 Pod 是否正常初始化。 | 检查 Pod 状态及日志。 | 查看容器组信息 |
Pod 调度状态 | 检查 Pod 是否被正常调度。 | 确定 Pod 不能被正常调度的原因(资源不足、节点亲和性等)。 | 查看容器组信息 |
Pod 容器重启次数统计 | 检查 Pod 重启次数,频繁重启表示 Pod 工作异常。 | 检查 Pod 状态及日志。 | 查看容器组信息 |
镜像缓存是否可用 | 开启镜像缓存,检测镜像缓存是否就绪,异常状态包括:
| 检查对应的镜像缓存状态是否正常, 如疑问, 请 提交工单 处理。 | |
Pod 容器镜像 Secrets 有效性检查 | 检查 Pod 使用免密组件拉取镜像时,配置的保密字典(Secret)是否有效。若失效,Pod 将无法使用免密组件正确拉取镜像。 | 请检查 Pod 状态及日志。 | 使用免密组件拉取私有镜像创建工作负载 |