You need to enable JavaScript to run this app.
导航
节点池诊断
最近更新时间:2024.12.05 15:24:28首次发布时间:2023.08.11 10:50:27

集群诊断可以帮助用户发现容器服务集群中各类资源可能存在的潜在风险,包括:节点池、节点、Pod 等。本文为您介绍如何配置节点池诊断。

前提条件

  • 已创建集群,操作说明参见 创建集群
  • 已安装 node-problem-detector 组件,并升级至 v0.8.19-vke.1 及以上版本。详情请参见 安装组件

配置诊断

  1. 登录 容器服务控制台
  2. 单击左侧导航栏中的 集群
  3. 在集群列表页面,单击需要配置的目标集群。
  4. 在集群管理页面的左侧导航栏中,单击 故障诊断
  5. 单击 创建诊断任务,配置节点池诊断任务。
    alt
    配置项说明
    诊断类型配置需要进行诊断的资源类型,本示例中选择 节点池
    节点池在左侧 全部节点池 列表中,单击勾选需要进行诊断的节点池,将其加入到右侧的 已选择节点池 列表中。
  6. 单击 确定,完成配置,系统开始进行诊断,并生成诊断报告。

查看诊断结果

诊断任务执行完成后,如果当前诊断任务的状态为 异常,则说明节点池中存在风险项。您可以单击诊断任务列表 操作 列中对应的 查看详情,查看诊断报告。
alt

诊断结果中会展示所有的诊断项、成功诊断项、未通过诊断项和警告诊断项,您需要查看 待处理 下的诊断项,并完成问题修复。
alt

下载诊断报告

诊断任务完成后,您可以下载 PDF 格式的诊断报告。

  1. 诊断完成后,单击诊断任务列表 操作 列中对应的 查看详情,查看诊断结果。
  2. 单击右上角 下载报告,即可下载 PDF 格式的诊断报告。

alt

诊断项说明和修复建议

诊断项检查内容修复建议参考文档

最近 6h 扩容记录检查

检查最近 6 小时内,集群是否存在扩容失败记录。扩容失败可能导致集群内资源不足,从而影响业务正常调度。

  • 检查扩容失败原因。
  • 手工完成集群扩容。

最近 6h 缩容记录检查

检查最近 6 小时内,集群是否存在缩容失败记录。缩容失败可能导致集群内资源闲置从而造成浪费。

  • 检查缩容失败原因。
  • 手工完成集群缩容。
节点池状态检查检查节点池是否为 非 Running 状态。节点池状态异常会导致节点池资源不可用。请参考节点池状态进行问题排查。节点池状态

集群状态检测

检查集群是否为 非 Running 状态。集群状态异常会导致节点池资源不可用。

  • 如果集群处于Updating[ClusterVersionUpgrading]状态,您可以等待集群升级完成。
  • 如果集群处于其他异常状态,请联系技术支持。

集群状态

ECS 库存检查

检查当前节点池中使用的 ECS 规格是否存在库存。ECS 库存售罄会导致无法创建该类型的节点,节点池扩容失败。

  • 创建其他 ECS 规格的节点池。
  • 修改节点池规格。
EIP 容量检查 EIP 剩余容量是否 < 1。EIP 不足时,如果节点池开启节点自动绑定公网 IP,会导致节点池扩容失败。提交申请,提升配额。依赖底层云产品配额限制
用户 VKE 集群节点 Quota检查集群节点配额。配额耗尽会导致节点池无法添加节点,扩容失败。提交申请,提升配额。集群配额限制
VPC 子网剩余可用 IP检查 VPC 网络中的剩余 IP 地址数量是否 < 5。VPC 网络中的 IP 地址耗尽,会导致后续无法创建新的 ECS,节点池扩容失败。
VPC 安全组检查检查 VPC 安全组,安全组规则配置会影响集群内部网络连通性。配置安全组
是否开启弹性伸缩检查节点池是否开启了弹性伸缩。如未开启,可能导致节点池内的节点负载过高,无法自动扩容。开启节点池弹性伸缩功能。配置节点池弹性伸缩
CA 组件状态检查集群中是否安装了集群自动伸缩组件(cluster-autoscaler),以及组件状态是否正常。如果组件未安装或状态异常,会导致节点池无法进行弹性伸缩。安装集群自动伸缩组件(cluster-autoscaler)并保证组件正常。安装组件