本文汇总了实例自助诊断功能支持的所有诊断项、检测项、修复建议等详情。
诊断指标ID | 诊断项说明 | 影响 | 修复建议 |
---|---|---|---|
Instance.UtilizationHigh.CPU | 检测CPU平均使用率、单个CPU使用率或单个进程使用率是否过高。 | 可能会导致系统响应速度减慢,引发实例卡顿、程序无响应等。 | |
Instance.HighUtilization.Memory | 检测实例内存使用率是否过高。 | 内存使用率过高,可能会导致:
| |
Instance.RecentUtilHigh | 检测实例CPU、磁盘、网络的负载占用是否过高。 | CPU、磁盘、网络的负载占用过高,可能会导致系统卡顿、磁盘IO性能被限速、业务进程性能受损等异常问题。 | |
Instance.SystemLockUp | 检测是否存在Soft Lockup异常。 | Soft Lockup异常,可能会导致系统完全停止响应(不响应、卡死),无法处理任何输入或输出、无法登录等。 | |
检测是否存在Hard Lockup异常。 | Hard Lockup异常,可能会导致系统完全停止响应,无法处理任何输入或输出。 | 提交工单 | |
Instance.LoginAuth | 检测实例登录授权。 | 用户登录时输入密码/密钥错误,导致实例无法登录。 | 重置登录密码 |
Instance.HostCheck | 检测实例宿主机(物理机)是否存在异常事件。 | 实例所在宿主机历史存在异常事件,可能造成实例运行风险。 | 运维事件解释与处理 |
Instance.DependenceCheck | 检查实例依赖关键组件的连通性、组件是否正常。 | 实例组件和组件依赖组件的连通性异常,可能会导致实例产生带内Crash事件。 |
诊断指标ID | 诊断项说明 | 影响 | 修复建议 |
---|---|---|---|
Instance.BootFailure | 检测文件系统损坏。 | 文件系统损坏,可能会导致实例无法启动/登录。 | |
检测第三代云服务器实例Virtio版本过低。 | Virtio版本过低,可能会导致实例无法启动。 | ||
检测实例fstab挂载设备异常。 | fstab挂载设备异常,可能会导致实例无法启动。 |
诊断指标ID | 诊断项说明 | 影响 | 修复建议 |
---|---|---|---|
Instance.HighUtilization.Disk | 检测实例挂载的磁盘,磁盘空间使用率、磁盘Inode使用率是否过高。 | 使用率过高,可能会造成实例内的应用无法继续新建目录或者文件等。 | |
Instance.IOHang | 检测实例的系统盘是否存在IO延迟、IOHang的情况。 | 磁盘IO延迟升高、发生IOHang,可能会导致云盘无法进行读写操作。 | 为避免该情况再次发生,请您降低磁盘的读写频率或升级为更高性能的云盘类型。各类云盘的读写性能指标请参考块存储规格。 |
诊断指标ID | 诊断项说明 | 影响 | 修复建议 |
---|---|---|---|
GuestOS.CPUUtil | 检测实例CPU使用率是否过高。 | 实例CPU使用率过高,可能会导致系统响应速度减慢,引发实例卡顿、程序无响应等。 | |
GuestOS.MemUtil | 检测实例内存使用率是否过高。 | 内存使用率过高,可能会导致:
| |
GuestOS.OSOOM | 检测实例系统是否发生OOM。 | 实例系统内发生OOM,可能会造成内存分配失败。 | Linux实例存在OOM处理方法 |
GuestOS.DiskUtil | 检测实例磁盘相关配置、使用是否存在异常。 | 实例操作系统版本过低(异常),可能会引发IOHang现象。 | 如何规避由于操作系统内核版本过低出现IOHang问题 |
GuestOS.FileSystems | 检测fstab中的设备是否存在。 | 实例/etc/fstab文件中配置的某个设备不存在,可能会导致实例无法启动。 | Linux实例fstab配置修复方案 |
检测fstab是否正确挂载。 | 实例存在未在/etc/fstab中正确挂载的磁盘,可能会导致实例无法启动。 | ||
检测是否格式正确。 | 实例/etc/fstab文件中存在格式错误,可能会导致实例无法启动。 | ||
GuestOS.SSHServiceStatus | 检测SSH的访问权限配置是否开启了多因素认证。 | 实例SSH访问权限开启了多因素认证,登录时同时需要密码和密钥,可能会导致ECS Terminal无法登录。 | |
检测SSH是否允许root用户登录。 | 实例SSH服务当前禁止root账号登录,可能会导致实例root账号无法通过SSH访问。 | ||
检测SSH访问所需要的关键文件或目录是否存在。 | 实例SSH服务对应的关键文件或目录缺失,可能会导致实例无法通过SSH访问。 | ||
检测SSH访问所需要的关键文件格式是否异常。 | 实例SSH服务对应的关键文件格式错误,可能会导致实例无法通过SSH访问。 | ||
GuestOS.DriverStatus | 检测系统Virtio版本是否异常。 | 实例系统Virtio驱动版本较低(异常),可能会造成实例无法正常运行、实例磁盘无法在线扩容等。 | 三代实例因Virtio驱动问题无法启动的修复方案 |
GuestOS.CloudInitService | 检测Cloud Init服务状态。 | 实例的Cloud Init驱动处于异常状态,可能会导致实例在系统初始化阶段的相关系统配置无法正确执行,进而导致实例无法正常访问。 | |
检测Metaserver服务状态。 | 实例的Metaserver服务无法正常连接或连接超时,可能会导致实例的元数据无法正常访问。 | 网络建议配置解决方案 | |
GuestOS.SystemConfig | 检测SELinux是否开启。 | 实例当前SELinux服务开启,可能会导致SSH远程连接实例时无法登录。 | |
检测limits设置是否正确。 | 实例系统文件/etc/security/limits.conf中部分配置大于系统默认值,可能会导致实例无法远程登录。 | 调整Linux实例中limits系统参数的方法 | |
检测大页内存设置是否过大。 | 实例的大页内存设置过大,可能会导致实例内存不足,无法远程登录。 | 调整Linux实例大页内存的方法 | |
GuestOS.SystemUserPwd | 检查关键系统用户密码是否存在。 | 实例的系统账号不存在,可能会导致实例无法登录、关键进程无法启动等。 | Linux实例中系统用户不存在解决方案 |
GuestOS.Firewall | 检测实例系统防火墙状态。 | 实例系统开启防火墙,并设置了屏蔽外界访问的规则,可能会导致远程访问实例失败。 | 开启或关闭Linux实例中的系统防火墙 |
GuestOS.NetworkStatus | 检测实例带内访问OpenAPI 网关是否正常。 | 实例带内访问OpenAPI 网关异常,可能会造成带内监控丢失、无法访问OpenAPI等。 | 网络建议配置解决方案 |
检测DHCP配置情况下,网络相关进程是否存在。 | 实例网卡的DHCP服务进程处于关闭/不存在,可能会导致实例的IP地址在租约到期后无法续租,进而产生网络中断。 | ||
检测网络相关端口80、443端口是否处于监听状态。 | 实例网络相关端口可能会正在被监听。 | 建议确认监听端口的进程是否符合预期,防止被恶意进程监听。 | |
检测关键服务sshd是否处于监听状态。 | 实例sshd服务未启动,可能会造成实例无法远程登录。 | SSHD未启动处理方法 | |
检测网卡多队列是否开启。 | 实例未开启网卡多队列,可能会影响实例网络性能。 | 网络建议配置解决方案 |
诊断指标ID | 诊断项说明 | 影响 | 修复建议 |
---|---|---|---|
GuestOS.WinCPUUtil | 检测实例CPU使用率是否过高。 | 实例CPU使用率过高,可能会导致系统响应速度减慢,引发实例卡顿、程序无响应等。 | |
GuestOS.WinMemoryUtil | 检测内存相关配置、使用是否存在异常。 | 内存使用率过高,可能会导致:
| |
实例为硬件保留内存过多时,可能造成内存的负载增高,导致实例卡顿。 | Windows实例为硬件保留内存过多导致实例卡顿解决方案 | ||
GuestOS.WinDiskUtil | 检测系统盘容量使用率是否过高。 | 实例系统盘(C盘)当前的剩余空间过小,可能导致系统运行缓慢甚至实例无法启动。 | 扩容云盘(Windows) |
检测系统盘是否处于异常状态。 | 若实例的系统盘(C盘)若处于异常状态,可能会导致实例重启后无法启动,或实例驱动无法正常安装等情况。 | 说明 您还可以通过chkdsk命令检查所有磁盘的状态,发现并定位异常磁盘,通过sfc命令进行手动修复或替换。 | |
检测virtIO驱动版本是否过低。 | 若实例因virtIO驱动版本过低导致出现重复的磁盘uniqueID,在进行磁盘重置操作时可能会导致实例上磁盘数据丢失。 | Windows实例中更新Virtio驱动方法。 | |
GuestOS.WinSystemConfig | 检测关键系统文件是否缺失。 | 若实例系统目录(C:\Windows\)中的部分关键系统文件缺失,可能导致实例登录后出现黑屏或运行异常。 | Windows系统的ECS实例无法远程登录(黑屏)解决方案 |
检测系统激活状态是否正常。 | 若实例使用的Windows系统处于未激活状态,可能导致Windows的部分服务无法正常使用。 | Windows系统的ECS实例激活方法 | |
检测系统补丁是否正确。 | 若实例安装了不正确的系统补丁,可能导致系统异常重启或夯机。 | Windows实例中的系统补丁卸载方法 | |
检测软件保护平台服务是否正确运行或启动。 | 若实例的软件保护平台服务(SPPSVC)未正常启动或运行,可能导致Windows系统无法激活和无法进入激活设置项。 | Windows系统的ECS实例激活方法 | |
检测是否正确连接到密钥管理服务的激活服务器。 | 若实例当前无法正常连接到密钥管理服务(KMS)的激活服务器,可能导致实例激活失败。 | Windows系统ECS实例激活失败解决方案 | |
检测密钥管理服务与Windows版本匹配情况。 | 若实例采用密钥管理服务(KMS)激活Windows系统时,KMS客户机所使用的激活密钥与Windows版本不一致,将会导致Windows系统激活失败。 | ||
检测crash dump配置状态。 | 若实例的crash dump配置为关闭状态,当系统出现异常重启或蓝屏时,系统无法保存相关信息进行故障排查。 | Windows系统异常重启以及蓝屏的处理方法 | |
检测操作系统版本是否过低。 | 若实例的操作系统版本过低,火山引擎及微软已不再维护,可能影响您的正常使用,建议升级操作系统。 | 更换操作系统 | |
GuestOS.WinDriverStatus | 检测驱动是否存在残留。 | 实例的磁盘过滤驱动存在残留文件,可能导致实例无法识别新挂载的磁盘。 | Windows系统的ECS实例的磁盘驱动残留项检查方法 |
检测VirtIO驱动版本是否过低。 | 若实例的Virtio驱动版本过低低,可能影响实例出现蓝屏、网络丢包、磁盘数据丢失等风险。 | Windows实例中更新Virtio驱动方法。 | |
GuestOS.WinSystemProcess | 检测系统关键进程状态(远程桌面服务状态)。 | 若实例的远程桌面连接服务(RDP)被禁用或被破坏,可能导致实例无法通过远程桌面进行访问。 | 建议重启或重新安装远程桌面连接服务(RDP),重新安装远程桌面服务执行命令: 说明 请在cmd或PowerShell中执行下述命令。
|
检测系统关键进程状态(远程桌面服务防火墙状态)。 | 若实例的远程桌面连接服务(RDP)的访问被防火墙拦截,可能导致实例无法通过RDP进行访问。 | Windows Server系统的ECS实例防火墙策略的配置方法 | |
检测系统关键进程状态(远程桌面服务许可证状态)。 | 若实例的多人远程桌面服务的许可证已到期,可能导致RDP服务无法正常使用,进而导致实例无法通过远程桌面进行访问。 | Windows系统的ECS实例远程登录失败(服务认证到期导致)的解决方案 | |
检测系统关键进程状态(服务器元数据服务状态)。 | 若实例的元数据服务(metaserver)目前无法正常连接或连接超时,可能导致实例的元数据无法正常访问。 | 说明 请检查实例的防火墙配置是否拦截了IP地址100.96.0.96,如果该IP地址被拦截,请在防火墙设置中放行该IP地址后再访问元数据服务。关于防火墙策略配置。 | |
GuestOS.WinSystemInit | 检测系统初始化状态。 | 实例因创建时过早重启实例导致系统准备服务(SysPrep)的初始化过程中断,操作系统的部分关键配置未能正确完成,可能导致实例无法正常启动。 | |
GuestOS.WinSystemUser | 检测系统账号和密码是否存在。 | 实例的Administrator账号不存在,可能会导致实例无法登录、关键进程无法启动等。 | Windows系统实例中系统用户不存在的解决方案 |
GuestOS.WinNetworkStatus | 检测系统端口状态。 | 若实例系统内端口目前处于未开放状态,或者防火墙处于开启状态,可能导致无法使用远程桌面连接RDP服务来访问该实例。 | Windows系统实例启动远程桌面连接RDP服务的方法 |
检测远端桌面协议服务端口状态。 | 若实例的远程桌面协议(RDP)服务所使用的端口被其他进程占用,出现端口冲突,可能导致实例无法通过远程桌面进行访问。 | Windows系统的实例远程登录时发生端口冲突的解决方案 | |
检测实例网卡状态。 | 若实例的网卡目前处于不可用状态,可能导致实例无法远程连接。 | Windows实例中系统网卡处于不可用状态修复方法 | |
检测DHCP配置情况下,网络相关进程是否存在。 | 若实例网卡的DHCP服务进程处于关闭状态,可能导致实例的IP地址在租约到期后无法续租,进而产生网络中断的问题。 | Windows实例中安装和配置DHCP服务器方法 | |
检测网卡IP地址是否获取。 | 若实例的某个网卡未获取到IPv4地址,可能会导致服务无法访问的情况。 | ||
检测网络代理状态。 | 若实例配置了网络代理,可能会导致服务无法正常访问的情况。 | Windows实例中重置代理的方法 | |
GuestOS.WinLogin | 检查登录状态。 | 实例由于多次输入错误密码导致被锁定用户账号,无法登录。 | Windows实例账户锁定策略阈值调整方法 |
GuestOS.WinThirdPartSoftware | 检测第三方软件安装状态。 | 若实例安装了第三方杀毒软件,可能导致实例的某些管理操作(比如重置密码、无法远程连接等)无法正常工作,进而造成实例异常。 | Windows实例中卸载或删除应用和程序的方法 |
诊断指标ID | 诊断项说明 | 影响 | 修复建议 |
---|---|---|---|
GuestOS.RdmaAgentService | 检测RDMA网络配置器状态。 | 实例内rdma-agent.service服务未正常运行,可能引起RDMA网络无法正常使用、RDMA网络性能不达预期等情况。 | RDMA网络配置器未正常执行解决方案 |
GuestOS.Nvidia.DriverStatus | 检测GPU驱动版本。 | 实例内未检测到GPU驱动或驱动无响应,可能导致GPU无法正确使用。 | |
GuestOS.Nvidia.FabricmanagerService | 检测实例上nvidia-fabricmanager.service服务状态。 | 实例内nvidia-fabricmanager.service服务状态异常,GPU将无法正确使用。 | nvidia-fabricmanager.service状态异常解决方案 |
GuestOS.Nvidia.ModStatus | 检测实例上GPU所需内核模块是否加载。 | 实例内GPU所需内核模块未加载,可能导致GPU部分功能无法正确使用、GPU性能下降等。 | NVIDIA所需内核模块未加载解决方案 |
GuestOS.Nvidia.NicConfig | 检测实例中RDMA网卡的片上配置是否正常。 | 实例内RDMA网卡的片上配置错误,可能导致RDMA网卡无法正确使用、RDMA网卡性能下降等。 | 提交工单 |
GuestOS.Nvidia.RailOptimized | 检测实例中RDMA网卡是否进行多轨道组网。 | 实例内RDMA网卡未多轨道组网,可能导致RDMA网络性能下降。 | 提交工单 |
GuestOS.MonitorStatus | 检测实例中火山引擎监控服务是否正常运行。 | 实例内监控服务未安装或状态异常,可能导致实例异常发现不及时。 | 安装插件 |
GuestOS.Nvidia.NvmlStatus | 检测实例中nvidia NVML链接库是否正常。 | 实例内NVIDIA NVML链接库无法正常链接,可能导致实例中GPU异常发现不及时。 | NVML链接库链接异常解决方案 |
GuestOS.Nvidia.OfedStatus | 检测实例中是否正确安装RDMA网卡驱动,是否能正确获取RDMA网卡驱动版本。 | 实例内未检测到RDMA网卡驱动,可能导致RDMA网卡无法正确使用。 | 提交工单 |
GuestOS.Nvidia.Gdr | 检测实例中GPU的GDR性能。 |
| |
GuestOS.Nvidia.RdmaNic | 检测RDMA网卡性能和连通性。 | 实例内RDMA网卡性能偏低或实例内RDMA网卡之间无法连通。 | 提交工单 |
GuestOS.Nvidia.NcclTest | 检测实例中nvidia nccl-tests单机性能是否异常。 | 实例上NVIDIA nccl-tests检测结果性能偏低。 | 提交工单 |
GuestOS.Nvidia.H2dBandwidthTest | 检测实例中GPU与主机间带宽性能是否异常。 | 实例上GPU与主机间带宽性能偏低。 | 提交工单 |
GuestOS.Nvidia.P2PBandwidthTest | 检测实例中GPU与GPU间带宽性能和连通性是否异常。 | 实例上GPU与GPU之间的带宽性能偏低或无法连通。 | 提交工单 |
GuestOS.Nvidia.DcgmTest | 检测NVIDIA DCGM是否全部通过。 | 可能导致其他NVIDIA GPU异常等。 | 提交工单 |
GuestOS.Hpc.ConnectivityTest | 检测集群中RDMA网卡与交换机连通性,以及交换机的连通性。 | 实例中存在未与集群连通的RDMA网卡。 | 提交工单 |
GuestOS.Hpc.HpcEnvironmentTest | 检测高性能计算GPU型实例是否在同一高性能计算集群中。 | 存在所选实例与其他实例不在同一个高性能计算集群中,将会导致资源利用不充分或不均衡等。 | 提交工单 |
GuestOS.Hpc.NcclTests | 检测集群内实例之间的nccl-tests建连情况。 | 若集群NVIDIA nccl-tests建连失败,请结合异构机型性能异常诊断项的检测结果进行排查和分析。 | 提交工单 |
检测集群内实例之间的nccl-tests性能。 | 若集群内NVIDIA nccl-tests检查结果性能偏低,请结合异构机型性能异常诊断项的检测结果进行排查和分析;若检查过程中,GPU上有其他负载存在,请忽略此错误,如存在其他GPU问题,请修复后重试。 | 提交工单 |