You need to enable JavaScript to run this app.
导航
诊断项汇总
最近更新时间:2024.11.15 09:58:55首次发布时间:2024.04.03 15:47:01

本文汇总了实例自助诊断功能支持的所有诊断项、检测项、修复建议等详情。

计算服务健康诊断

诊断指标ID
诊断项说明
影响
修复建议

Instance.UtilizationHigh.CPU

检测CPU平均使用率、单个CPU使用率或单个进程使用率是否过高。

可能会导致系统响应速度减慢,引发实例卡顿、程序无响应等。

Linux系统的ECS实例CPU使用率或CPU负载较高问题的排查及解决方案

Instance.HighUtilization.Memory

检测实例内存使用率是否过高。

内存使用率过高,可能会导致:

  • 系统频繁进行内存交换,导致程序响应变慢、性能显著下降等。

  • 内存资源耗尽,无法分配足够的内存给新的进程或任务,引起程序无响应、系统崩溃等。

Linux系统的ECS实例内存使用率较高问题的排查及解决方案

Instance.RecentUtilHigh

检测实例CPU、磁盘、网络的负载占用是否过高。

CPU、磁盘、网络的负载占用过高,可能会导致系统卡顿、磁盘IO性能被限速、业务进程性能受损等异常问题。

Instance.SystemLockUp

检测是否存在Soft Lockup异常。

Soft Lockup异常,可能会导致系统完全停止响应(不响应、卡死),无法处理任何输入或输出、无法登录等。

虚拟机Softlock up问题解决方案

检测是否存在Hard Lockup异常。Hard Lockup异常,可能会导致系统完全停止响应,无法处理任何输入或输出。提交工单
Instance.LoginAuth检测实例登录授权。用户登录时输入密码/密钥错误,导致实例无法登录。重置登录密码
Instance.HostCheck检测实例宿主机(物理机)是否存在异常事件。实例所在宿主机历史存在异常事件,可能造成实例运行风险。运维事件解释与处理

Instance.DependenceCheck

检查实例依赖关键组件的连通性、组件是否正常。

实例组件和组件依赖组件的连通性异常,可能会导致实例产生带内Crash事件。

提交工单

实例配置管理诊断

诊断指标ID
诊断项说明
影响
修复建议

Instance.BootFailure

检测文件系统损坏。

文件系统损坏,可能会导致实例无法启动/登录。

Linux实例文件系统损坏修复方案

检测第三代云服务器实例Virtio版本过低。

Virtio版本过低,可能会导致实例无法启动。

三代实例因Virtio驱动问题无法启动的修复方案

检测实例fstab挂载设备异常。

fstab挂载设备异常,可能会导致实例无法启动。

Linux实例fstab配置修复方案

存储服务健康诊断

诊断指标ID
诊断项说明
影响
修复建议

Instance.HighUtilization.Disk

检测实例挂载的磁盘,磁盘空间使用率、磁盘Inode使用率是否过高。

使用率过高,可能会造成实例内的应用无法继续新建目录或者文件等。

Instance.IOHang检测实例的系统盘是否存在IO延迟、IOHang的情况。磁盘IO延迟升高、发生IOHang,可能会导致云盘无法进行读写操作。为避免该情况再次发生,请您降低磁盘的读写频率或升级为更高性能的云盘类型。各类云盘的读写性能指标请参考块存储规格

实例操作系统内相关配置诊断(Linux)

诊断指标ID
诊断项说明
影响
修复建议

GuestOS.CPUUtil

检测实例CPU使用率是否过高。

实例CPU使用率过高,可能会导致系统响应速度减慢,引发实例卡顿、程序无响应等。

Linux系统的ECS实例CPU使用率或CPU负载较高问题的排查及解决方案

GuestOS.MemUtil

检测实例内存使用率是否过高。

内存使用率过高,可能会导致:

  • 系统频繁进行内存交换,导致程序响应变慢、性能显著下降等。

  • 内存资源耗尽,无法分配足够的内存给新的进程或任务,引起程序无响应、系统崩溃等。

Linux系统的ECS实例内存使用率较高问题的排查及解决方案

GuestOS.OSOOM检测实例系统是否发生OOM。实例系统内发生OOM,可能会造成内存分配失败。Linux实例存在OOM处理方法
GuestOS.DiskUtil检测实例磁盘相关配置、使用是否存在异常。实例操作系统版本过低(异常),可能会引发IOHang现象。如何规避由于操作系统内核版本过低出现IOHang问题
GuestOS.FileSystems检测fstab中的设备是否存在。实例/etc/fstab文件中配置的某个设备不存在,可能会导致实例无法启动。Linux实例fstab配置修复方案
检测fstab是否正确挂载。实例存在未在/etc/fstab中正确挂载的磁盘,可能会导致实例无法启动。

检测是否格式正确。

实例/etc/fstab文件中存在格式错误,可能会导致实例无法启动。

GuestOS.SSHServiceStatus

检测SSH的访问权限配置是否开启了多因素认证。

实例SSH访问权限开启了多因素认证,登录时同时需要密码和密钥,可能会导致ECS Terminal无法登录。

SSH配置问题导致无法登陆解决方案

检测SSH是否允许root用户登录。实例SSH服务当前禁止root账号登录,可能会导致实例root账号无法通过SSH访问。
检测SSH访问所需要的关键文件或目录是否存在。实例SSH服务对应的关键文件或目录缺失,可能会导致实例无法通过SSH访问。
检测SSH访问所需要的关键文件格式是否异常。实例SSH服务对应的关键文件格式错误,可能会导致实例无法通过SSH访问。
GuestOS.DriverStatus检测系统Virtio版本是否异常。实例系统Virtio驱动版本较低(异常),可能会造成实例无法正常运行、实例磁盘无法在线扩容等。三代实例因Virtio驱动问题无法启动的修复方案

GuestOS.CloudInitService

检测Cloud Init服务状态。

实例的Cloud Init驱动处于异常状态,可能会导致实例在系统初始化阶段的相关系统配置无法正确执行,进而导致实例无法正常访问。

Linux系统中安装Cloud Init

检测Metaserver服务状态。实例的Metaserver服务无法正常连接或连接超时,可能会导致实例的元数据无法正常访问。网络建议配置解决方案

GuestOS.SystemConfig

检测SELinux是否开启。

实例当前SELinux服务开启,可能会导致SSH远程连接实例时无法登录。

网络建议配置解决方案

检测limits设置是否正确。实例系统文件/etc/security/limits.conf中部分配置大于系统默认值,可能会导致实例无法远程登录。调整Linux实例中limits系统参数的方法
检测大页内存设置是否过大。实例的大页内存设置过大,可能会导致实例内存不足,无法远程登录。调整Linux实例大页内存的方法
GuestOS.SystemUserPwd检查关键系统用户密码是否存在。实例的系统账号不存在,可能会导致实例无法登录、关键进程无法启动等。Linux实例中系统用户不存在解决方案
GuestOS.Firewall检测实例系统防火墙状态。实例系统开启防火墙,并设置了屏蔽外界访问的规则,可能会导致远程访问实例失败。开启或关闭Linux实例中的系统防火墙
GuestOS.NetworkStatus检测实例带内访问OpenAPI 网关是否正常。实例带内访问OpenAPI 网关异常,可能会造成带内监控丢失、无法访问OpenAPI等。网络建议配置解决方案

检测DHCP配置情况下,网络相关进程是否存在。

实例网卡的DHCP服务进程处于关闭/不存在,可能会导致实例的IP地址在租约到期后无法续租,进而产生网络中断。

Linux系统网络不存在处理方法

检测网络相关端口80、443端口是否处于监听状态。

实例网络相关端口可能会正在被监听。

建议确认监听端口的进程是否符合预期,防止被恶意进程监听。

检测关键服务sshd是否处于监听状态。实例sshd服务未启动,可能会造成实例无法远程登录。SSHD未启动处理方法
检测网卡多队列是否开启。实例未开启网卡多队列,可能会影响实例网络性能。网络建议配置解决方案

实例操作系统内相关配置诊断(Windows)

诊断指标ID
诊断项说明
影响
修复建议

GuestOS.WinCPUUtil

检测实例CPU使用率是否过高。

实例CPU使用率过高,可能会导致系统响应速度减慢,引发实例卡顿、程序无响应等。

Windows系统的ECS实例CPU使用率或负载较高问题的排查及解决方案

GuestOS.WinMemoryUtil

检测内存相关配置、使用是否存在异常。

内存使用率过高,可能会导致:

  • 系统频繁进行内存交换,导致程序响应变慢、性能显著下降等。

  • 内存资源耗尽,无法分配足够的内存给新的进程或任务,引起程序无响应、系统崩溃等。

Windows系统的ECS实例内存使用率较高问题的排查及解决方案

实例为硬件保留内存过多时,可能造成内存的负载增高,导致实例卡顿。Windows实例为硬件保留内存过多导致实例卡顿解决方案
GuestOS.WinDiskUtil检测系统盘容量使用率是否过高。实例系统盘(C盘)当前的剩余空间过小,可能导致系统运行缓慢甚至实例无法启动。扩容云盘(Windows)

检测系统盘是否处于异常状态。

若实例的系统盘(C盘)若处于异常状态,可能会导致实例重启后无法启动,或实例驱动无法正常安装等情况。

说明

您还可以通过chkdsk命令检查所有磁盘的状态,发现并定位异常磁盘,通过sfc命令进行手动修复或替换。

检测virtIO驱动版本是否过低。若实例因virtIO驱动版本过低导致出现重复的磁盘uniqueID,在进行磁盘重置操作时可能会导致实例上磁盘数据丢失。Windows实例中更新Virtio驱动方法
GuestOS.WinSystemConfig检测关键系统文件是否缺失。若实例系统目录(C:\Windows\)中的部分关键系统文件缺失,可能导致实例登录后出现黑屏或运行异常。Windows系统的ECS实例无法远程登录(黑屏)解决方案
检测系统激活状态是否正常。若实例使用的Windows系统处于未激活状态,可能导致Windows的部分服务无法正常使用。Windows系统的ECS实例激活方法
检测系统补丁是否正确。若实例安装了不正确的系统补丁,可能导致系统异常重启或夯机。Windows实例中的系统补丁卸载方法
检测软件保护平台服务是否正确运行或启动。若实例的软件保护平台服务(SPPSVC)未正常启动或运行,可能导致Windows系统无法激活和无法进入激活设置项。Windows系统的ECS实例激活方法
检测是否正确连接到密钥管理服务的激活服务器。若实例当前无法正常连接到密钥管理服务(KMS)的激活服务器,可能导致实例激活失败。Windows系统ECS实例激活失败解决方案
检测密钥管理服务与Windows版本匹配情况。若实例采用密钥管理服务(KMS)激活Windows系统时,KMS客户机所使用的激活密钥与Windows版本不一致,将会导致Windows系统激活失败。
检测crash dump配置状态。若实例的crash dump配置为关闭状态,当系统出现异常重启或蓝屏时,系统无法保存相关信息进行故障排查。Windows系统异常重启以及蓝屏的处理方法
检测操作系统版本是否过低。若实例的操作系统版本过低,火山引擎及微软已不再维护,可能影响您的正常使用,建议升级操作系统。更换操作系统
GuestOS.WinDriverStatus检测驱动是否存在残留。实例的磁盘过滤驱动存在残留文件,可能导致实例无法识别新挂载的磁盘。Windows系统的ECS实例的磁盘驱动残留项检查方法
检测VirtIO驱动版本是否过低。若实例的Virtio驱动版本过低低,可能影响实例出现蓝屏、网络丢包、磁盘数据丢失等风险。Windows实例中更新Virtio驱动方法

GuestOS.WinSystemProcess

检测系统关键进程状态(远程桌面服务状态)。

若实例的远程桌面连接服务(RDP)被禁用或被破坏,可能导致实例无法通过远程桌面进行访问。

建议重启或重新安装远程桌面连接服务(RDP),重新安装远程桌面服务执行命令:

说明

请在cmd或PowerShell中执行下述命令。

  • net stop TermService
  • net start TermService
检测系统关键进程状态(远程桌面服务防火墙状态)。若实例的远程桌面连接服务(RDP)的访问被防火墙拦截,可能导致实例无法通过RDP进行访问。Windows Server系统的ECS实例防火墙策略的配置方法
检测系统关键进程状态(远程桌面服务许可证状态)。若实例的多人远程桌面服务的许可证已到期,可能导致RDP服务无法正常使用,进而导致实例无法通过远程桌面进行访问。Windows系统的ECS实例远程登录失败(服务认证到期导致)的解决方案

检测系统关键进程状态(服务器元数据服务状态)。

若实例的元数据服务(metaserver)目前无法正常连接或连接超时,可能导致实例的元数据无法正常访问。

实例元数据概述

说明

请检查实例的防火墙配置是否拦截了IP地址100.96.0.96,如果该IP地址被拦截,请在防火墙设置中放行该IP地址后再访问元数据服务。关于防火墙策略配置

GuestOS.WinSystemInit

检测系统初始化状态。

实例因创建时过早重启实例导致系统准备服务(SysPrep)的初始化过程中断,操作系统的部分关键配置未能正确完成,可能导致实例无法正常启动。

更换操作系统

GuestOS.WinSystemUser检测系统账号和密码是否存在。实例的Administrator账号不存在,可能会导致实例无法登录、关键进程无法启动等。Windows系统实例中系统用户不存在的解决方案
GuestOS.WinNetworkStatus检测系统端口状态。若实例系统内端口目前处于未开放状态,或者防火墙处于开启状态,可能导致无法使用远程桌面连接RDP服务来访问该实例。Windows系统实例启动远程桌面连接RDP服务的方法
检测远端桌面协议服务端口状态。若实例的远程桌面协议(RDP)服务所使用的端口被其他进程占用,出现端口冲突,可能导致实例无法通过远程桌面进行访问。Windows系统的实例远程登录时发生端口冲突的解决方案
检测实例网卡状态。若实例的网卡目前处于不可用状态,可能导致实例无法远程连接。Windows实例中系统网卡处于不可用状态修复方法
检测DHCP配置情况下,网络相关进程是否存在。若实例网卡的DHCP服务进程处于关闭状态,可能导致实例的IP地址在租约到期后无法续租,进而产生网络中断的问题。Windows实例中安装和配置DHCP服务器方法
检测网卡IP地址是否获取。若实例的某个网卡未获取到IPv4地址,可能会导致服务无法访问的情况。
检测网络代理状态。若实例配置了网络代理,可能会导致服务无法正常访问的情况。Windows实例中重置代理的方法
GuestOS.WinLogin检查登录状态。实例由于多次输入错误密码导致被锁定用户账号,无法登录。Windows实例账户锁定策略阈值调整方法
GuestOS.WinThirdPartSoftware检测第三方软件安装状态。若实例安装了第三方杀毒软件,可能导致实例的某些管理操作(比如重置密码、无法远程连接等)无法正常工作,进而造成实例异常。Windows实例中卸载或删除应用和程序的方法

异构计算(GPU)诊断

诊断指标ID
诊断项说明
影响
修复建议
GuestOS.RdmaAgentService检测RDMA网络配置器状态。实例内rdma-agent.service服务未正常运行,可能引起RDMA网络无法正常使用、RDMA网络性能不达预期等情况。RDMA网络配置器未正常执行解决方案

GuestOS.Nvidia.DriverStatus

检测GPU驱动版本。

实例内未检测到GPU驱动或驱动无响应,可能导致GPU无法正确使用。

安装GPU驱动

GuestOS.Nvidia.FabricmanagerService检测实例上nvidia-fabricmanager.service服务状态。实例内nvidia-fabricmanager.service服务状态异常,GPU将无法正确使用。nvidia-fabricmanager.service状态异常解决方案
GuestOS.Nvidia.ModStatus检测实例上GPU所需内核模块是否加载。实例内GPU所需内核模块未加载,可能导致GPU部分功能无法正确使用、GPU性能下降等。NVIDIA所需内核模块未加载解决方案
GuestOS.Nvidia.NicConfig检测实例中RDMA网卡的片上配置是否正常。实例内RDMA网卡的片上配置错误,可能导致RDMA网卡无法正确使用、RDMA网卡性能下降等。提交工单
GuestOS.Nvidia.RailOptimized检测实例中RDMA网卡是否进行多轨道组网。实例内RDMA网卡未多轨道组网,可能导致RDMA网络性能下降。提交工单
GuestOS.MonitorStatus检测实例中火山引擎监控服务是否正常运行。实例内监控服务未安装或状态异常,可能导致实例异常发现不及时。安装插件
GuestOS.Nvidia.NvmlStatus检测实例中nvidia NVML链接库是否正常。实例内NVIDIA NVML链接库无法正常链接,可能导致实例中GPU异常发现不及时。NVML链接库链接异常解决方案
GuestOS.Nvidia.OfedStatus检测实例中是否正确安装RDMA网卡驱动,是否能正确获取RDMA网卡驱动版本。实例内未检测到RDMA网卡驱动,可能导致RDMA网卡无法正确使用。提交工单

GuestOS.Nvidia.Gdr

检测实例中GPU的GDR性能。

  • 若性能异常,可能导致实例内RDMA网卡到GPU之间GDR性能偏低。

  • 若性能测试无法启动,可能导致实例内RDMA网卡与GPU之间无法建立GDR连接。

提交工单

GuestOS.Nvidia.RdmaNic检测RDMA网卡性能和连通性。实例内RDMA网卡性能偏低或实例内RDMA网卡之间无法连通。提交工单
GuestOS.Nvidia.NcclTest检测实例中nvidia nccl-tests单机性能是否异常。实例上NVIDIA nccl-tests检测结果性能偏低。提交工单
GuestOS.Nvidia.H2dBandwidthTest检测实例中GPU与主机间带宽性能是否异常。实例上GPU与主机间带宽性能偏低。提交工单
GuestOS.Nvidia.P2PBandwidthTest检测实例中GPU与GPU间带宽性能和连通性是否异常。实例上GPU与GPU之间的带宽性能偏低或无法连通。提交工单
GuestOS.Nvidia.DcgmTest检测NVIDIA DCGM是否全部通过。可能导致其他NVIDIA GPU异常等。提交工单
GuestOS.Hpc.ConnectivityTest检测集群中RDMA网卡与交换机连通性,以及交换机的连通性。实例中存在未与集群连通的RDMA网卡。提交工单
GuestOS.Hpc.HpcEnvironmentTest检测高性能计算GPU型实例是否在同一高性能计算集群中。存在所选实例与其他实例不在同一个高性能计算集群中,将会导致资源利用不充分或不均衡等。提交工单
GuestOS.Hpc.NcclTests检测集群内实例之间的nccl-tests建连情况。若集群NVIDIA nccl-tests建连失败,请结合异构机型性能异常诊断项的检测结果进行排查和分析。提交工单
检测集群内实例之间的nccl-tests性能。若集群内NVIDIA nccl-tests检查结果性能偏低,请结合异构机型性能异常诊断项的检测结果进行排查和分析;若检查过程中,GPU上有其他负载存在,请忽略此错误,如存在其他GPU问题,请修复后重试。提交工单