火山引擎提供了对云服务器实例的监控服务,丰富的监控指标、基于事件维度的监控功能、可视化的数据展示,可以帮助您掌握已创建资源的运行状态。您还可以自定义指标阈值、告警通知、事件监控规则等能力,在实例异常状态时能够及时知晓,确保业务平稳运行。
云服务器支持从多方面对云服务器实例的指标状态进行监控。
说明
下表均为单实例查看方式,您还可以通过监控大盘查看多实例操作系统监控指标。
功能/操作 | 说明 |
---|---|
云服务器监控指标 | 展示云服务器各指标的中英文名称、MetricName、用途、说明等信息。 |
查看基础监控数据 | 对实例的一些基本性能指标进行监控,包括CPU、网络、磁盘等,便于了解实例的整体负载和资源消耗情况。 |
查看操作系统监控数据 | 对实例所运行的操作系统本身进行监控,包括操作系统的CPU、内存、磁盘、网络、网卡等,以获取更深层、更准确的实例运行情况。 |
查看TCP连接监控 | 对实例操作系统的TCP连接状态进行监控,包括本地IP(local)与远程IP(remote)间,TCP发送/接收字节数、连接重传次数等指标信息,以便及时发现实例操作系统TCP连接情况。 |
管理进程监控 | 对云服务器内活跃进程进行监控,包括CPU使用率、内存使用率等指标信息,有助于了解进程对系统资源的消耗程度,及时发现资源消耗过高的进程等。 |
查看实例GPU监控数据 | 仅针对GPU云服务器指标进行监控,包括GPU的使用率、显存使用率、GPU温度等指标信息,便于了解该实例显存使用量、GPU使用率等。 |
查看实例RDMA监控数据 | 仅针对GPU云服务器的RDMA网络指标进行监控,包括RDMA网络流入/流出速率、接收/发送的RDMA数据包数量、RDMA网络出/入方向暂停包数量”等指标信息,便于了解实例RDMA网络相关信息。 |
若您需要火山引擎在监控指标达到指定阈值时向您发送告警通知,可自行配置告警规则。
功能/操作 | 说明 |
---|---|
配置指标监控告警 | 默认预置了云服务器实例CPU、磁盘资源使用率的告警模板(告警策略),您可以一键开启,以便及时接收实例资源告警通知。 |
配置云服务器告警策略 | 您可以根据需求自行配置告警策略,以便监控更多的指标。 |
查看云服务器告警历史 | 您可以在控制台查看云服务器告警历史信息,了解指标的异常轨迹。 |
云服务器实例支持事件维度的监控功能,详情可查看:
若您需要火山引擎在实例触发指定监控事件时向您发送告警通知,可自行配置事件告警规则与通知渠道。详情可查看:
火山引擎为您提供过了实例健康情况监控功能,可以自动检测实例软件和硬件运行信息并汇总计算实例健康度,帮助您通过控制台快速了解实例健康情况。详情请查看实例健康情况。