You need to enable JavaScript to run this app.
导航
监控概述
最近更新时间:2024.09.19 10:01:12首次发布时间:2021.07.09 13:31:09

火山引擎提供了对云服务器实例的监控服务,丰富的监控指标、基于事件维度的监控功能、可视化的数据展示,可以帮助您掌握已创建资源的运行状态。您还可以自定义指标阈值、告警通知、事件监控规则等能力,在实例异常状态时能够及时知晓,确保业务平稳运行。

功能架构

指标监控

云服务器支持从多方面对云服务器实例的指标状态进行监控。

说明

下表均为单实例查看方式,您还可以通过监控大盘查看多实例操作系统监控指标。

功能/操作说明
云服务器监控指标展示云服务器各指标的中英文名称、MetricName、用途、说明等信息。
查看基础监控数据对实例的一些基本性能指标进行监控,包括CPU、网络、磁盘等,便于了解实例的整体负载和资源消耗情况。
查看操作系统监控数据对实例所运行的操作系统本身进行监控,包括操作系统的CPU、内存、磁盘、网络、网卡等,以获取更深层、更准确的实例运行情况。
查看TCP连接监控对实例操作系统的TCP连接状态进行监控,包括本地IP(local)与远程IP(remote)间,TCP发送/接收字节数、连接重传次数等指标信息,以便及时发现实例操作系统TCP连接情况。
管理进程监控对云服务器内活跃进程进行监控,包括CPU使用率、内存使用率等指标信息,有助于了解进程对系统资源的消耗程度,及时发现资源消耗过高的进程等。
查看实例GPU监控数据仅针对GPU云服务器指标进行监控,包括GPU的使用率、显存使用率、GPU温度等指标信息,便于了解该实例显存使用量、GPU使用率等。
查看实例RDMA监控数据仅针对GPU云服务器的RDMA网络指标进行监控,包括RDMA网络流入/流出速率、接收/发送的RDMA数据包数量、RDMA网络出/入方向暂停包数量”等指标信息,便于了解实例RDMA网络相关信息。

若您需要火山引擎在监控指标达到指定阈值时向您发送告警通知,可自行配置告警规则。

功能/操作说明
配置指标监控告警默认预置了云服务器实例CPU、磁盘资源使用率的告警模板(告警策略),您可以一键开启,以便及时接收实例资源告警通知。
配置云服务器告警策略您可以根据需求自行配置告警策略,以便监控更多的指标。
查看云服务器告警历史您可以在控制台查看云服务器告警历史信息,了解指标的异常轨迹。

事件监控

云服务器实例支持事件维度的监控功能,详情可查看:

若您需要火山引擎在实例触发指定监控事件时向您发送告警通知,可自行配置事件告警规则与通知渠道。详情可查看:

实例健康状态监控

火山引擎为您提供过了实例健康情况监控功能,可以自动检测实例软件和硬件运行信息并汇总计算实例健康度,帮助您通过控制台快速了解实例健康情况。详情请查看实例健康情况