基础监控是平台最基本的监控功能,包括对于主机、容器、进程的CPU、磁盘、IO、iNode、内存、GPU等相关指标的监控。
主机列表展示接入监控的主机列表及其运行状态、CPU使用率、IO、负载信息。
所有指标均支持排序,支持选择时间范围、根据主机名过滤数据和根据标签筛选数据,可根据业务需求快速选择主机。
单击主机名展示该主机各指标的趋势图,包括CPU、负载、内存等指标。
主机监控指标说明如下表所示:
指标名 | 指标 | 说明 | 单位 |
---|---|---|---|
cpu idle比例 | host.cpu.idl_ratio | 主机CPU空闲比例,处于idle(非iowait)下的CPU占比。比例计算方式为idle时间/总CPU时间。 | % |
cpu总使用比例 | host.cpu.total_used_ratio | 主机CPU总使用比例,为用户使用比例与系统使用比例之和。 | % |
cpu user比例 | host.cpu.user_ratio | 主机CPU用户使用比例,用户空间消耗的CPU时间占比。 | % |
cpu system比例 | host.cpu.system_ratio | 主机CPU系统使用比例,内核空间消耗的CPU时间占比。 | % |
cpu iowait比例 | host.cpu.iowait_ratio | 主机CPU iowait比例,处于idle(iowait)下的CPU时间占比。 | % |
cpu stolen比例 | host.cpu.stolen_ratio | 主机CPU steal比例。仅与虚拟化环境相关,由于虚拟机管理程序从该VM“偷走”了CPU,导致该CPU对当前虚拟机不可用的时间占比。如果特定虚拟机上的"Steal Time"很高,则表明该虚拟机在过载或者负荷较大的物理主机上运行。 | % |
cpu guest比例 | host.cpu.guest_ratio | 主机CPU guest比例。表示运行虚拟机的CPU时间占比。 | % |
cpu nice比例 | host.cpu.nice_ratio | 主机CPU nice比例。表示nice为正值(低优先级)的用户态进程CPU使用占比。 | % |
内存可用 | host.memory.available | 主机内存可用量。 | Byte |
内存使用 | host.memory.used | 主机内存使用量。 | Byte |
内存可用比例 | host.memory.available_ratio | 主机内存可用比例。计算方式为主机内存可用量/主机内存总量。 | % |
内存使用比例 | host.memory.used_ratio | 主机内存使用比例。计算方式为主机内存使用量/主机内存总量。 | % |
过去1分钟平均负载 | host.load.1m | 过去1分钟平均负载。过去1分钟CPU正在执行及等待执行的平均进程数量。 | - |
过去5分钟平均负载 | host.load.5m | 过去5分钟平均负载。过去5分钟CPU正在执行及等待执行的平均进程数量。 | - |
过去15分钟平均负载 | host.load.15m | 过去15分钟平均负载。过去15分钟CPU正在执行及等待执行的平均进程数量。 | - |
磁盘空间使用比例 | host.disk.bytes_used_ratio | 磁盘使用比例。计算方式为磁盘空间使用量/磁盘总量。 | % |
磁盘空间可用比例 | host.disk.bytes_free_ratio | 磁盘可用比例。计算方式为主机空间可用量/磁盘总量。 | % |
磁盘空间使用 | host.disk.bytes_used | 磁盘空间使用量。 | Byte |
磁盘空间可用 | host.disk.bytes_free | 主机空间可用量。 | Byte |
IO延迟 | host.disk.io.lantency | 读写磁盘平均延时。 | ms |
读IO延迟 | host.disk.io.read_latency | 读磁盘平均延迟。 | ms |
写IO延迟 | host.disk.io.write_latency | 写磁盘平均延迟。 | ms |
读IOPS | host.disk.io.read_qps | 读磁盘的每秒次数。 | /s |
写IOPS | host.disk.io.write_qps | 写磁盘的每秒次数。 | /s |
磁盘合并读 | host.disk.io.read_merged_qps | 合并读磁盘的每秒次数。 | /s |
磁盘合并写 | host.disk.io.write_merged_qps | 合并写磁盘的每秒次数。 | /s |
读IO吞吐量 | host.disk.io.read_bytes_rate | 读磁盘的每秒byte数。 | Byte/s |
写IO吞吐量 | host.disk.io.write_bytes_rate | 写磁盘的每秒byte数。 | Byte/s |
磁盘挂载点空间使用比例 | host.disk_mount.bytes_used_ratio | 磁盘挂载点空间使用比例。 | % |
磁盘挂载点空间可用比例 | host.disk_mount.bytes_free_ratio | 磁盘挂载点空间可用比例。 | % |
磁盘挂载点空间使用 | host.disk_mount.bytes_used | 磁盘挂载点空间使用量。 | Byte |
磁盘挂载点空间可用 | host.disk_mount.bytes_free | 磁盘挂载点空间可用量。 | Byte |
磁盘挂载点INODE使用比例 | host.disk_mount.inode_used_ratio | 磁盘挂载点INODE使用比例。 | % |
磁盘挂载点INODE可用比例 | host.disk_mount.inode_free_ratio | 磁盘挂载点INODE可用比例。 | % |
磁盘挂载点INODE使用 | host.disk_mount.inode_used | 磁盘挂载点INODE使用量。 | - |
磁盘挂载点INODE可用 | host.disk_mount.inode_free | 磁盘挂载点INODE可用量。 | - |
网卡接收字节数 | host.network.bytes_recv | 网卡接收字节数。 | Byte |
网卡发送字节数 | host.network.bytes_sent | 网卡发送字节数。 | Byte |
网卡接收数据包 | host.network.packets_recv | 网卡接收数据包数。 | p/s |
网卡发送数据包 | host.network.packets_sent | 网卡发送数据包数。 | p/s |
GPU显存空闲 | host.nvidia.memory_free | GPU显存空闲量。 | Byte |
GPU显存使用 | host.nvidia.memory_used | GPU显存使用量。 | Byte |
GPU总显存 | host.nvidia.memory_total | GPU总显存量。 | Byte |
GPU显存占用率 | host.nvidia.memory_used_ratio | GPU显存占用率。计算方式为GPU显存使用量/GPU总显存量。 | % |
GPU使用率 | host.nvidia.gpu_utilization | GPU使用率。 | % |
GPU显存使用率 | host.nvidia.mem_copy_utilization | GPU显存被读写的时间占比。 | % |
GPU温度 | host.nvidia.temperature | GPU温度。 | ℃ |
GPU功率 | host.nvidia.power | GPU功率。 | mW |
Docker趋势展示接入监控的容器列表及其运行状态、宿主名称、镜像、CPU使用率、内存使用率、启动时间、创建时间等信息。
所有指标均支持排序,支持选择时间范围、根据主机名过滤数据、根据Docker搜索和根据标签筛选,可根据业务需求快速筛选容器。
单击容器名展示容器详情,包括CPU、内存使用趋势图等。
容器监控指标说明如下表所示:
指标名 | 指标 | 说明 | 单位 |
---|---|---|---|
cpu system比例 | docker.cpu.system_ratio | 容器内核空间的CPU利用率。 | % |
cpu user比例 | docker.cpu.user_ratio | 容器用户空间的CPU利用率。 | % |
cpu shares | docker.cpu.shares_ratio | 容器的CPU份额。份额(share)控制容器中进程的CPU使用比例。 | % |
cpu总使用比例 | docker.cpu.total_ratio | 容器的总CPU利用率。 | % |
线程数量 | docker.cpu.thread_num | 容器线程数量。 | - |
内存使用(RSS) | docker.memory.rss | 容器内存使用量。 | Byte |
内存使用(RSS)比例 | docker.memory.rss_ratio | 容器内存使用比例。计算方式为内存RSS/容器内存限额。 | % |
读IOPS | docker.io.read_qps | 容器读磁盘每秒次数。 | /s |
写IOPS | docker.io.write_qps | 容器写磁盘每秒次数。 | /s |
读IO吞吐量 | docker.io.read_bytes_rate | 容器写磁盘每秒byte数。 | Byte/s |
写IO吞吐量 | docker.io.write_bytes_rate | 容器读磁盘每秒byte数。 | Byte/s |
进程列表展示接入监控的进程列表及其启动用户、主机名称、CPU、内存使用率、创建时间、结束时间等信息。
所有指标均支持排序,支持时间范围选择、主机名过滤、进程搜索和标签筛选,可根据业务需求快速筛选进程。
单击进程名展示进程详情,包括进程指标、Runtime指标、RED指标以及日志。进程指标中展示了CPU、内存使用趋势图等信息。
进程监控指标说明如下表所示:
指标名 | 指标 | 说明 | 单位 |
---|---|---|---|
cpu核心总数 | process.cpu.cpu_limit | 进程能使用的cpu核数限额。 | - |
cpu总使用比例(相对单核) | process.cpu.total_ratio | 进程CPU利用率. 例如占用2个核心时CPU利用率为200%。 | % |
cpu system比例(相对单核) | process.cpu.system_ratio | 内核空间的CPU利用率。 | % |
cpu user比例(相对单核) | process.cpu.user_ratio | 用户空间的CPU利用率。 | % |
cpu总使用核数 | process.cpu.total_used | CPU使用核数。例如占用2个核心时使用核数为2。 | - |
cpu system使用核数 | process.cpu.system_used | 内核空间的CPU使用核数。 | - |
cpu user使用核数 | process.cpu.user_used | 用户空间的CPU使用核数。 | - |
线程数量 | process.cpu.thread_num | 进程的操作系统线程数量。 | - |
内存总量 | process.memory.limit | 进程能使用的CPU限额。 | Byte |
内存使用(RSS) | process.memory.rss | 内存使用量。 | Byte |
内存使用(RSS)比例 | process.memory.rss_ratio | 内存使用比例。计算方式为内存RSS/内存限额。 | % |
虚拟内存(Virtual Memory Size) | process.memory.vms | 虚拟内存大小。 | Byte |
读IOPS | process.io.read_qps | 进程读磁盘的每秒次数。 | /s |
写IOPS | process.io.write_qps | 进程写磁盘的每秒次数。 | /s |
读IO吞吐量 | process.io.read_bytes_rate | 进程读磁盘的每秒byte数。 | Byte/s |
写IO吞吐量 | process.io.write_bytes_rate | 进程写磁盘的每秒byte数。 | Byte/s |
打开文件数 | process.open_fd_count | 进程打开的文件数量。 | - |
自愿切换次数(voluntary_ctx_switches) | process.voluntary_ctx_switches | 自愿的上下文切换次数。 | - |
强制切换次数(involuntary_ctx_switches) | process.involuntary_ctx_switches | 强制的上下文切换次数。 | - |
进程监控JVM指标:
指标 | 说明 |
---|---|
jvm.clazz.loaded_class_count | JVM当前加载类数量 |
jvm.clazz.total_unloaded_class_count | JVM总计已卸载类数量 |
jvm.clazz.total_loaded_class_count | JVM总计加载类数量 |
jvm.gc.gc_count_old | JVM GC次数-OldGen |
jvm.gc.gc_time_old | JVM GC时间-OldGen |
jvm.gc.gc_count_new | JVM GC次数-NewGen |
jvm.gc.gc_time_new | JVM GC时间-NewGen |
jvm.memory.init_heap | JVM初始堆内存 |
jvm.memory.max_heap | JVM最大堆内存 |
jvm.memory.used_heap | JVM已使用堆内存 |
jvm.memory.committed_heap | JVM已提交堆内存 |
jvm.memory.init_noheap | JVM初始非堆内存 |
jvm.memory.max_noheap | JVM最大非堆内存 |
jvm.memory.used_noheap | JVM已使用非堆内存 |
jvm.memory.committed_noheap | JVM已提交非堆内存 |
jvm.memory_pool.init_newgen | JVM内存池-初始NewGen |
jvm.memory_pool.max_newgen | JVM内存池-最大NewGen |
jvm.memory_pool.used_newgen | JVM内存池-已使用NewGen |
jvm.memory_pool.committed_newgen | JVM内存池-已提交NewGen |
jvm.memory_pool.init_oldgen | JVM内存池-初始OldGen |
jvm.memory_pool.max_oldgen | JVM内存池-最大OldGen |
jvm.memory_pool.used_oldgen | JVM内存池-已使用OldGen |
jvm.memory_pool.committed_oldgen | JVM内存池-已提交OldGen |
jvm.memory_pool.init_code_cache | JVM内存池-初始CodeCache |
jvm.memory_pool.max_code_cache | JVM内存池-最大CodeCache |
jvm.memory_pool.used_code_cache | JVM内存池-已使用CodeCache |
jvm.memory_pool.committed_code_cache | JVM内存池-已提交CodeCache |
jvm.memory_pool.init_survivor | JVM内存池-初始Survivor |
jvm.memory_pool.max_survivor | JVM内存池-最大Survivor |
jvm.memory_pool.used_survivor | JVM内存池-已使用Survivor |
jvm.memory_pool.committed_survivor | JVM内存池-已提交Survivor |
jvm.memory_pool.init_meta_space | JVM内存池-初始MetaSpace |
jvm.memory_pool.max_meta_space | JVM内存池-最大MetaSpace |
jvm.memory_pool.used_meta_space | JVM内存池-已使用MetaSpace |
jvm.memory_pool.committed_meta_space | JVM内存池-已提交MetaSpace |
jvm.memory_pool.init_perm_gen | JVM内存池-初始PermGen |
jvm.memory_pool.max_perm_gen | JVM内存池-最大PermGen |
jvm.memory_pool.used_perm_gen | JVM内存池-已使用PermGen |
jvm.memory_pool.committed_perm_gen | JVM内存池-已提交PermGen |
jvm.thread.live_count | JVM存活线程数 |
jvm.thread.daemon_count | JVM守护线程数 |
jvm.thread.peak_count | JVM峰值线程数 |
jvm.thread.runnable_state_thread_count | JVM可运行线程数 |
jvm.thread.blocked_state_thread_count | JVM阻塞线程数 |
jvm.thread.waiting_state_thread_count | JVM等待线程数 |
jvm.thread.timed_waiting_state_thread_count | JVM定时等待线程数 |