云数据库 PostgreSQL 版的监控告警功能为节点提供了四类监控,分别是资源监控、引擎监控、部署监控和代理监控。每类监控的监控指标如下表所示。
说明
为方便显示,监控告警图表会根据数据量自动调整单位量级,具体以显示为准。例如,在复制延迟大时,会将单位从 μs 调整为 ms;在复制延迟更大时,则会将单位从 ms 调整为 s。
您可以调用 GetMetricData 接口查询各监控指标数据和告警信息。调用该查询接口时,需要获取产品的 Namespace、待查询指标所属的 SubNamespace 和待查询指标 MetricName。云数据库 PostgreSQL 版的 Namespace 为 VCM_RDS_PostgreSQL
,各指标的 MetricName 与 SubNamespace 如下表所示。
您也可以在云数据库 PostgreSQL 版监控指标查询获取各个监控指标的详细信息。
指标名称 | 监控指标 | MetricName | SubNamespace | 单位 | 指标说明 |
---|---|---|---|---|---|
CPU 使用率 | CPU 使用率 | CpuUtil | resource_monitor | Percent | 允许闲时超用,CPU 利用率可能大于 100%。 |
内存使用率 | 内存使用率 | MemUtil | resource_monitor | Percent | 允许闲时超用,内存利用率可能大于 100%。 |
磁盘使用率 | 磁盘使用率 | DiskUtil | resource_monitor | Percent | 磁盘使用空间在实例购买空间的占比。 |
用户态 CPU 使用率 | 用户态 CPU 使用率 | UserCPUUtil | resource_monitor | Percent | 用户态的 CPU 使用率,是 CPU 使用率的组成部分之一。 |
系统态 CPU 使用率 | 系统态 CPU 使用率 | SysCPUUtil | resource_monitor | Percent | 系统态的 CPU 使用率,是 CPU 使用率的组成部分之一。 |
RSS 内存使用量 | RSS 内存使用量 | RSSMemUsage | resource_monitor | Bytes(SI) | 实例实际占用的物理内存大小。 |
缓存内存使用量 | Cache 内存使用量 | CacheMemUsage | resource_monitor | Bytes(SI) | 文件系统缓存使用的内存量。 |
网络输入流量 | 网络输入流量 | NetworkReceiveThroughput | resource_monitor | Bytes/Second(SI) | PostgreSQL 内核统计到的输入流量。 |
网络输出流量 | 网络输出流量 | NetworkTransmitThroughput | resource_monitor | Bytes/Second(SI) | PostgreSQL 内核统计到的输出流量。 |
磁盘使用量 | 磁盘使用量 | DiskUsage | resource_monitor | Bytes(SI) | 磁盘使用空间的总大小。 |
数据文件磁盘使用量 | 数据文件磁盘使用量 | BaseDiskUsage | resource_monitor | Bytes(SI) | PostgreSQL 实例中数据资源所占用磁盘大小。 |
WAL 日志磁盘使用量 | Wal 日志磁盘使用量 | WalDiskUsage | resource_monitor | Bytes(SI) | PostgreSQL 实例中 WAL 日志所占用磁盘大小。 |
运行日志磁盘使用量 | 运行日志磁盘使用量 | LogDiskUsage | resource_monitor | Bytes(SI) | PostgreSQL 实例中运行日志所占用磁盘大小,包含错误日志、慢日志等,用于作为审计数据来源。 |
临时文件磁盘使用量 | 临时文件磁盘使用量 | TempFileDiskUsage | resource_monitor | Bytes(SI) | PostgreSQL 实例中 pgsql_tmp 目录所占用磁盘的大小,用于存储执行 SQL 时所产生的临时数据。 |
数据库大小 | 说明 仅用于配置告警策略,不提供看板展示。 | DBSize | resource_monitor | Bytes(SI) | 以 database 为单位,监控该数据库的数据资源所占用磁盘大小。 |
数据库膨胀率 | DBExpansionRate | resource_monitor | Bytes/Second(SI) | 以 database 为单位,监控该数据库的数据资源所占用磁盘大小的膨胀速率。 | |
复制槽最大 WAL 堆积量 | SlotMaxWALAccumulation | resource_monitor | Bytes(SI) | 当前实例所有复制槽中堆积的 WAL 日志量的最大值。 | |
非活跃状态复制槽个数 | InactiveSlotCount | resource_monitor | None | 未处于活跃状态的复制槽的个数。 | |
每秒事务数 | TPS | TPS | engine_monitor | Count/Second | PostgreSQL 实例中的每秒处理的事务量。 |
连接数使用率 | 连接使用率 | ConnectionUsedUtil | engine_monitor | Percent | 当前实例的所有连接数量占用最大连接数的使用比例。 |
当前总连接数 | 总连接数 | TotalConnection | engine_monitor | Count | 当前实例的所有连接数量,包括活跃状态和非活跃状态。 |
每秒慢查询数 | 每秒慢查询数量变化趋势 | SlowQueries | engine_monitor | Count/Second | 每秒内查询时间超过 log_min_duration_statement 参数所设置时长的查询的个数。 |
每 30s 慢查询增量 | 每30秒慢查询增量变化趋势 | SlowQueriesIncrement | engine_monitor | Count | 查询时间超过 log_min_duration_statement 参数所设置时长的查询的数量变化趋势。 |
每秒错误查询数 | 每秒错误查询数量变化趋势 | ErrorQueries | engine_monitor | Count/s | 每秒内出现错误的查询个数。 |
每 30s 错误查询增量 | 每30秒错误查询增量变化趋势 | ErrorQueriesIncrement | engine_monitor | Count | 错误查询的数量变化趋势。 |
每秒插入行数 | 每秒插入行数 | RowsInserted | engine_monitor | Count/Second | 每秒插入的行数。 |
每秒删除行数 | 每秒删除行数 | RowsDeleted | engine_monitor | Count/Second | 每秒删除的行数。 |
每秒更新行数 | 每秒更新行数 | RowsUpdated | engine_monitor | Count/Second | 每秒更新的行数。 |
当前活跃连接数 | 当前活跃连接数 | ActiveConnection | engine_monitor | Count | 当前数据库正在执行的客户端进程总数。 |
当前空闲连接数 | 当前空闲连接数 | IdleConnection | engine_monitor | Count | 当前数据库已申请但未使用的客户端进程总数。 |
当前不活跃事务数 | 当前不活跃事务数 | IdleInTxnConnection | engine_monitor | Count | 当前数据库处于事务中未使用的客户端线程总数。 |
每秒事务提交数 | 每秒事务提交数 | CommitsPerSecond | engine_monitor | Count/Second | PostgreSQL 实例中每秒钟发生的事务被提交(Commit)的次数 |
每秒事务回滚数 | 每秒事务回滚数 | RollbacksPerSecond | engine_monitor | Count/Second | PostgreSQL 实例中每秒钟发生的事务被回滚(Rollback)的次数。 |
当前最长事务已执行时间 | 当前最长事务已执行时间 | LongestTransactionExecTime | engine_monitor | Second | PostgreSQL 实例中正在执行的查询中,最长的语句的执行时间。 |
数据库最大年龄 Xids | 说明 仅用于配置告警策略,不提供看板展示。 | DbMaxAgeXids | engine_monitor | None | 当前实例中数据库最大年龄,如果值过大,会造成事务回卷,事务回卷期间实例不可写入。 |
全局只读状态 | ReadOnlyStatus | engine_monitor | None | 当前实例是否开启了全局只读参数,处于不可写状态。 | |
当前锁等待数 | 锁状态 > 当前锁等待数 | LocksUngrantedCount | engine_monitor | Count | 以 database 为单位,检测当前正在等待释放的锁的总量。 |
当前锁持有数 | 锁状态 > 当前锁持有数 | LocksGrantedCount | engine_monitor | Count | 以 database 为单位,检测当前正在已被授予的锁的总量。 |
每秒缓存命中数 | 缓存命中统计 > 每秒缓存命中数 | SharedBuffersBlksHit | engine_monitor | Count/Second | 以 database 为单位,在缓冲区中发现磁盘块,而无需进行磁盘读取的次数。 |
当前缓存命中率 | 缓存命中统计 > 当前缓存命中率 | SharedBuffersBlksHitRate | engine_monitor | Percent | 以 database 为单位,在缓冲区中发现磁盘块的次数占比。 |
主从复制延迟 | 复制延迟 | ReplicationDelay | deploy_monitor | Second | 主从延迟时间。 |
代理 QPS | 代理 QPS | ProxyQPS | proxy_monitor | Count/Second | 数据库每秒执行的 SQL 数(含 INSERT 、SELECT 、UPDATE 、和 DELETE )。 |
代理 CPU 使用率 | 代理 CPU 使用率 | ProxyCPUUtil | proxy_monitor | Percent | 代理节点当前的 CPU 使用率。 |
代理内存使用率 | 代理内存使用率 | ProxyMemUtil | proxy_monitor | Percent | 代理节点当前的内存使用率。 |
代理连接数 | 代理连接数 | ProxyConnection | proxy_monitor | Count | 当前打开的连接的数量。 |