本文为您介绍HDFS指标的详细信息。
HDFS指标包含以下部分:
标题 | 监控指标名称 | 单位 |
---|---|---|
进程信息 | NameNode 节点总数 | 个 |
DataNode 节点总数 | 个 | |
DataNode 存活节点数 | 个 | |
DataNode 失活节点数 | 个 | |
HDFS 下线且 Live 的节点数量 | 个 | |
HDFS 下线且 Dead 的节点数量 | 个 | |
DataNode Decommissioning 状态节点数 | 个 | |
心跳延迟被标记为 stale 状态的 DataNode 数 | 个 | |
Block 状态 | HDFS块总数 | 个 |
BLOCK 容量 | 个 | |
HDFS 等待被备份的块数量 | 个 | |
HDFS 小于规定副本数的块数量 | 个 | |
HDFS 坏块数量 | 个 | |
HDFS 安排要备份的块数量 | 个 | |
HDFS 等待删除的块数 | 个 | |
HDFS 超过副本数的块数 | 个 | |
HDFS 丢块数量 | 个 | |
HDFS 启动时被推迟处理的块数 | 个 | |
存储状态 | 存储总容量 | GB |
DFS 存储使用量 | GB | |
HDFS 剩余的空间大小 | GB | |
非 DFS 存储使用量 | GB | |
DFS 存储使用率 | % | |
Datanode 存储使用率最小值 | % | |
Datanode 存储使用率最大值 | % | |
Datanode 存储使用量标准差 | ||
集群负载 | HDFS 集群客户端连接数 | 个 |
HDFS 集群文件数 | 个 | |
HDFS Snapshots | 个 | |
HDFS 坏盘总数 | 个 |
标题 | 监控指标名称 | 单位 |
---|---|---|
数据流量 | NameNode 接收数据速率 | Bytes/s |
NameNode 发送数据速率 | Bytes/s | |
QPS | NameNode RPC 调用速率 | 次/s |
请求处理延迟 | RPC 平均延迟时间 | ms |
RPC 请求平均处理时间 | ms | |
验证和授权 | RPC 认证失败次数 | 次 |
RPC 认证成功次数 | 次 | |
RPC 授权失败次数 | 次 | |
RPC 授权成功次数 | 次 | |
当前连接数 | 当前连接数量 | 个 |
RPC 队列长度 | NameNode RPC 调用队列长度 | 个 |
LockQueueLength 等待文件锁的队列长度 | 个 | |
JVM堆内存情况 | JVM 当前已经使用的 NonHeapMemory 的大小 | MB |
JVM 当前已经 Committed 的 NonHeapMemory 的大小 | MB | |
JVM 当前已经使用的 HeapMemory 的大小 | MB | |
JVM 当前已经 Committed 的 HeapMemory 的大小 | MB | |
JVM 配置的 HeapMemory 的大小 | MB | |
JVM 运行时可以使用的最大内存大小 | MB | |
数据块汇报延迟 | 每秒处理 DataNode Blcok 平均延迟 | 次 |
JVM 线程数量 | 处于 NEW 状态的线程数量 | 个 |
处于 RUNNABLE 状态的线程数量 | 个 | |
处于 BLOCKED 状态的线程数量 | 个 | |
处于 WAITING 状态的线程数量 | 个 | |
处于 TIMED WAITING 状态的线程数量 | 个 | |
处于 Terminated 状态的线程数量 | 个 | |
峰值线程数 | 个 | |
线程数量 | 个 | |
后台线程数量 | 个 | |
JVM 日志数量 | FATAL 级别日志数量 | 个 |
ERROR 级别日志数量 | 个 | |
WARN 级别日志数量 | 个 | |
INFO 级别日志数量 | 个 | |
GC 次数 | Young GC 次数 | 次 |
Full GC 次数 | 次 | |
GC 时间 | NameNode JVM 总GC时间统计 | s |
NameNode JVM FGC时间统计 | s | |
NameNode JVM YGC时间统计 | s | |
内存区域占比 | Survivor 0区内存使用占比 | |
Survivor 1区内存使用占比 | ||
Eden 区内存使用占比 | ||
Old 区内存使用占比 | ||
Metaspace 区内存使用占比 | ||
Compressed class space 区内存使用占比 | ||
Code Cache区使用量 | ||
NameNode JVM 内存分区使用量 | ||
被标记为过期的存储的数量 | 所有过期 DataNode 的存储目总数 | 个 |
备 NN 上挂起的与 BLOCK 相关操作的消息数量 | DATANODE 的请求被 QUEUE 在 standby namenode 中的个数 | 个 |
缺失块统计 | 缺失的数据块数量 | 个 |
缺失的数据库数量(rf = 1) | 个 | |
SNAPSHOT 操作 | 每秒执行 AllowSnapshot 操作的次数 | 次 |
每秒执行 DisallowSnapshot 操作的次数 | 次 | |
每秒执行 CreateSnapshot 操作的次数 | 次 | |
每秒执行 DeleteSnapshot 操作的次数 | 次 | |
每秒执行 ListSnapshottableDir 操作次数 | 次 | |
每秒执行 SnapshotDiffReportOps 的次数 | 次 | |
每秒执行 RenameSnapshotOps 的次数 | 次 | |
文件操作 | 每秒执行 CreateFile 操作的次数 | 次 |
每秒执行 GetListing 操作的次数 | 次 | |
每秒执行 TotalFileOps 的次数 | 次 | |
每秒执行 DeleteFile 操作的次数 | 次 | |
每秒执行 FileInfo 操作的次数 | 次 | |
每秒执行 GetAdditionalDatanode 操作的次数 | 次 | |
每秒执行 CreateSymlink 操作的次数 | 次 | |
每秒执行 GetLinkTarget 操作的次数 | 次 | |
每秒执行 FilesInGetListing 操作的次数 | 次 | |
文件统计 | 文件和文件夹被删除或重命名的数量 | 个 |
文件和文件夹创建数量 | 个 | |
Appended 文件数量 | 个 | |
事务操作 | 每秒处理 Journal transaction 操作的次数 | 次 |
每秒批量处理 Journal transaction 操作的次数 | 次 | |
处理 Journal Transaction 操作的平均延迟 | ms | |
自上次检查点以来的总事务数 | 个 | |
镜像操作 | 每秒执行 GetEditNumOps 的次数 | 次 |
每秒执行 GetImageNumOps 的次数 | 次 | |
每秒执行 PutImageNumOps 的次数 | 次 | |
读取 Edit 文件操作平均延迟 | ms | |
读取镜像文件平均延迟 | ms | |
写入镜像文件平均延迟 | ms | |
SYNC 操作 | 每秒处理 Journal syncs 操作的次数 | 次 |
处理 Journal syncs 操作的平均延迟 | ms | |
数据块操作 | 每秒处理 BlockReceivedAndDeletedOps 操作的次数 | 次 |
HDFS Block Ops 处于 Queued 状态的个数 | 个 | |
每秒处理 DataNode Block 上报操作的次数 | 次 | |
Cache汇报 | 每秒处理 CacheReport 操作的次数 | 次 |
缓存上报动作平均延迟 | ms | |
启动时间 | 进程启动时间 | ms |
Checkpoint | 上次 Checkpoint 以来的时间 | time |
RPC 平均时间(1) | Complete 请求平均延迟时间 | ms |
Create 请求平均延迟时间 | ms | |
Rename 请求平均延迟时间 | ms | |
AddBlock 请求平均延迟时间 | ms | |
GetListing 请求平均延迟时间 | ms | |
GetFileInfo 请求平均延迟时间 | ms | |
SendHeartbeat 请求平均延迟时间 | ms | |
RPC 平均时间(2) | RegisterDatanode 请求平均延迟时间 | ms |
BlockReport 请求平均延迟时间 | ms | |
Delete 请求平均延迟时间 | ms | |
RenewLease 请求平均延迟时间 | ms | |
BlockReceivedAndDeleted 请求平均延迟时间 | ms | |
Fsync 请求平均延迟时间 | ms | |
VersionRequest 请求平均延迟时间 | ms | |
RPC 平均时间(3) | ListEncryptionZones 请求平均延迟时间 | ms |
SetPermission 请求平均延迟时间 | ms | |
SetTimes 请求平均延迟时间 | ms | |
SetSafeMode 请求平均延迟时间 | ms | |
Mkdirs 请求平均延迟时间 | ms | |
GetServerDefaults 请求平均延迟时间 | ms | |
GetBlockLocations 请求平均延迟时间 | ms | |
安全模式 | NameNode 进程是否不处于安全模式 |
纬度 | 监控指标名称 | 单位 |
---|---|---|
XCEIVER 数量 | DataNode XCEIVER 数量 | 个 |
数据读写速率 | DataNode 本地写入速率 | Bytes/s |
DataNode 本地读取速率 | Bytes/s | |
DataNode 远端写入速率 | Bytes/s | |
DataNode 远端读取速率 | Bytes/s | |
客户端连接数 | 远程客户端写操作 QPS | 次/s |
本地客户端写操作 OPS | 次/s | |
远程客户端读操作 QPS | 次/s | |
本地客户端读操作 QPS | 次/s | |
数据块操作与校验 | BLOCK 校验失败数量 | 次 |
从 DataNode 读取 Block OPS | 次/s | |
向 DataNode 写入 Block OPS | 次/s | |
DataNode 进行 Checksum 操作的 OPS | 次/s | |
复制 Block 操作的 OPS | 次/s | |
Replace Block 操作的 OPS | 次/s | |
BLOCK 汇报动作的 OPS | 次/s | |
BLOCK 增量汇报的 OPS | 次/s | |
缓存汇报的 OPS | 次/s | |
每秒处理 ACK ROUND TRIP 次数 | 次/s | |
故障与错误 | 磁盘故障次数 | 次 |
网络错误次数 | 次 | |
心跳 | 心跳接口平均时间 | ms |
心跳接口 QPS | 次/s | |
包传输 | 发送数据包平均时间 | ns |
数据块操作耗时 | 读取 Block 操作平均时间 | ms |
写 Blcok 操作平均时间 | ms | |
块校验操作平均时间 | ms | |
复制块操作平均时间 | ms | |
Replace Block 操作平均时间 | ms | |
块汇报平均时间 | ms | |
增量块汇报平均时间 | ms | |
缓存汇报平均时间 | ms | |
处理 ACK ROUND TRIP 平均时间 | ms | |
FSYNC 和 Flush操作 | 每秒处理 FSYNC 操作次数 | 次/s |
每秒处理 Flush 操作次数 | 次/s | |
Flush 操作平均时间 | ms | |
Fsync 操作平均时间 | ms | |
RAMDISK 块处理与读写 | 写入内存的块的总数 | 块 |
写入内存但未成功的块总数(故障转移到磁盘) | 块 | |
应用程序在被保存到磁盘之前被删除的块的总数 | 块 | |
内存中的块被读取的总次数 | 块 | |
内存中被清除的块总数 | 块 | |
内存中被清除的未读块总数 | 块 | |
惰性写入器写入磁盘的总数 | 块 | |
由惰性写入器写入磁盘的总字节数 | Bytes | |
写入内存的总字节数 | Bytes | |
JVM 内存情况 | JVM 当前已经使用的 NonHeapMemory 的大小 | MB |
JVM 配置的 NonHeapCommittedM 的大小 | MB | |
JVM 当前已经使用的 HeapMemory 的大小 | MB | |
JVM HeapMemory 提交大小 | MB | |
JVM 配置的 HeapMemory 的大小 | MB | |
JVM 运行时可以使用的最大内存大小 | MB | |
JVM 线程数量 | 处于 NEW 状态的线程数量 | 个 |
处于 RUNNABLE 状态的线程数量 | 个 | |
处于 BLOCKED 状态的线程数量 | 个 | |
处于 WAITING 状态的线程数量 | 个 | |
处于 TIMED WAITING 状态的线程数量 | 个 | |
处于 Terminated 状态的线程数量 | 个 | |
峰值线程数量 | 个 | |
后台线程数量 | 个 | |
JVM 日志数量 | Fatal 日志数量 | 个 |
Error 日志数量 | 个 | |
Warn 日志数量 | 个 | |
Info 日志数量 | 个 | |
GC 次数 | Young GC 次数 | 次 |
Full GC 次数 | 次 | |
GC 时间 | Full GC 耗时 | s |
GC 总耗时 | s | |
Young GC 耗时 | s | |
内存区域占比 | Survivor 区内存使用占比 | % |
Eden 区内存使用占比 | % | |
Old 区内存使用占比 | % | |
Metaspace 区内存使用占比 | % | |
Compressed class space 区内存使用占比 | % | |
RPC | RPC 调用速率 | 次/s |
RPC 处于 Queued 状态平均时长 | ||
RPC 处理平均时长 | ||
RPC 处理队列长度 | ||
数据流量 | 接收数据速率 | Bytes/s |
发送数据速率 | Bytes/s | |
验证和授权 | RPC 验证失败次数 | 次 |
RPC 验证成功次数 | 次 | |
RPC 授权失败次数 | 次 | |
RPC 授权成功次数 | 次 | |
连接数 | 当前连接数 | 个 |
CPU | HDFS DataNode CPU系统时间 | ms |
HDFS DataNode CPU用户时间 | ms | |
启动时间 | 进程启动时间 | s |