You need to enable JavaScript to run this app.
导航
监控告警
最近更新时间:2024.12.09 13:11:03首次发布时间:2024.12.09 13:06:21

监控指标说明

ByteHouse 云数仓版的监控告警功能提供了四类监控,分别是计算组、密钥、许可、任务中心、存储和连接。每类监控的监控指标如下表所示。

说明

  • 为方便显示,监控告警图表会根据数据量自动调整单位量级,具体以显示为准。例如,在复制延迟大时,会将单位从 μs 调整为 ms;在复制延迟更大时,则会将单位从 ms 调整为 s。
  • 您可以调用 GetMetricData 接口查询各监控指标数据和告警信息。调用该查询接口时,需要获取产品的 Namespace、待查询指标所属的 SubNamespace 和待查询指标 MetricName。ByteHouse 云数仓版的 Namespace 为 VCM_ByteHouse,各指标的 MetricName 与 SubNamespace 如下表所示。
  • 您也可以在ByteHouse 云数仓版监控指标查询获取各个监控指标的详细信息。
  • 您也可以使用 SDK 查询各监控指标数据,请参见 使用 SDK 查询 Bytehouse 监控数据

所属分类

指标名称

MetricName

SubNamespace

指标维度

指标单位

指标用途

连接

当前网关连接数

Connection_Gateway_Connection_Count

Connection

ResourceID

Count

当前网关连接数

密钥和许可

API Key剩余有效期

KeyAndLicense_API_Key_Expires_In_Days

KeyAndLicense

ResourceID,APIKeyMask,SubAccountID

Day

API Key剩余有效期

存储

总占用空间

Storage_Total_Volume_Bytes

Storage

ResourceID

Bytes(IEC)

总占用空间

存储

总数据库数

Storage_Total_Databases

Storage

ResourceID

Count

总数据库数

存储

总表数

Storage_Total_Tables

Storage

ResourceID

Count

总表数

存储

总行数

Storage_Total_Rows

Storage

ResourceID

Count

总行数

任务中心

每小时任务完成次数

TaskCenter_Task_Completion_Rate

TaskCenter

ResourceID,TaskID

Count

每小时任务完成次数

任务中心

每小时任务成功次数

TaskCenter_TTask_Success_Rate

TaskCenter

ResourceID,TaskID

Count

每小时任务成功次数

任务中心

每小时任务失败次数

TaskCenter_Task_Failure_Rate

TaskCenter

ResourceID,TaskID

Count

每小时任务失败次数

任务中心

任务成功率

TaskCenter_Task_Success_Ratio

TaskCenter

ResourceID,TaskID

Percent

任务成功率

计算组

CPU占用率

VirtualWarehouse_CPU_Usage_Percentage

VirtualWarehouse

ResourceID,VWID

Percent

CPU占用率

计算组

内存占用率

VirtualWarehouse_Memory_Usage_Percentage

VirtualWarehouse

ResourceID,VWID

Percent

内存占用率

计算组

每秒查询率(QPS)

VirtualWarehouse_Query_Per_Second

VirtualWarehouse

ResourceID,VWID

Count/Second

每秒查询率(QPS)

计算组

查询P95延迟

VirtualWarehouse_Query_P95_Latency

VirtualWarehouse

ResourceID,VWID

Millisecond

查询P95延迟

计算组

查询成功率

VirtualWarehouse_Query_Success_Percentage

VirtualWarehouse

ResourceID,VWID

Percent

查询成功率

计算组

慢查询数(超过10秒)

VirtualWarehouse_Query_Slow_Queries

VirtualWarehouse

ResourceID,VWID

Count

慢查询数(超过10秒)

计算组

默认查询QPS

VirtualWarehouse_Query_Per_Second_Default

VirtualWarehouse

ResourceID,VWID

Count/Second

默认查询QPS

计算组

插入查询QPS

VirtualWarehouse_Query_Per_Second_Insert

VirtualWarehouse

ResourceID,VWID

Count/Second

插入查询QPS

计算组

系统查询QPS

VirtualWarehouse_Query_Per_Second_System

VirtualWarehouse

ResourceID,VWID

Count/Second

系统查询QPS

计算组

查询并发数

VirtualWarehouse_Concurrent_Queries

VirtualWarehouse

ResourceID,VWID

Count

查询并发数

计算组

默认查询并发数

VirtualWarehouse_Concurrent_Queries_Default

VirtualWarehouse

ResourceID,VWID

Count

默认查询并发数

计算组

插入查询并发数

VirtualWarehouse_Concurrent_Queries_Insert

VirtualWarehouse

ResourceID,VWID

Count

插入查询并发数

计算组

系统查询并发数

VirtualWarehouse_Concurrent_Queries_System

VirtualWarehouse

ResourceID,VWID

Count

系统查询并发数

查看监控信息

本文介绍查看监控信息的操作步骤。

操作步骤

  1. 登录ByteHouse 云数仓版控制台
  2. 在顶部菜单栏的左上角,选择实例所属的地域。
  3. 在页面上方,单击 租户管理 > 监控告警 页签。您可单击查看计算组密钥、许可任务中心存储连接的监控详情。

Image

设置告警

ByteHouse 云数仓版已对接云监控服务,通过云监控服务进行告警策略的管理。本文介绍如何创建告警策略,更加详细的告警流程和原理,请参见告警原理--云监控-火山引擎

操作步骤

  1. 登录 云监控控制台
  2. 在左侧导航栏,选择 告警中心 > 告警策略
  3. 告警策略 页面,单击 创建告警策略,进入云监控服务的创建告警策略页面。
  4. 创建告警策略页,根据业务需要配置各参数。具体参数配置说明,请参见 创建告警策略

说明

  • 创建告警策略页配置告警对象时,需要选择资源类型为 数据中台 > ByteHouse 云数仓版

推荐告警策略

计算组

  • 建议对计算组CPU占用率 / 内存占用率 超过80% 进行报警

密钥

  • 避免由于API Key过期导致业务程序无法连接至ByteHouse 从而影响业务,建议当API Key有效期小于7天时进行监控报警;

Image

任务中心

  • 对任务中心的定时任务进行监控报警,可以根据任务成功率进行监控报警,阈值可以根据业务需要进行自定义设置

Image

网关连接数

  • 当前ByteHouse网关连接数的阈值为2000,当超过2000时则会触发限流操作,配置该监控报警可提前观测业务所使用的网关连接数是否在安全范围内,阈值建议可以在1500.

Image

相关链接