监控告警功能可用于监控图表中的指标,提供小时、日、月粒度的实时监控。用户可通过配置监控规则、监控频率设置监控。
系统支持的告警方式目前有邮件、飞书、企业微信、Webex 钉钉、Webhook。使用此模块需由企业域管理员完成办公平台集成配置,操作步骤详见办公平台集成。
如需查阅当前项目内已配置的监控并进行管理,详见项目中心-监控管理。
常见应用场景
第一步 配置监控之前,需要满足以下前置条件:
第二步 点击新建监控,呼出设置框
第三步 输入监控名称,选择监控的时间范围、触发因素,配置触发报警的规则、监控时间以及推送方式等
第四步 点击发送测试,可以在设置的监控接收应用上查看测试信息,并调整参数
注意
此处以飞书为例,需要提前完成接入飞书应用说明的接入操作
第五步 点击确认,新建监控成功;更多历史监控可以点击【监控列表】,来到项目中心的「监控管理」里查看
需要满足前置条件:
其他操作步骤与上述一致。
时间范围可选择的日期与监控图表的维度栏的日期维度有关,如示例截图中的图表维度选择了p_date和付费日期,则在监控的时间范围选项里可以选择取这两个日期维度的范围
以下面截图的付费日期为例:
(1)选择最近1个时间点即只监控付费日期的最新的一个时间的数据,即2022-01-15这1行的数据
(2)选择最近N个时间点,同时N设置为5,即监控2022-01-11到2022-01-15这5行的数据
(3)选择已选择的时间范围即监控当前对付费日期筛选条件下,查询到的所有数据
最近1个或n个时间点的范围,取决于时间字段的日期类型,支持1/5/15分钟、 年-月-日-时,年-月-日,年-周,年-月。
例如,将时间字段的日期类型设置为“年-月-日-时-分”的“15分钟”,条件设置为“最近1个时间点”,则下次触发监控时,会将当前数据与15分钟前的数据进行对比。
若日期类型为其他类型,如秒、双周、双月等,则遵循以下规则:
- 日期类型为datetime类型:秒级、10分钟、20分钟等,则最近1个时间点的范围为1秒
- 日期类型为date类型:双周、双月、季度等,则最近1个时间点的范围为1天
指标值变化监控支持设置多个报警规则,可选择满足任一规则或全部规则时报警,指标条件为必填项,维度条件为可选项
选择任一规则时,监控会在满足任意一条规则时报警,如下图中的例子,当最近一天的利润相比前一天波动超过5%,或成本相比前一天波动超过10%的任意一个规则满足后就会触发报警
维度值变化监控可以监控当前图表内的某个维度值,当当天的维度枚举值相比1天前、7天前或30天前发生变化时,触发报警
智能波动检测可按照时序异常检测S-H-ESD算法对一段时间的指标波动情况进行监控,如果波动异常则报警
注意
智能波动检测仅支持折线图,其他类型图表无法选择,监控的时间至少需要15个时间点
可选择的监控指标为当前图表指标栏的指标,支持监控隐藏字段和分析功能衍生字段(如同环比字段)
自定义时间:可选择工作日、交易日、每天触发监控
图表的数据集为天级同步时支持配置数据完成同步时触发监控
产品支持的告警方式目前有邮件、飞书、企业微信、Webex 钉钉、Webhook。具体通过哪种方式进行告警,依赖于贵公司的系统管理员所完成的办公平台集成配置,如此处无可选推送方式,请参照办公平台集成进行配置。其中,对于IM群的推送方式,支持添加多个群号,中间用英文逗号分隔,且要保证每个群里都有机器人即可;若要通过Webhook向飞书发送监控结果,需要以规范的输出脚本解析和构造请求。
针对Webhook输出的方式,是指当数据达到用户配置的某个条件时候,会通过 HTTP 请求发送通知到指定的接收方(Webhook地址)。以下为您提供输出脚本的规范,供您参考使用。
{ "secret": "xxx",//密钥,业务方通过此密钥鉴权 "event": {//消息内容 "channel": "aeolus_monitor",//用于区分监控消息与其他类型消息 "timestamp": 1610941345327,//此消息时间戳 "title": "monitor_alarm",//monitor_alarm:监控的报警消息 "payload": { "status": 1,//0: 触发报警, 1: 未触发报警 "alarm_rule": [//具体报警内容、及报警条件,未触发报警时此处为空 { "metric_monitor_condition": [//指标的约束条件 "指标筛选条件满足任一条件:", "「sum(is_active_tea) 规则:>0.0」", "「sum(is_active_aeolus) 规则:>0.0」" ], "dimension_monitor_condition": [//维度的约束条件 "维度筛选条件满足所有条件", "tea_app_name in [Lantern]" ], "data_link": "https://...."//完整报警内容所在文件的链接 }, ...... ], "report_link": "'https://data.bytedance.net/aeolus/#/dataQuery?appId=555371&rid=39452'",//图表链接 "date_range": {//图表查询的时间范围 "p_date_start": "2021-10-07",//开始业务日期 "p_date_end": "2021-10-07"//结束业务日期 }, "suggestion": "通知管理员",//处理建议 "monitor_name": "监控_1008_5"//监控名称 } } }
{ "secret": "xxx", //密钥,业务方通过此密钥鉴权 "event": {//消息内容 "channel": "aeolus_monitor", //用于区分监控消息与其他类型消息 "timestamp": 1610941345327, //此消息时间戳 "title": "monitor_creation", //创建监控: monitor_creation, 修改监控: monitor_update, 删除监控: monitor_delete, "payload": { "monitor_status": 1,//'监控状态。0:开启,1:暂停' "name": "监控_1008_3", //监控名称 "hour": "10:00",//启动监控的时间点 "trigger_type": 0,//触发类型。0:定时,1:底表更新 "notified": "{\"lark\":\"duxingwang.001\"}",//要通知的飞书用户 "compute_type": 0,//触发因素,0: "维度+指标变化", 1: "维度取值变化", 2: "波动异常检测" "extra": {//'额外信息,目前保存报警建议和底表是否为kafka。json格式' "external_header": "",//可忽略 "need_confirm": false,//警报是否需要确认 "show_condition": true,//警报中是否要显示监控条件 "suggestion": "通知管理员",//处理建议 "timezone": "UTC+08:00",//时区 "urgent_alarm": { "emails": "", "times": "" } }, "shield_duration": 0,//屏蔽时间跨度,单位小时 "lark_group_id": "{}",//通知的飞书群ID,逗号间隔字符串 "notice_type": -1,//推送方式 "frequency": 0,//定时频率。0:天级,1:小时级 "date_filter_conf": {}, "rule_conf": {//规则配置,json格式 "rule_list": [//规则列表 { "metric": {//指标报警条件 "rule_list": [//要满足的指标列表 { "dim_id": "sum_1586869275872", "op_unit": 0, "op_type": ">", "compare_type": 3, "op_value": 0 } ], "op": 1//1:逻辑与,0:逻辑或 }, "dimension": {//维度报警条件 "where_list": [ { "option": { "is_report_filter": false, "filter_pattern": "Accurate", "custom_list": [] }, "val": [ "EasyShoot,galaxy" ], "pre_relation": "and", "val_option": { "true_all_selected": false, "preview_val": [], "excluded_val": [] }, "id": "1586869275867", "unique_id": 211008185453007, "op": "in" } ], "op": 1//1:逻辑与,0:逻辑或 } } ], "op": 1//1:逻辑与,0:逻辑或 }, "data_ready": {}, "owner_email_prefix": "duxingwang.001",//创建者 "webhooks": [//配置的webhook id 14 ], "shield_start_time": "",//屏蔽报警起始时间 "domain_id": 1, "report_id": 39452//图表id } } }
["tea_app_name", "is_active_tea"]//图表的列名 ["1", "2"]//触发报警的第一条图表记录 ["3", "5"] //触发报警的第二条图表记录 ......
可以添加文本和URL。
立即发送一条对该配置条件的消息通知,以预览监控效果(发送测试不会发送到群)
监控列表进入:
可通过可视化页面监控的下拉栏进入监控列表
或者点击项目中心-定时任务-监控管理进入
可以查看编辑监控的人:监控创建人、项目管理员、监控对应图表的所有者、监控对应图表所在仪表盘的管理员
你可以通过授予他人仪表盘管理权限,为该仪表盘内图表的监控添加协作者,个人仪表盘不支持此操作
查看范围 | 操作范围 | |
---|---|---|
项目管理员 | 可以看到项目下全部监控 | 拥有全部操作权限 |
项目成员 | 我创建的全部监控 | 拥有全部操作权限 |
项目成员 | 基于我管理的图表所创建的全部监控 | 拥有全部操作权限 |
项目成员 | 我是接收人的全部监控 | 无操作权限 |
数据:各个APP在安卓和ios双端的DAU情况
监控场景:监控1000万以上量级的产品中月同比增长超过10%的产品
配置参数为:
有APP满足条件,则会触发报警:
数据:中国苹果应用商店排行榜-总榜
监控场景:监控每天TOP10 APP的变化
配置参数为:
有APP满足条件,则会触发报警: