安装监控插件失败
问题描述
若实例所在私有网络的DNS服务器地址非平台提供的默认地址,则无法成功安装监控插件,失败回显如下:
Could not resolve host: tos-s3-cn-beijing.ivolces.com; Unknown error
解决方法
请登录实例内部,执行cat /etc/resolv.conf
命令查看DNS服务器地址。
- 若为默认DNS服务器地址,回显如下。
- 若非默认DNS,请修改私有网络DNS,然后重新安装监控插件。详情请参见自定义私网DNS。
云服务器内网流量增高
问题描述
在云产品监控页面选择云产品云服务器,单击实例名称,在基础监控/操作系统监控页面,看到云服务器的内网流入流出速率和接收发送包速率增高。
问题分析
- 当其他ECS向某个ECS拷贝数据时,会导致当前ECS内网流量增高。
- 如果非数据拷贝,则可能是ECS中毒,对外大量发包导致内网流量增高。
解决方法
- ECS部署在Linux上
- 执行命令
yum install nethogs
,下载安装NetHogs。 - 执行命令
nethogs eth0
,查看占用内网带宽的进程。
- ECS部署在Windows上
- 登录ECS实例,在ECS的任务栏上,单击鼠标右键,选择任务管理器。
- 在任务管理器的进程页签,查看占用内网带宽的进程。
无法收到告警邮件
- 确认所选联系人的联系方式有效。
- 如果仍无法收到通知,请检查发送告警通知的邮箱是否加入白名单。
火山引擎会使用monitor@monitor.volces.com邮箱为您发送告警邮件,请确认已将该邮箱加入联系人邮箱的白名单等策略,避免无法接收告警邮件或邮件默认进入垃圾箱。
告警无法触发
告警无法触发是指告警指标达到了告警阈值、满足连续告警约束、且满足多指标条件,但是规则状态未变为告警中,也未产生告警历史。
- 确认告警没有触发。
检查告警历史中是否有相关告警历史。
- 如果有,说明告警已经触发。
- 如果没有,说明告警未触发。
- 确认是否满足告警条件。
在告警策略中查看对应资源、对应指标的监控看板,检查是否满足告警阈值和连续告警约束。
- 告警阈值:触发条件中,指标值超过告警阈值。
- 连续告警约束:触发条件中,指标值超过告警阈值持续N个周期。
- 多指标条件:告警规则中配置了多指标,全部或者任意一个指标满足条件就触发告警,取决于用户的配置。
注意
- 三个条件同时满足才会触发告警,所以需要确认三个条件均满足。
- 对于有多个节点的监控对象,请确保选中告警的节点。
- 如果确认告警没有触发,且符合告警规则,但仍然无法触发告警。请在控制台发起工单,在工单里提供告警策略截图、监控看板截图、告警策略ID。
告警已触发,却没有收到消息或者回调
在告警历史页面,单击详情。
在概览页面,查看告警通知的记录。
全部确认无误,仍然无法定位问题,请在云监控控制台上发起工单。
为了快速定位您的问题,请您在工单中提供以下信息:
- 告警触发成功的截图
- 告警发送成功或失败的截图
- 接收终端拦截情况
收到告警消息但是检查相关资源正常
收到告警消息应检查相关指标是否符合告警规则,与资源是否正常没有直接关系。
排查方向:
- 检查配置的告警指标是否合理
- 检查设置的告警阈值是否合理
无法收到告警恢复通知
确认已开启告警规则中的告警恢复通知。
无法收到事件告警消息
如果配置了事件规则,但是没有收到消息,请按照以下步骤进行排查:
- 查看事件列表,确认有事件规则中对应的事件。
例如,在事件规则中事件名称为实例主备切换(故障切换)
,检查云产品事件中是否有相关事件。
- 没有对应事件,则不会有事件告警。
- 有对应事件,请继续执行以下步骤。
- 检查通知地址是否正确。
- 如果确认事件规则和通知地址正确后,仍无法收到消息,请在控制台发起工单,在工单里提供事件规则ID。