You need to enable JavaScript to run this app.
导航
监控 LogCollector 采集
最近更新时间:2024.09.29 14:09:12首次发布时间:2024.09.29 14:09:12

本文介绍如何通过日志服务告警功能来监控 LogCollector 采集日志的状态。

背景信息

在创建机器组中开启 LogCollector 服务日志功能后,日志服务会记录 LogCollector 产生的状态日志并存储到 tls_service-project 日志项目下的 ls_log-collector-status 日志主题中。LogCollector 状态日志记录了 LogCollector 版本号、CPU 使用率、已发送的日志条数、发送失败的请求数、文件被绑定多个采集配置等信息。更多信息,请参考LogCollector 状态日志
您可以基于这些字段创建告警任务来监控 LogCollector 采集日志的状态。

一个文件绑定多个采集配置即告警

默认情况下,一个日志文件只能对应一个采集配置。如果存在多个采集配置指向同一个文件的情况,系统将以最新的采集配置为准,而其余的采集配置都将失效。即该日志文件中的日志只会被采集到最新采集配置所指定的日志主题中。
为了帮助您监控这种情况,LogCollector 服务日志中提供了 DuplicateFilePathCnt 字段,用于判断日志文件是否被绑定了多个采集配置。DuplicateFilePathCnt 字段值大于 0 时,表示存在日志文件被绑定了两个或更多的采集配置。通过日志服务告警功能监控 DuplicateFilePathCnt 字段,您可以及时感知并处理日志文件被绑定多个采集配置的问题。

  1. 登录日志服务控制台

  2. 在顶部导航栏中,选择日志服务所在的地域。

  3. 在左侧导航栏中,选择日志告警 > 告警策略

  4. 告警策略页面,单击创建告警策略

  5. 创建告警策略页面,完成如下配置。
    关于告警相关配置的具体说明,请参考快速设置日志告警

    1. 设置基本信息。
      设置告警策略名称和日志项目,其中日志项目需选择为 tls_service-project
      图片

    2. 设置监控任务。
      图片
      重要参数说明如下:

      配置

      说明

      执行任务

      监控任务的相关配置信息,后台根据该配置定期执行监控任务。

      1. 单击编辑。
      2. 执行语句对话框中,完成如下配置。
        • 监控对象:待监控的日志主题,设置为tls_log-collector-status
        • 查询语句:检索分析语句,设置为 DuplicateFilePathCnt > 0
          每个任务会定期通过该语句进行检索与分析。检索分析语句详情请参考检索概述分析概述
        • 查询时间范围:每次执行检索分析语句时,数据所在的时间范围。设置为近 1 小时
      3. 单击执行预览,预览以上检索分析语句在指定时间范围内的查询分析结果。
      4. 单击确认。

      触发条件

      日志服务判断检索分析的集合结果是否满足触发条件。设置为有数据时通知,即检索分析结果中存在 DuplicateFilePathCnt > 0 的日志时,触发通知级别的告警。

      执行周期

      监控任务的执行周期,例如设置为每隔 60 分钟执行一次

    3. 设置告警通知。
      图片
      重要参数说明如下:

      配置

      说明

      发送告警周期

      告警通知的发送周期,当告警持续触发次数达到指定限额时,日志服务会根据指定的时间间隔发送告警通知。

      通知组

      选择对应的通知组。更多信息,请参考创建通知组

  6. 收到告警通知。
    当存在日志文件被多个采集配置指定时,您将收到告警通知。
    图片
    您可以单击日志检索详情中的查看详情,打开 tls_log-collector-status 日志主题的检索分析页面。在该页面的原始日志中,您可以查看被绑定了多个采集配置的日志文件名称以及其在的机器信息。
    图片

采集失败告警

LogCollector 服务日志中提供的 SendFailReqs 字段表示发送失败的日志请求数量。当该字段值大于 0 时,表示存在日志发送失败的情况。通过日志服务告警功能监控 SendFailReqs 字段,您可以及时感知并处理日志发送失败的问题。

  1. 登录日志服务控制台

  2. 在顶部导航栏中,选择日志服务所在的地域。

  3. 在左侧导航栏中,选择日志告警 > 告警策略

  4. 告警策略页面,单击创建告警策略

  5. 创建告警策略页面,完成如下配置。
    关于告警相关配置的具体说明,请参考快速设置日志告警

    1. 设置基本信息。
      设置告警策略名称和日志项目,其中日志项目需选择为 tls_service-project
      图片

    2. 设置监控任务。
      图片
      重要参数说明如下:

      配置

      说明

      执行任务

      监控任务的相关配置信息,后台根据该配置定期执行监控任务。

      1. 单击编辑。
      2. 执行语句对话框中,完成如下配置。
        • 监控对象:待监控的日志主题,设置为tls_log-collector-status
        • 查询语句:检索分析语句,设置为 SendFailReqs > 0
          每个任务会定期通过该语句进行检索与分析。检索分析语句详情请参考检索概述分析概述
        • 查询时间范围:每次执行检索分析语句时,数据所在的时间范围。设置为近 1 小时
      3. 单击执行预览,预览以上检索分析语句在指定时间范围内的查询分析结果。
      4. 单击确认。

      触发条件

      日志服务判断检索分析的集合结果是否满足触发条件。设置为有数据时警告,即检索分析结果中存在 SendFailReqs > 0 的日志时,触发警告级别的告警。

      执行周期

      监控任务的执行周期,例如设置为每隔 60 分钟执行一次

    3. 设置告警通知。
      图片
      重要参数说明如下:

      配置

      说明

      发送告警周期

      告警通知的发送周期,当告警持续触发次数达到指定限额时,日志服务会根据指定的时间间隔发送告警通知。

      通知组

      选择对应的通知组。更多信息,请参考创建通知组

  6. 收到告警通知。
    当发生日志发送失败问题时,您将收到告警通知。
    图片
    您可以单击日志检索详情中的查看详情,打开 tls_log-collector-status 日志主题的检索分析页面。在该页面的原始日志中,您可以查看发送日志失败的机器信息及时发送失败的请求数量。
    图片