You need to enable JavaScript to run this app.
导航
数据监控
最近更新时间:2024.09.05 20:01:20首次发布时间:2023.08.04 11:41:09

边缘智能通过火山引擎云监控服务,为您提供针对产品数据指标和产品特定事件的监控与告警服务。本文介绍了边缘智能数据监控与告警的相关配置。

概述

通过火山引擎云监控服务,您可以执行以下与边缘智能数据监控相关的操作:

  • 查看监控报表及配置告警策略
    边缘智能预定义了一些数据监控指标,如节点的 CPU 使用率、温度,工作负载的 CPU 用量、内存用量等。这些指标反映了您所使用的边缘智能资源的状态。
    云监控能够帮助您监控边缘智能的相关监控指标,允许您查询指标数值的变化情况。云监控也可以在指标数值满足一定特征时向您发送告警。如需使用指标告警功能,您需要配置相应的告警策略。
  • 配置事件规则
    边缘智能预定义了一些事件类型,如节点下线、设备离线、工作负载部署失败等。当这些事件发生时,可能会影响您使用边缘智能。
    云监控能够帮助您监控边缘智能的相关事件,并在相关事件发生时向您发送通知。如需使用事件通知功能,您需要配置相应的事件规则。

前提条件

  • 您已经完成企业实名认证。相关操作,请参见实名认证
    云监控仅向已完成企业实名认证的用户提供服务。
  • 您已经为边缘节点开启 负载水位
    只有为节点开启 负载水位 后,您才能使用边缘智能数据监控服务。

    说明

    您可以在绑定节点时为节点开启 负载水位,或者在节点的 基本信息 中为节点开启 负载水位。更多信息,请参见绑定节点编辑节点信息

查询边缘智能监控报表

边缘智能提供以项目为维度的监控报表。您可以通过云监控的 云产品监控 页面,查询边缘智能的项目监控报表。项目监控报表包含 3 部分:节点监控报表、工作负载(应用)监控报表、推理服务监控报表、数据流监控报表。

使用限制

  • 您只能查询已经开启 负载水位 的节点的相关数据。如果项目下没有已经开启 负载水位 的节点,则对应的项目监控报表没有任何数据。
  • 云监控仅保存近 15 天的监控数据。

操作步骤

  1. 登录边缘智能控制台
  2. 在左侧导航栏底部,单击 数据监控
    页面将自动跳转到云监控控制台的 云产品监控 菜单,并为您展示 边缘计算-边缘智能 监控页面。
  3. 边缘计算-边缘智能 监控页面的下方,找到您的项目,单击项目名称。
    您将进入项目的监控报表。
  4. 进入项目监控报表后,参考以下步骤,查询具体的监控报表:
    1. 监控 标签页,选择您要查看的报表类型。可选项:节点工作负载推理服务数据流
    2. 设置查询条件:
      1. 在左侧的资源列表,选择一个资源。
      2. 在右侧图表的上方,设置时间范围。
        您可以单击具体的时间选项,查询对应时间内的数据;也可以通过时间选择器自定义一段时间。

        注意

        自定义的时间必须在近 15 天范围内。

    完成上述设置后,页面将展示对应的监控报表。每种类型的监控报表都包含多个图表。关于不同图表的介绍,请参见项目监控报表数据说明

    说明

    监控报表支持 图表联动 功能。开启该功能后,如果您将光标放置在一个图表上,可以同时查看所有图表在特定时刻的数据(如下图所示)。

    图片

项目监控报表数据说明

报表类型

支持的图表及数据

说明

节点

CPU使用率

节点 CPU 使用率(%)的变化趋势。

内存使用率

节点内存使用率(%)的变化趋势。

磁盘吞吐

节点磁盘吞吐量(bit/s)的变化趋势。

网络IO

节点网卡上行/下行带宽(bit/s)的变化趋势。

流量统计

节点网卡传输流量(Byte)的变化趋势。

温度

节点主板温度(℃)的变化趋势。

磁盘总量

节点磁盘大小(Byte)的变化趋势。

磁盘使用率

节点磁盘使用率(%)的变化趋势。

工作负载

CPU用量

工作负载占用的 CPU 核数(Core)的变化趋势。

CPU配额

工作负载被分配的 CPU 配额(Core)的变化趋势。

CPU限额

工作负载被分配的 CPU 限额(Core)的变化趋势。

内存用量

工作负载占用的内存(Byte)的变化趋势。

内存配额

工作负载被分配的内存配额(Byte)的变化趋势。

内存限额

工作负载被分配的内存限额(Byte)的变化趋势。

推理服务

GPU使用率

模型服务 GPU 使用率(%)的变化趋势。

QPS

模型服务 QPS 的变化趋势。

GPU显存占用

模型服务占用的 GPU 显存(GB)的变化趋势。

总耗时

模型服务的请求平均耗时(ms)的变化趋势。

队列调度耗时

模型服务请求队列调度过程的平均耗时(ms)的变化趋势。

输入耗时

模型服务输入处理过程的平均耗时(ms)的变化趋势。

输出耗时

模型服务输出处理过程的平均耗时(ms)的变化趋势。

模型计算耗时

模型服务计算过程的平均耗时(ms)的变化趋势。

数据流

视频流fps

适用于视频数据流实例,表示一个视频数据流实例每秒传输的图片帧数。

source入流量

适用于时序数据流实例的 SQL 执行过程算子,表示一个 SQL 执行过程算子读入的消息总量,即算子运行时处理了多少消息。

sink出流量

适用于时序数据流实例的 SQL 执行过程算子,表示一个 SQL 执行过程算子
输出的消息总量,即算子正确处理的消息数量。

配置告警策略

当您在云监控中配置了针对边缘智能数据指标的告警策略后,云监控将为您监控对应数据指标的数值变化,并在指标数值满足一定特征时向您发送告警。

使用限制

告警策略只适用于已经开启 负载水位 开关的节点。

监控对象说明

  • 云监控能够在以下维度监控边缘智能数据指标:节点、工作负载、推理服务、节点磁盘、节点网络、节点温度。
  • 不同维度下支持的数据指标不同。与边缘智能相关的所有数据监控指标,请参见云监控指标查询

操作步骤

您可以在云监控控制台的告警中心创建告警策略。具体操作,请参见云监控产品文档
创建告警策略过程中,留意以下配置:

  • 名称:为告警策略设置一个名称。建议在名称中包含“边缘智能”,以便于查找。

    示例:边缘智能节点告警策略

  • 资源类型:选择 CDN与加速 > 边缘计算-边缘智能

  • 维度:表示监控对象的类型。支持的选项包含 节点工作负载推理服务节点磁盘节点网络节点温度

  • 资源:表示要监控的资源的范围。
    您选择的 维度 不同,支持使用的资源筛选器有差异。具体如下表所示。

    维度

    资源筛选器

    节点

    边缘智能项目、节点名称

    工作负载

    边缘智能项目、prod名称

    推理服务

    边缘智能项目、推理服务ID

    节点磁盘

    边缘智能项目、节点ID、磁盘名称

    节点网络

    边缘智能项目、节点ID、网卡名称

    节点温度

    边缘智能项目、节点ID、温度传感器

    每个资源筛选器的选项包含 全部部分

    • 全部:对所有符合条件的资源进行监控。
    • 部分:手动选择需要监控的资源。
  • 触发条件:定义告警的触发条件。您选择的 维度 不同,触发条件中支持使用的数据指标有差异。

    示例:当 维度节点磁盘 时,触发条件中允许使用 磁盘吞吐磁盘使用率 指标。

    与边缘智能相关的所有数据监控指标,请参见云监控指标查询

图片

配置事件规则

当您在云监控中配置了针对边缘智能事件的事件规则后,云监控将为您监控和记录对应事件,并在事件发生时向您发送通知。

使用限制

事件规则只适用于已经开启 负载水位 开关的节点。

监控对象说明

  • 云监控能够监控的边缘智能事件类型包含:节点相关、设备相关、工作负载相关、推理服务相关、数据流相关、订单相关。
  • 不同事件类型下包含多种具体事件。与边缘智能相关的所有事件类型,请参见云监控指标查询

操作步骤

您可以在云监控控制台的事件中心创建事件规则。具体操作,请参见云监控产品文档
创建事件规则过程中,留意以下配置:

  • 资源类型:选择 边缘计算-边缘智能
  • 事件名称:选择您关注的事件。

图片