You need to enable JavaScript to run this app.
导航
如何通过 Grafana 对监控数据指标搭建可视化看板——以配置GPU资源总量看板为例
最近更新时间:2024.11.28 11:55:41首次发布时间:2024.09.13 11:26:17
前言

本文档以创建GPU资源总量看板为例,介绍 MLP 如何通过 Grafana 对监控数据指标进行可视化展示的最佳实践。

可以参考的部分官方文档:

步骤一:新建Dashboard
  1. 获取管理员权限,新建一个文件夹来管理看板。

  1. 在文件夹中创建Dashboard和可视化看板。

步骤二:配置资源组、队列、实例等筛选选项

2.1 新增筛选变量

  1. 点击dashboard settings,进入variables并新增变量。

2.2 配置资源组变量

  1. 定义资源组筛选项名称。
  2. 选择需要可视化的数据源。

  1. Query配置。其中Query Type选择Lable values,Label选择mlp_resource_group,Metric选择mlp_resourcegroup_info

Label和Metric的选择可以参考监控--机器学习平台-火山引擎文档中【资源组指标】-【指标描述】部分

  1. 运行结果。点击 Run query,如果成功配置,则在Preview of values处可以看到有数据的资源组id。

2.2 配置队列变量

具体操作大体同「资源组」配置,最佳实践参考如下。

  1. 新增变量。

  1. 定义队列筛选项名称。
  2. 选择需要可视化的数据源。

  1. Query配置。这一步我们需要将队列与所在的资源组进行关联,因此Query Type选择Query result,Query输入 mlp_resourcequeue_info{mlp_resource_group="$ResourceGroup"}
  2. 正则化表达式配置。输入正则化表达式 /.*mlp_resource_queue=\"(.*?)\".*/

2.3 自定义任务实例配置

具体操作大体同「队列」配置,最佳实践参考如下。

  1. 新增变量。

  1. 定义资源组筛选项名称。
  2. 选择需要可视化的数据源。

  1. Query配置。这一步我们需要将自定义任务与所在的队列进行关联,因此Query Type选择Query result,Query输入 mlp_customtask_info{mlp_resource_group="$ResourceQueue"}
  2. 正则化表达式配置。输入正则化表达式 /.*mlp_resource_queue=\"(.*?)\".*/

2.4 保存Dashboard

  1. 资源组、队列和自定义任务3个变量配置完成后,可点击右上角保存当前dashboard变量的设置。

  1. 回到Dashboard界面,可以看到上方出现3个变量的筛选组件,下方出现一个可视化看板模板。

步骤三:最佳实践——以配置GPU资源总量看板为例
  1. 自定义设置看板标题。
  2. 选择需要可视化的数据源。
  3. 输入PromQL检索语句,并执行命令。您可在监控--机器学习平台-火山引擎文档中,查询到您需要绘制看板的指标对应的PromQL检索语句。并粘贴到下方code处,点击Run queries执行命令。
  4. 自定义设置图注标题。在最佳实践中,图中线条代表资源组=“r-20231013212037-vvmhb”下的队列=“q-20240305193945” 下的自定义任务=“t-20240902200928”在每个时刻所用卡数的变化情况。
  5. 点击save即可保存当前看板的设置。如您需要添加更多监控指标的看板,可回到Dashborad页面,点击右上角Add按钮添加更多。