You need to enable JavaScript to run this app.
文档中心
机器学习平台

机器学习平台

复制全文
下载 pdf
最佳实践
如何通过 Grafana 对监控数据指标搭建可视化看板——以配置GPU资源总量看板为例
复制全文
下载 pdf
如何通过 Grafana 对监控数据指标搭建可视化看板——以配置GPU资源总量看板为例
前言

本文档以创建GPU资源总量看板为例,介绍 MLP 如何通过 Grafana 对监控数据指标进行可视化展示的最佳实践。

可以参考的部分官方文档:

步骤一:新建Dashboard
  1. 获取管理员权限,新建一个文件夹来管理看板。

  1. 在文件夹中创建Dashboard和可视化看板。

步骤二:配置资源组、队列、实例等筛选选项

2.1 新增筛选变量

  1. 点击dashboard settings,进入variables并新增变量。

2.2 配置资源组变量

  1. 定义资源组筛选项名称。
  2. 选择需要可视化的数据源。

  1. Query配置。其中Query Type选择Lable values,Label选择mlp_resource_group,Metric选择mlp_resourcegroup_info

Label和Metric的选择可以参考监控--机器学习平台-火山引擎文档中【资源组指标】-【指标描述】部分

  1. 运行结果。点击 Run query,如果成功配置,则在Preview of values处可以看到有数据的资源组id。

2.2 配置队列变量

具体操作大体同「资源组」配置,最佳实践参考如下。

  1. 新增变量。

  1. 定义队列筛选项名称。
  2. 选择需要可视化的数据源。

  1. Query配置。这一步我们需要将队列与所在的资源组进行关联,因此Query Type选择Query result,Query输入 mlp_resourcequeue_info{mlp_resource_group="$ResourceGroup"}
  2. 正则化表达式配置。输入正则化表达式 /.*mlp_resource_queue=\"(.*?)\".*/

2.3 自定义任务实例配置

具体操作大体同「队列」配置,最佳实践参考如下。

  1. 新增变量。

  1. 定义资源组筛选项名称。
  2. 选择需要可视化的数据源。

  1. Query配置。这一步我们需要将自定义任务与所在的队列进行关联,因此Query Type选择Query result,Query输入 mlp_customtask_info{mlp_resource_group="$ResourceQueue"}
  2. 正则化表达式配置。输入正则化表达式 /.*mlp_resource_queue=\"(.*?)\".*/

2.4 保存Dashboard

  1. 资源组、队列和自定义任务3个变量配置完成后,可点击右上角保存当前dashboard变量的设置。

  1. 回到Dashboard界面,可以看到上方出现3个变量的筛选组件,下方出现一个可视化看板模板。

步骤三:最佳实践——以配置GPU资源总量看板为例
  1. 自定义设置看板标题。
  2. 选择需要可视化的数据源。
  3. 输入PromQL检索语句,并执行命令。您可在监控--机器学习平台-火山引擎文档中,查询到您需要绘制看板的指标对应的PromQL检索语句。并粘贴到下方code处,点击Run queries执行命令。
  4. 自定义设置图注标题。在最佳实践中,图中线条代表资源组=“r-20231013212037-vvmhb”下的队列=“q-20240305193945” 下的自定义任务=“t-20240902200928”在每个时刻所用卡数的变化情况。
  5. 点击save即可保存当前看板的设置。如您需要添加更多监控指标的看板,可回到Dashborad页面,点击右上角Add按钮添加更多。

最近更新时间:2025.07.23 17:22:03
这个页面对您有帮助吗?
有用
有用
无用
无用