前言
本文档以创建GPU资源总量看板为例,介绍 MLP 如何通过 Grafana 对监控数据指标进行可视化展示的最佳实践。
可以参考的部分官方文档:
步骤一:新建Dashboard
- 获取管理员权限,新建一个文件夹来管理看板。


- 在文件夹中创建Dashboard和可视化看板。


步骤二:配置资源组、队列、实例等筛选选项
2.1 新增筛选变量
- 点击dashboard settings,进入variables并新增变量。


2.2 配置资源组变量
- 定义资源组筛选项名称。
- 选择需要可视化的数据源。

- Query配置。其中Query Type选择Lable values,Label选择
mlp_resource_group
,Metric选择mlp_resourcegroup_info
。
Label和Metric的选择可以参考监控--机器学习平台-火山引擎文档中【资源组指标】-【指标描述】部分


- 运行结果。点击 Run query,如果成功配置,则在Preview of values处可以看到有数据的资源组id。

2.2 配置队列变量
具体操作大体同「资源组」配置,最佳实践参考如下。
- 新增变量。

- 定义队列筛选项名称。
- 选择需要可视化的数据源。

- Query配置。这一步我们需要将队列与所在的资源组进行关联,因此Query Type选择Query result,Query输入
mlp_resourcequeue_info{mlp_resource_group="$ResourceGroup"}
。 - 正则化表达式配置。输入正则化表达式
/.*mlp_resource_queue=\"(.*?)\".*/
。

2.3 自定义任务实例配置
具体操作大体同「队列」配置,最佳实践参考如下。
- 新增变量。

- 定义资源组筛选项名称。
- 选择需要可视化的数据源。

- Query配置。这一步我们需要将自定义任务与所在的队列进行关联,因此Query Type选择Query result,Query输入
mlp_customtask_info{mlp_resource_group="$ResourceQueue"}
。 - 正则化表达式配置。输入正则化表达式
/.*mlp_resource_queue=\"(.*?)\".*/
。

2.4 保存Dashboard
- 资源组、队列和自定义任务3个变量配置完成后,可点击右上角保存当前dashboard变量的设置。


- 回到Dashboard界面,可以看到上方出现3个变量的筛选组件,下方出现一个可视化看板模板。

步骤三:最佳实践——以配置GPU资源总量看板为例
- 自定义设置看板标题。
- 选择需要可视化的数据源。
- 输入PromQL检索语句,并执行命令。您可在监控--机器学习平台-火山引擎文档中,查询到您需要绘制看板的指标对应的PromQL检索语句。并粘贴到下方code处,点击Run queries执行命令。
- 自定义设置图注标题。在最佳实践中,图中线条代表资源组=“r-20231013212037-vvmhb”下的队列=“q-20240305193945” 下的自定义任务=“t-20240902200928”在每个时刻所用卡数的变化情况。
- 点击save即可保存当前看板的设置。如您需要添加更多监控指标的看板,可回到Dashborad页面,点击右上角Add按钮添加更多。
