计算资源优化支持治理负责人或治理实施者,查看计算资产消耗情况,定位计算治理的主要侧重点,识别计算待治理项,并提供治理建议与操作,协助治理负责人或治理实施者进行计算治理。
1 使用前提
- 已创建火山引擎 E-MapReduce(EMR)、湖仓一体分析服务(LAS)引擎、通用、数据集成同步相关任务类型。新建任务详见数据开发概述。
- 已购买 DataLeap 分布式数据自治服务。详细操作说明请参见 DataLeap 服务信息。
2 进入计算任务
- 登录 DataLeap租户控制台 。
- 在概览界面中,单击数据治理 > 资源优化 > 计算任务,进入计算任务界面,便可查看可优化的计算任务列表。
3 操作指南
3.1 任务对象
包含 DataLeap 中的各种任务类型,如:LAS SQL、EMR HSQL、Shell、数据集成同步任务等。
临时查询、流式任务相关数据开发任务除外。
3.2 任务多维度筛选
在计算任务 > 任务页签中,您可以通过多个维度进行任务的筛选。
当设置多个筛选条件时,会取各个条件的交集,进行过滤查询。
- 查看视角:支持从数据团队、个人视角查看相关的计算任务。
- 数据团队:单击下拉框,选择对应的数据团队,支持多选。
- 个人:默认选择任务责任人为当前登录账号的计算任务。
- 团队详情:单击团队详情,展现已选择的数据团队详情,并可对该数据团队进行编辑、删除等操作。
说明
- 团队详情中最多只展示 5 个数据团队详情,您可根据实际情况进行筛选查看。
- 当前成员需要是数据团队负责人,方可对数据团队进行修改与配置。
- 添加治理方案:单击添加治理方案,您可前往规划诊断界面,进行治理方案的创建。详见规划方案。
- 资产类型:支持选择从 Task、Job 资产类型方向进行计算任务治理。
:::tip
数据团队视角下,暂未支持 Job 资产类型查看。
::: - 资产范围:可通过选择任务名称、任务类型、项目、任务状态、调度类型等选项进行计算任务筛选。
说明
- EMR 引擎相关的任务类型中,支持治理当前主账号下,正常 Running 状态的 EMR Hadoop、TensorFlow 集群类型下创建的任务,且其集群版本需在 3.1.0 以上。各类型对应的任务,详见数据开发- EMR 引擎任务分类。
- 若任务已通过其他方式删除,则您在计算任务列表中操作关闭任务、删除等操作时,会提示相应错误明细。
- 可优化项:可直接单击任务连续失败、产出表为空、产出表无热度、资源申请不合理等优化项进行筛选。
3.3 推荐优化项说明及建议
提供公共规则识别待治理资产,并给出对应的优化建议及具体情况。
下面为您介绍详细推荐优化项口径说明:
优化项 | 口径说明 | 优化建议 |
---|
任务连续失败 | 任务近 3 天的实例调度都处于失败的状态。 | 考虑业务是否已暂停,如果业务已经停止,建议暂停任务的调度。 |
产出表为空 | 任务的产出表,最近3天内新建的分区 size 都是0 | 暂停或下线该任务。 |
产出表无热度 | 当前任务的产出表最近 30 天没有数据查询 | 暂停或下线该任务 |
资源申请不合理 | - 任务近 3 天的调度实例,实际内存使用量/内存申请量小于 0.4 时,扣 100 分;
- 内存使用量/内存申请量大于0.4且小于0.6时,扣 100-(利用率-0.4)1005 分。
| 优化建议只是提供参考,调整完需要测试,保证任务可以正常运行。
建议调整任务参数: spark.executor.memory:** , spark.executor.memoryOverhead:** |
3.4 列表字段明细
筛选后的计算任务列表中,为您展现了任务的详细信息,其中列表中部分字段说明如下:
- 计算健康分:展现当前任务的计算健康分信息,具体计算规则及权重详见计算健康分。
- vcore\mem 7日平均消耗:最近 7 天内实例消耗的 vcore\mem 各自相加,取 7 天内平均消耗值。
- 7 日平均运行时间:最近 7 天内实例运行时间的平均值。
- 运行\基线监控:当前计算任务,是否已添加相应的任务运行\基线监控等运维操作,操作添加后,T+1 方式更新列表展示。
您也可单击操作列右侧的小齿轮,对列表中展现的字段进行自定义展示设置。
说明
- 任务产出表是EMR类型且在数据地图中可以查到,才会透出显示在列表中。
- 6月份之后创建的 EMR 集群的任务可以获取到任务的 cpu&mem 消耗信息,之前的存量集群目前无法获取。
- 当前无法获取到 cpu&mem 消耗信息的任务类型:Flink 任务、MR 任务和 PySpark 任务。
3.5 治理操作
单击列表中的操作列,您可进行以下操作:
- 开启/关闭任务:对任务调度进行开启/关闭操作。
注意
将任务关闭,需事先检查该任务被其他任务启用依赖的情况,您需拥有所有依赖启用任务的权限,才能关闭该任务及其全部启用的下游任务。
- 删除:将任务直接删除,任务会进入到数据开发-回收站中,您可以在回收站中恢复任务操作,T+1 后可在此进行数据治理操作。恢复任务操作详见回收站。
- 运行监控:支持跳转到 DataLeap 运维中心模块,进行运行监控配置。您可通过以下两种方式配置:
- 添加新监控规则
- 或直接使用已有的监控规则名称,平台自动将任务添加进监控任务列表中。
- 基线监控:需事先在运维界面添加相应的基线监控,方可在此单击基线监控按钮,前往修改监控配置等操作。详见任务运维-基线管理。
- 批量操作:勾选需批量操作的任务,支持批量删除、批量开启/关闭、批量使用/不使用默认监控、批量设置运行监控等操作。
注意
必须是同一项目下且都是流式或者离线的任务才可以批量操作。您可以通过界面上方的任务多维度筛选能力,将任务筛选出来后,进行批量操作。
3.6 Job 资源多维度筛选
在计算任务界面下,从个人视角查看计算任务,单击上方资产类型中的 Job 类型,进入查看任务运行的每个 Application 信息。当设置多个筛选条件时,会取各个条件的交集,进行过滤查询。
说明
数据团队视角下,暂未支持 Job 资产类型查看。
您可通过以下方式进行 Job 的任务筛选:
- 单击选择资源计算时间范围来进行任务筛选。
- 您可以通过输入任务 ID/任务名称/负责人等关键字信息进行搜索。
3.7 Job 明细信息
展示 Application 的 app名称、application 类型、mem 消耗、vcore消耗等任务具体信息。您可以将界面滑动到最右侧,单击对应任务名称信息,进入数据开发界面上,查看具体任务配置情况。
您也可单击操作列右侧的小齿轮,对列表中展现的字段进行自定义展示设置。