- 通过健康分,可以直观地看到各个团队的治理程度,了解团队的资源使用情况、评估是否还有优化空间。
- 通过健康分子项规则的口径定义和权重设定,可以帮助和引导团队更快判断治理的优先级。
1 前提条件
已购买分布式数据自治服务。详细操作说明请参见 DataLeap 服务信息。
2 操作步骤
登录 DataLeap 控制台。
选择数据治理 > 治理全景 > 治理评估 > 存储健康分,进入存储健康分页面。
可以设置搜索条件,查看符合条件的以下信息,并进行相应的管理。
- 存储健康分
- 展示近两个月的存储健康分趋势以及与上个双月末的比较。
- 支持查看健康分下每个规则下扣分值、问题表数量,上个双月末的比较以及分数趋势。
- 单击添加治理方案按钮,创建治理方案推动治理。
说明
- 仅查询条件选择团队时,才可设置此信息。
- 仅有关联资产的数据团队才能创建治理方案。
- 本双月治理成效
支持查看本双月的治理表数量、节约物理存储量和无效资产减少量。 - 明细分析
- 单击健康分情况页签,可以查看筛选范围下包含的资产的健康分情况,并进行以下操作:
- 单击某条信息操作列的催办按钮,确认催办信息后,可以对维度负责人发送催办通知。
- 单击某条信息相应的蓝色指标数值,可以下钻查看数据存储详情。
- 单击分布情况页签,可以查看筛选范围下包含的资产的分布情况,并支持进行催办和下钻查看数据存储详情。
- 单击治理方案页签,可以查看筛选范围下进行中的治理方案。
说明
- 当查询条件选择团队时,可以从子团队、子方向、库、项目、个人五个维度进行明细分析。其中,子团队和子方向需要在数据团队配置中进行相应的配置后此处才会显示。
- 当查询条件选择全部时,支持按团队进行明细分析。
存储健康分相关参数说明如下表所示。
参数 | 说明 |
---|
数据类型 | 支持 EMR Hive 、LAS 类型的数据。 |
筛选维度 | 支持全局和团队两个筛选维度。 - 全局:主账号下全量数据表。
- 团队:数据团队圈选的库所包含的表。可在工作台 > 数据团队配置页面配置父团队数据包含子团队数据。
当选择团队时,需选择相应的数据团队。数据团队配置说明请参见系统配置。 |
存储健康分 |
存储健康分达标口径 | 总分高于90且单个子项扣分小于4分。 |
双月90分达成天数 | 本双月中,健康分在90天以上的天数。 |
问题指标 | 根据类型不同,问题指标组成项分别如下: - EMR Hive:包括文件大小异常、存储格式不合理、近30天无查询、TTL设置不合理四个规则。
- LAS:包括空表、未设TTL-热存期、长时间未访问、未设TTL-保留期四个规则。
每个规则对应的信息如下: - 扣分值:单个规则在总分下的扣分数。
- 问题表数量:符合规则的待治理表数量,支持下钻查看明细。
- 分数较上双月末:(data分数-上双月末分数)/ 上双月末分数
- 单项分数趋势:近两个月单项指标的分数趋势。
详细的健康分口径及计算细则说明请参见下方的健康分口径说明。 |
添加治理方案 | 创建治理方案推动治理,可查看方案进展及效果,适用于多人协作治理。创建治理方案的相关参数说明请参见规划方案。
仅查询条件选择团队时,才可设置此信息。 |
本双月治理成效 |
治理表数量 | 在平台做治理操作(删除、TTL)的表。 |
节约物理存储量 | 在平台治理操作(删除、TTL)的收益。 |
无效资产减少量 | - 无效资产:最近31天无写入且未关联线上任务。
- 减少量:上双月末数量 - 数据更新时间数量
|
明细分析-健康分情况 |
排名 | 默认按照健康分从高到低排名,可选择按升序或降序排名显示。 |
存储健康分 | 筛选范围下,每个维度的存储健康分。 |
扣分占比 | 筛选范围下,每个维度的扣分在总扣分的占比。 |
各个子规则 | 展示子规则的扣分情况,支持下钻调整。 |
明细分析-分布情况 |
存储健康分 | 筛选范围下,每个维度的存储健康分。 |
表数量 | 筛选范围下,包含的表数量。 |
物理存储量 | 筛选范围下,包含的表物理存储量。 |
存储占比 | 筛选范围下,每个维度的存储量在总物理存储量的占比。 |
近一周优化表数量 | 近一周,在平台做治理操作(删除、TTL)的表。 |
近一周节约存储量 | 近一周,在平台治理操作(删除、TTL)的收益。 |
明细分析-治理方案 |
相关参数 | 展示筛选范围下,进行中的治理方案,详细说明可参见规划方案。
当筛选维度为团队时,才展示该页签。 |
3 健康分口径说明
存储健康分支持您从全局或团队视角出发,在不同维度下进行健康分的查看,健康分计分体系则由治理项分数与健康分两部分组成,其中:
- 存储健康分由各个存储治理项分数复合而成,详见下方计算细则。
- 存储治理项分数因所在维度不同,计算规则不同。
- 从表维度,会基于一定的治理项规则给各个治理项打分,详见下方具体规则及权重说明。
- 在上层维度,如:团队、项目等,会基于该维度下各个表的治理项得分复合得到,以表的存储来作为权重。
3.1 具体规则及权重
具体治理项规则、口径、得分及相关治理操作,参考如下:
治理项 | 权重占比 | 详细口径 | 表粒度治理项得分口径 |
---|
EMR Hive 表 |
近30天无查询 | 1/4 | - 口径定义:统计时间周期内(30天),表无数据查询及任务依赖。
- 治理范围:表创建时间大于一个月。
- 问题影响:产出表没有人使用,浪费计算资源。
- 解决:确认相关业务是否已暂停,若业务已停止,建议删除该表。
| 命中则为0分,否则100分。 |
TTL 设置不合理 | 1/4 | - 口径定义:TTL未设置。
- 治理范围:分区表;表创建时间大于一个月。
- 问题影响:推荐TTL的之外的分区没有使用,造成资源浪费。
- 解决:修改 TTL 至合理范围内,TTL 治理操作详见数据存储。
| 未设置 TTL,扣减100分。 |
文件大小异常 | 1/4 | - 口径定义:
- 表下的平均文件大小 < 100M
- 表下的平均文件大小 > 5G
- 治理范围: 表创建时间大于一个月;表的文件数 > 200。
- 问题影响:
- 小文件:给 NN 造成压力 & 浪费计算资源;
- 大文件:每个 Task 处理数据量过大,不利于提高并发;
- 解决:修改任务代码或参数,降低小文件数量。
| - 分区文件数>200,平均文件大小小于10M,扣100分。
- 分区文件数>200,平均文件大小小于50M,扣50分。
- 分区文件数>200,平均文件大小小于100M,扣20分。
- 分区文件数>200,平均文件大小大于1G,扣50分。
|
存储格式不合理 | 1/4 | - 口径定义:表底层文件格式为 Text 格式。
- 治理范围:表创建时间大于一个月。
- 问题影响:文件无压缩,浪费存储资源。
- 解决:修改文件存储格式。
| 命中则为0分,否则100。 |
LAS 表 |
空表 | 1/4 | - 口径定义:表的存储量=0
- 治理范围: 所有范围的表
- 问题影响:对资源影响较小,主要影响数仓模型架构,造成无用资产量过多不易管理。
- 解决:如果业务已停止,建议删除该表。
| 命中为0分,否则100分。 |
未设TTL-热存期 | 1/4 | - 口径定义:hot_ttl= ‘’或未设置
- 治理范围:分区表,表创建时间大于1个月。
- 问题影响:热存储单价相对较高,如果非常用的数据长期占用热存储,则会造成额外的账单消耗。
- 解决:设置ttl-热存期,可以将不常用的分区数据放入冷存。
| 命中为0分,否则100分。 |
长时间未访问 | 1/4 | - 口径定义:最近90天内没有访问的数据表(根据表的最后访问时间计算)
- 治理范围:所有范围的表
- 问题影响:长期未使用的数据,持续保留则会造成资源浪费。
- 解决:考虑业务实际使用情况,如业务不再使用该数据,则建议删除。
| 命中为0分,否则100分。 |
未设TTL-保留期 | 1/4 | - 口径定义:ttl = ‘’或未设置
- 治理范围:分区表,表创建时间大于1个月。
- 问题影响:长期未使用的数据,持续保留则会造成资源浪费。
- 解决:根据业务使用频繁使用的分区跨度,设置数据合理的数据保留期。
| 命中为0分,否则100分。 |
3.2 计算细则
- 存储健康分 = sum(治理项分数 * 权重)
说明
表粒度每个治理项规则中,分数满分为100,当前每个治理项的权重为1/4。
- 团队、部门、项目等粒度治理项得分 = sum( 表粒度的治理项得分*权重 )
- 权重(扣分占比) = 当前粒度下表的存储大小 / 总存储大小。