数据存储支持查看火山引擎 E-MapReduce(EMR)Hive、湖仓一体分析服务 LAS 表存储资产明细情况,并提供公共规则及治理建议,可快速定位治理的主要侧重点,并提供治理操作/批量处理能力,协助治理负责人或治理实施者进行存储治理。
1 使用前提
- 已创建 EMR-3.1.0 以上版本的 Hadoop 集群类型,详见创建集群。
- 数据地图中已完成 EMR Hive 元数据采集。详见元数据采集。
- 已购买 DataLeap 分布式数据自治服务。详细操作说明请参见 DataLeap 服务信息。
2 进入数据存储
- 登录 DataLeap 控制台 。
- 在概览界面中,单击数据治理 > 资源优化 > 数据存储,进入数据存储界面,便可查看各资产的数据存储界面。
3 操作指南
3.1 多维度筛选
在数据存储界面,您可以通过多个维度进行筛选 EMR Hive、LAS 数据库表情况:
当设置多个筛选条件时,会取各个条件的交集,进行过滤查询。
- 查看视角:支持从团队或个人视角查看对应视角下相关的 Hive、LAS 表资源。
- 团队、个人:单击下拉框,选择对应的数据团队或个人信息,支持多选。
- 团队详情:单击团队详情,展现已选择的数据团队详情,并可对该数据团队进行编辑、删除等操作。
说明
- 团队详情中最多只展示 5 个数据团队详情,您可根据实际情况进行筛选查看。
- 当前成员需要是数据团队负责人,方可对数据团队进行修改与配置。
- 添加治理方案:单击添加治理方案,您可前往规划诊断界面,进行治理方案的创建。详见规划方案。
- 资产类型:可选择 EMR Hive、LAS 的数据库表资源类型。
- 资产范围:可通过选择 EMR/LAS 集群、库名、表名和项目名称等信息,来筛选 Hive/LAS 表信息。
说明
- EMR 集群可选择当前主账号下,正常 Running 状态的 EMR Hadoop 集群类型,其版本需在 3.1.0 以上,且在数据地图-元数据采集中已创建相关采集器并执行了全量同步的操作;若未执行全量同步时,需治理的表数量可能会存在缺失的情况。创建采集器详见元数据采集。
- 若 EMR 集群已被删除,但因元数据采集器仍然保留时,资产范围筛选的表会在 T+1 后更新。
- 其中表名称:支持模糊搜索,并支持批量录入搜索,您可单击右侧的批量搜索按钮进行操作,支持批量输入完整的库名.表名信息,进行搜索,中间以空格或换行符进行分隔。
- 可优化项:直接单击 TTL 设置不合理、文件大小异常、存储合适不合理、近30天无查询、层级信息缺失、空表等优化项进行筛选。
3.2 推荐优化项说明及建议
平台提供公共规则识别待治理资产,并给出对应的优化建议及相应口径说明。
下面为您介绍详细推荐优化项口径说明:
优化项 | 口径说明 | 优化建议 |
---|
TTL 设置不合理 | 生命周期为未配置或永久保存,建议删除或者缩短 TTL。 | 根据近 90 天访问分区情况,建议删除或者缩短 TTL 为 7 天。 |
文件大小异常 | 表平均文件大小过小或者分区文件数过多。 | 修改任务代码或参数,将存量小文件进行合并,降低小文件数量。 |
存储格式不合理 | 表存储格式为 Text 类型。 | 重新建表,采用 Parquet 或者 ORC 存储格式,并回溯数据。 |
近 30 天无查询 | 最近 30 天内没有相关查询。 | 确认相关业务是否已暂停,若业务已停止,建议删除该表。 |
层级信息缺失 | 当前表缺失层级信息。 | 在数据地图中,补齐相关表的层级信息。 |
描述或中文名缺失 | 创建表时,未添加表的描述或中文名信息。 | 数据地图表管理中,补齐相关表的描述或中文名信息。 |
空表 | 当前表的物理存储为0。 | 考虑业务是否已暂停,如果业务已经停止,建议删除该表。 |
无更新表 | 当前分区表最近 65 天没有新增分区。 | 考虑业务是否已暂停,如果业务已经停止,建议删除该表。 |
未设 TTL-保留期 | LAS 表生命周期中没有设置 TTL-保留期。 | 参考实际业务访问 LAS 表情况,设置相应的 TTL-保留期。 |
未设 TTL-热存期 | LAS 表生命周期中没有设置 TTL-热存期。 | 参考实际业务访问 LAS 表情况,设置相应的 TTL-热存期。 |
3.3 列表字段明细
筛选后的数据存储列表中,为您展现了 EMR Hive、LAS 库表的详细信息,其中列表中部分字段说明如下:
- 存储健康分:展现当前表的存储健康分信息,具体计算规则及权重详见存储健康分。
- 逻辑/物理存储:基于hms分区元数据逻辑/物理大小的累加计算,支持排序。
- 近一周/两周/两月/一年增长情况:表近一周/两周/两月/一年物理存储差值,支持排序。
- 查询次数(30/60/90天):近30/60/90天,表通过 tqs 被查询的次数,支持排序。
- 生命周期:生命周期设置后,T+1 生效规则,表的分区动态保留天数,支持三种口径:按分区名称、按分区更新时间、按分区创建时间。
- 最大/最小分区日期:一级分区为时间分区的表中,最大/最小分区日期,协助配置 TTL。
您也可单击操作列右侧的小齿轮,对列表中展现的字段进行自定义展示设置。
3.4 治理操作
单击列表中的操作列,您可进行以下操作:
说明
若 EMR 集群为安全模式接入时,以下所有治理操作,操作人需拥有相应治理表的权限,您可前往数据安全模块,申请相应的治理表权限。详见权限申请。
操作项 | 说明 |
---|
EMR Hive 生命周期( TTL ) | Hive 设置表分区数据的保留天数,支持按分区名称、分区创建或分区更新时间等配置生命周期: - 按分区名称:目前支持分区为天级别分区的表,且日期格式为 yyyyMMdd、yyyy-MM-dd、yyyy.MM.dd。
- 分区字段:根据表结构,下拉选择表中分区字段信息。
- 日期格式:支持下拉选择 yyyyMMdd、yyyy-MM-dd、yyyy.MM.dd 三类日期格式。
- 保留分区范围:按分区名称,设置分区数据保留的时间范围,支持自动删除 N 天前的分区,可自定义 N 的范围,或对重要表分区数据进行永久保留。
- 永久保留分区:您可以将表的部分关键分区,例如每月第一天、每月最后一天或自定义每月某一天的分区数据进行永久保留,支持多选,最高可永久保留 4 天的分区。
- TTL 推荐规则:详见 4.2 推荐生命周期的计算逻辑。
- 表分区查询热度图:近 90 天内,通过 tqs 对表有查询,分区的查询热度分布情况。
- 横坐标为:查询的分区与查询时日期的时间间隔。
- 纵坐标:查询次数。
举例:假如您在2023年3月4日查询了20230301分区20次,20230302分区查询了10次,则3天前的分区查询了20次,2天前的分区查询了10次。
- 按分区更新时间:按分区更新的最后时间,自动删除经过 N 天后没有更新的分区。
- 按分区创建时间:按分区创建的时间,自动删除创建时间为 N 天前的分区。
|
LAS 生命周期( TTL ) | LAS 表设置生命周期,可选择以下两种数据分层依赖: - 按照分区创建时间:
- 设置 TTL-热存期:超过热存期(创建时间 > x 天)的数据进行自动转换为冷数据;
- 设置 TTL-保留期:超过保留期(创建时间 > y 天)的冷数据进行自动删除
- 按照表访问时间:
- 超过热存期(表访问时间 > x 天)的数据进行自动转换为冷数据;
- 对于 Managed Hive 表:到达保留期后(表访问时间 > y 天),会删除表数据,表本身保留;
- 对于 LAS 内部表:到达保留期后(表访问时间 > y 天),会删除表数据以及表。
|
表管理 | 对表的基础信息进行设置,支持配置表层级、中文名和描述。 |
删除 | 删除当前数据表,删除为高危操作,当前表和下游表的任务、用户将会受到影响,请谨慎操作。 说明 - 如果误删除,7天内可以通过提工单方式,联系 Hive 同学恢复数据。
- 如果表中数据量过多,删除可能会超时报错。如果超时报错,建议先修改生命周期为 1 天,等第二天早上清理掉历史分区后,再删除表。
|
批量操作 | 勾选需操作的表,支持批量删除、批量配置生命周期、批量修改层级和下载当前列表等操作。 |
4 常见问题
4.1 设置完生命周期,什么时候可以生效执行
A:生命周期配置完成后,立即开始执行。
4.2 推荐生命周期的计算逻辑
以下为您介绍生命周期,按分区名称配置时,平台推荐保留的分区范围逻辑:
配置口径:按分区名称
分区字段:日期类型--date、 p_date、pt、dt
日期格式:yyyymmdd、yyyy-mm-dd、yyyy.mm.dd
保留分区推荐逻辑:
- 优先级判断:按照表格展示优先级,依次做推荐逻辑判断。
- 层级:表的层级,取自 Hive 的层级字段 + 表名判断+对应任务类型判断(主要是 ods)。
- 表类型:表的类型,通过(表行数+表名等)判断,表名:hf、df、wf、mf 则快照。
- 近90天(访问当天 - 访问分区)最大值:表近90天的访问情况。
- 推荐值:通过层级、类型及访问情况,推荐配置的 TTL 天数。
- 页面建议值(与当前 TTL 比较):根据算法推荐值及原配置情况,在页面展示推荐的ttl值。
优先级判断 | 层级 | 表类型 | 近90天(访问当天 - 访问分区)最大值 | 推荐值 | 页面建议值(与当前 TTL 比较) |
---|
1 | ods | | | 400 | min(400,当前 TTL) |
2 | | 全量 | | 每个月最后一天 | - 当前 TTL <=32:则建议当前 TTL;
- 当前 TTL > 32:永久保留每个月最后一天,TTL = 7。
|
3 | dwd/dim | | value | 2 x value | - 建议值 <= 当前 TTL:
- 推荐值<=7,页面建议配置 7;
- 7<推荐值<=31,页面建议配置 31;
- 31<推荐值<=62,页面建议配置 62;
- 62<推荐值<=93,页面建议配置 93;
- 93<推荐值<=183,页面建议配置 183;
- 183<推荐值<=366. 页面建议配含 366;
- 366<推荐值<=732,页面建议配置 732;
- 732<推荐值,页面建议配置真实推荐值。
- 建议值 > 当前 TTL:页面显示当前 TTL。
|
dwm/dwa/dwi/dm | | value | 1.5 x value |
rpt/app/空 | | value | value |
4 | | | 空 | 无 | 不推荐 |
4.3 生命周期未生效
Q: 配置了生命周期 180 天,却存在 180 天前的分区?
A: 可能是没选择【按分区名称】配置,默认会按分区最后修改日期来清理,导致有一些回溯过的数据,最后修改日期和分区的业务日期不一致,会看起来像是没有清理。