在使用数据过程中,您可利用数据探查功能,对一张数据表进行全量探查,一键生成探查报告,展示探查后列的统计分布结果,如下:
- 各个字段空值、0值的占比。
- 唯一键重复情况。
- 一些重要字段的枚举值、均值、分位数等分布的情况。
探查作为所有数据工作的基础,可帮助您了解数据全貌、发现潜在问题、理解数据分布,从而更好的使用数据。
1 前提条件
- 已具备数据表的读取权限,才可对其进行探查。申请权限的相关操作说明请参见权限申请。
- EMR 引擎上传 Spark Jar 包后才能正常使用。若没有上传,当选择相应 EMR 引擎时,系统会弹窗提示您上传,详细操作说明请参见配置Hive模板规则。
说明
- 具备 EMR 引擎的根目录读写权限的账号才能执行上传操作,主账号默认具备该权限。
- 在数据监控、数据探查或数据对比页面选择 EMR 引擎实例后,系统都会进行 Spark Jar 的扫描,可通过任一入口进行上传,上传成功一次即可。
2 创建探查
登录 DataLeap 控制台。
选择数据质量 > 数据探查 > 创建探查,进入创建探查页面。
设置探查信息。
- 选择探查对象。
选择您需要探查的数据源,包含引擎、库、表及探查分区等信息。 - 设置探查指标。
- 设置高级参数。
创建探查的相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
---|
选择探查对象 |
*数据源类型 | 探查对象的数据源类型,支持 Hive、ByteHouse 企业版、ByteHouse 云数仓版、EMR_SERVERLESS_STARROCKS 三个选项,下拉可选。 |
*引擎 | 要使用的引擎实例,提供 EMR、LAS 和 EMR_SERVERLESS_SPARK 三种引擎选项,下拉可选。 - 当选择 EMR 时,可从下拉列表中选择一个运行中的实例。
- 当选择 LAS 时,实例默认为 default。
- 当选择 EMR_SERVERLESS_SPARK 时,实例选项默认为 default。
当数据源类型选择 Hive 时,需设置该参数。 说明 EMR支持快捷模式和安全模式两类集群,集群访问模式的相关配置说明请参见绑定 EMR 集群。 - 快捷模式:选择监控对象时不会进行鉴权,可选择监控集群下所有数据表。
- 安全模式:选择监控对象时会进行数据鉴权,若无该表的读取权限,则无法创建相应的监控规则。
|
*数据源/引擎 | 要使用的数据源/引擎。 - 当数据源类型选择 Bytehouse 企业版时,下拉可选 BHCE 引擎及一个运行中的引擎实例。
- 当数据源类型选择 EMR_SERVERLESS_STARROCKS 时,下拉可选已绑定的实例。绑定实例相关操作请参见绑定 EMR Serverless StarRocks 实例。
- 当数据源类型选择 Bytehouse 云数仓版时,默认为default,下拉可选。
当数据源类型选择 Bytehouse 企业版、Bytehouse 云数仓版或 EMR_SERVERLESS_STARROCKS 时,需设置该参数。 |
*库名 | 要探查的数据库名称,下拉可选已创建的数据库。 |
*表名 | 所选数据库下要探查的数据表名称,下拉可选已创建的数据表。 |
负责人 | 数据表的负责人,选择表名后自动显示。 |
*探查分区 | 数据表的分区字段。一级分区必填,可通过以下方式设置: - 输入设置,分区取值无需填写引号。
例如,可填写date=20201016/hour=10/app=数据质量,无需填写date='20201016'/hour='10'/app='数据质量'。 - 从下拉列表中选择推荐的分区表达式,并可根据需要进行编辑。
|
探查设置 |
主键重复值 | 若需要探查,则需要指定主键,可选择多个。 |
字段探查 | 包含各字段NULL值、0值、数值分布、枚举值等指标。可以在详细设置中进行更改,未勾选的探查项不会展示在探查报告中。 - NULL值:默认对所有字段探查NULL值。
- 0值:默认对所有数值类字段探查0值。
- 枚举值:默认对所有字段探查枚举值,若无需求,可移除勾选。
- 数值分布:默认对所有数值类字段探查数值分布,包含Min/Max/Mean/Sum/分位数/标准差。
- 空字符串:默认对所有字段探查没有字符的字符串"",若无需求,可移除勾选。
|
*计算组 | ByteHouse 中的计算资源集群,下拉可选已在 ByteHouse 云数仓版控制台创建的计算组。 说明 仅可选择开启了自动启停或处于开启状态的计算组。 当数据源类型选择 ByteHouse 云数仓版时,需设置该参数。 |
高级参数设置 |
描述 | 支持对探查报告进行简单描述,方便探查报告的浏览者理解探查信息。 |
运行参数 | 支持Set高级参数,便于调控探查运行状况。 |
过滤条件 | 支持输入语法逻辑与 SQL 一致的条件语句,如type=‘***’,无需输入‘where’。 |
点击确定按钮,完成创建,进入探查结果页面。
说明
通过探查结果页面的新建探查按钮,也可创建新的探查。
3 创建定期探查
对于需要经常查看数据的表,可以通过配置定期探查来自动更新探查报告,从而减少报告查看的等待时间。
登录 DataLeap 控制台。
选择数据质量 > 数据探查 > 创建定期探查,进入创建定期探查页面。
设置探查信息后,单击确定按钮,完成定期探查创建。
创建定期探查的相关参数说明如下表所示。
参数 | 说明 |
---|
选择探查对象 |
*数据源类型 | 探查对象的数据源类型,支持 Hive、ByteHouse 企业版、Bytehouse 云数仓版、EMR_SERVERLESS_STARROCKS 三个选项,下拉可选。 |
*引擎 | 要使用的引擎实例,提供 EMR、LAS 和 EMR_SERVERLESS_SPARK 三种引擎选项,下拉可选。 - 当选择 EMR 时,可从下拉列表中选择一个运行中的实例。
- 当选择 LAS 时,实例默认为 default。
- 当选择 EMR_SERVERLESS_SPARK 时,实例选项默认为 default。
当数据源类型选择 Hive 时,需设置该参数。 说明 EMR支持快捷模式和安全模式两类集群,集群访问模式的相关配置说明请参见绑定 EMR 集群。 - 快捷模式:选择监控对象时不会进行鉴权,可选择监控集群下所有数据表。
- 安全模式:选择监控对象时会进行数据鉴权,若无该表的读取权限,则无法创建相应的监控规则。
|
*数据源/引擎 | 要使用的数据源/引擎。 - 当数据源类型选择 Bytehouse 企业版时,下拉可选 BHCE 引擎及一个运行中的引擎实例。
- 当数据源类型选择 EMR_SERVERLESS_STARROCKS 时,下拉可选已绑定的实例。绑定实例相关操作请参见绑定 EMR Serverless StarRocks 实例。
- 当数据源类型选择 Bytehouse 云数仓版时,默认为default,下拉可选。
当数据源类型选择 Bytehouse 企业版、Bytehouse 云数仓版或 EMR_SERVERLESS_STARROCKS 时,需设置该参数。 |
*库名 | 要探查的数据库名称,下拉可选已创建的数据库。 |
*表名 | 所选数据库下要探查的数据表名称,下拉可选已创建的数据表,支持选择多个。 |
*探查分区 | 数据表的分区字段,选择表名后自动显示。
一级分区必填,可通过以下方式设置: - 输入设置,分区取值无需填写引号。
例如,可填写date=20201016/hour=10/app=数据质量,无需填写date='20201016'/hour='10'/app='数据质量'。 - 从下拉列表中选择推荐的分区表达式,并可根据需要进行编辑。
说明 - 当选择多个表名时,有相同分区名称的表会显示在同一行,并进行统一配置。
- 仅 Hive、Bytehouse 企业版、Bytehouse 云数仓版三种类型的表展示该参数。
|
探查设置 |
主键重复值 | 若需要探查,则需要指定主键,可选择多个。 |
字段探查 | 包含各字段NULL值、0值、数值分布、枚举值等指标。可以在详细设置中进行更改,未勾选的探查项不会展示在探查报告中。 - NULL值:默认对所有字段探查NULL值。
- 0值:默认对所有数值类字段探查0值。
- 枚举值:默认对所有字段探查枚举值,若无需求,可移除勾选。
- 数值分布:默认对所有数值类字段探查数值分布,包含Min/Max/Mean/Sum/分位数/标准差。
- 空字符串:默认对所有字段探查没有字符的字符串"",若无需求,可移除勾选。
|
*计算组 | ByteHouse 中的计算资源集群,下拉可选已在 ByteHouse 云数仓版控制台创建的计算组。 说明 仅可选择开启了自动启停或处于开启状态的计算组。 当数据源类型选择 ByteHouse 云数仓版时,需设置该参数。 |
定时执行设置 |
*执行方式 | 定期探查的执行方式,仅支持定时调度选项,即按照设定的调度时间定期探查。 |
*执行频率 | 定期探查的执行频率,仅支持天级选项。 |
*执行时间 | 定期探查的执行时间,仅支持设置为北京时间的每天 X 点,精确到分钟。 |
高级参数设置 |
描述 | 支持对探查报告进行简单描述,方便探查报告的浏览者理解探查信息。 |
运行参数 | 支持Set高级参数,便于调控探查运行状况。 |
过滤条件 | 支持输入语法逻辑与 SQL 一致的条件语句,如type=‘***’,无需输入‘where’。 |
说明
- 一个数据表只能配置一个定期探查,可以多次配置,但每次配置后会覆盖前一次的配置。
- 通过探查结果页面的新建定期探查按钮,也可创建新的定期探查。
4 管理探查结果
数据探查创建成功后,可以执行查看探查报告、搜索探查结果、查看运行日志等操作,步骤如下:
- 登录 DataLeap 控制台。
- 选择数据质量 > 数据探查 > 探查结果,进入探查结果页面。
- 在数据源类型和对应引擎下拉列表中,选择要查看的引擎和对应的实例。
- 点击探查结果列表前的折叠图标或点击全部展开按钮,展开列表信息。
- 可执行以下操作:
- 设置搜索信息,快速查找符合条件的探查结果列表。
- 管理定期探查
- 单击列表中某条数据操作列的编辑定时探查按钮,可以编辑该数据的定期探查信息。
- 勾选一条或多条数据后,单击关闭定期探查按钮,二次确认后可以批量关闭定期探查。
- 勾选一条或多条数据后,单击开启定期探查按钮,二次确认后可以批量开启定期探查。
说明
相关数据创建定期探查后,才可执行以上管理操作。
- 点击列表中某条探查信息操作列的探查报告按钮,进入探查报告页面,查看数据探查结果。
内容包括该分区的表行数、字段数、表大小、存储格式、填写的探查描述信息等,并统计字段探查信息的总结。字段详情如下:
- NULL值:统计该字段中,出现NULL的个数和占比。
- 0值:统计该字段中,出现0的个数和占比。仅支持数值类字段。
- 枚举值:统计该字段中的枚举值,按占比从大到小排序。点击更多按钮,可查看所有枚举值,最多展示前100个。
- 数值统计:统计该字段中分位数、均值、标准差、SUM,统计前会过滤掉NULL值。其中,分位数可选择 查看10% - 90%分位数 或 查看25%/50%/75%分位数。仅支持数值类字段。
说明
- 创建的数据探查运行成功后,才可以查看探查报告。
- 当探查报告中表行数为 0 时,字段详情无相关数据可展示,建议您重新探查或检查表数据情况。
- 点击列表中某条探查信息操作列的分享按钮,可以复制该报告地址,并分享给他人。
- 点击列表中某条探查信息操作列的复制按钮,可以复制并修改其探查信息,快速创建新的探查。
- 点击列表中某条探查信息操作列的 ... > 运行日志按钮,可以查看该探查的运行日志。
- 点击列表中某条运行中的探查信息操作列的 ... > 终止按钮,可以终止该探查。
- 点击列表中某条探查信息操作列的 ... > 重跑按钮,可以重跑该探查任务。