You need to enable JavaScript to run this app.
导航
动态探查
最近更新时间:2024.11.04 15:29:47首次发布时间:2022.09.13 20:02:15

动态探查提供全局数据视角、完善的抽样策略裁剪数据,将数据缩小在一定的范围内,从而提高响应速率。
动态探查基于抽样的部分数据进行探查,展示字段明细以及字段的 0 值、Null 值、枚举值等探查信息,并支持通过过滤、group by等操作分析数据质量问题,实时展示统计分布结果。

1 使用场景

当前动态探查支持的主要使用场景如下:

  • 电商数据存在 Json 类型的某个字段,该字段存放产品的一些独有字段。当进行分析时,您可以利用 Hive 的基本函数比如 get_json_object,提取相应的列数据。
  • 当数据开发埋点出现用户账号为非邮箱账号,导致最终的统计结果不准时,您可以通过探查来确定数据分布以及异常的点,然后利用异常点确定具体的异常行数据。

2 前提条件

  • 已具备数据表的读取权限,才可对其进行探查。申请权限的相关操作说明请参见权限申请
  • EMR 引擎上传 Spark Jar 包后才能正常使用。若没有上传,当选择相应 EMR 引擎时,系统会弹窗提示您上传,详细操作说明请参见配置Hive模板规则

    说明

    • 具备 EMR 引擎的根目录读写权限的账号才能执行上传操作,主账号默认具备该权限。
    • 数据监控数据探查数据对比页面选择 EMR 引擎实例后,系统都会进行 Spark Jar 的扫描,可通过任一入口进行上传,上传成功一次即可。

3 操作步骤

  1. 登录 DataLeap 控制台。

  2. 选择数据质量 > 数据探查 > 动态探查,进入动态探查页面。
    Image

  3. 设置探查信息。

    1. 选择探查对象。
    2. 设置探查指标。
      动态探查的相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    选择探查对象

    *数据源类型

    探查对象的数据源类型,支持 HiveByteHouse 企业版Bytehouse 云数仓版EMR_SERVERLESS_STARROCKS 三个选项,下拉可选。

    *引擎

    要使用的引擎实例,提供 EMRLASEMR_SERVERLESS_SPARK 三种引擎选项,下拉可选。

    • 当选择 EMR 时,可从下拉列表中选择一个运行中的实例。
    • 当选择 LAS 时,实例默认为 default
    • 当选择 EMR_SERVERLESS_SPARK 时,实例选项默认为 default

    数据源类型选择 Hive 时,需设置该参数。

    说明

    EMR支持快捷模式和安全模式两类集群,集群访问模式的相关配置说明请参见绑定 EMR 集群

    • 快捷模式:选择监控对象时不会进行鉴权,可选择监控集群下所有数据表。
    • 安全模式:选择监控对象时会进行数据鉴权,若无该表的读取权限,则无法创建相应的监控规则。

    *数据源/引擎

    要使用的数据源/引擎。

    • 数据源类型选择 Bytehouse 企业版时,下拉可选 BHCE 引擎及一个运行中的引擎实例。
    • 数据源类型选择 EMR_SERVERLESS_STARROCKS 时,下拉可选已绑定的实例。绑定实例相关操作请参见绑定 EMR Serverless StarRocks 实例
    • 数据源类型选择 Bytehouse 云数仓版时,默认为default,下拉可选。

    数据源类型选择 Bytehouse 企业版Bytehouse 云数仓版EMR_SERVERLESS_STARROCKS 时,需设置该参数。

    *库名

    要探查的数据库名称,下拉可选已创建的数据库。

    *表名

    所选数据库下要探查的数据表名称,下拉可选已创建的数据表。

    负责人

    数据表的负责人,选择表名后自动显示。

    *探查分区

    数据表的分区字段,选择表名后自动显示。
    一级分区必填,分区取值无需填写引号。例如,可填写date=20201016/hour=10/app=数据质量,无需填写date='20201016'/hour='10'/app='数据质量'。

    说明

    当数据表为分区表时,选择表名后才显示该参数。

    探查设置

    *抽样方式

    提供连续抽样、过滤抽样和随机抽样三个选项。

    • 连续抽样:按照默认顺序连续抽样前x条数据。
    • 过滤抽样:使用where过滤语句进行过滤。
    • 随机抽样:按照随机原则,从总体中抽取一部分数据。

    *抽样条件

    抽样的筛选条件。使用where过滤语句进行过滤。
    抽样方式选择过滤抽样时,需设置该参数。

    *抽样条数

    抽样的数量,仅可设置为正整数,最大支持5000条。

    说明

    探查将消耗一定计算资源,若数量较大,探查运行时间将会变长。

    探查字段选择

    要探查的表字段,默认全选,可通过详细设置按钮编辑。

    *计算组

    ByteHouse 中的计算资源集群,下拉可选已在 ByteHouse 云数仓版控制台创建的计算组。
    数据源类型选择 ByteHouse 云数仓版时,需设置该参数。

  4. 单击确定按钮,进入抽样探查结果页面,可查看抽样条数的快速探查结果。
    内容包括预览对象、行列数、操作步骤数等信息,并展示探查信息和数据列表。

    • 探查信息:统计字段探查信息的总结。
      • NULL值:统计该字段中,出现NULL的个数和占比。
      • 0值:统计该字段中,出现0值的个数和占比。仅支持数值类字段。
      • 枚举值:统计该字段中的枚举值,按数值从小到大排序。单击更多按钮,可查看所有枚举值,最多展示前100个。
      • 数值统计:统计该字段中分位数、均值、标准差、SUM,统计前会过滤掉NULL值。其中,分位数可选择查看10% - 90%分位数查看25%/50%/75%分位数。仅支持数值类字段。
    • 数据列表:展示探查的全部数据集合,可以快速查看原始数据的详细内容。
      Image
  5. 还可对探查结果执行以下操作:

    • 数据抽样
      单击数据抽样按钮,在数据抽样页面,可以编辑探查信息,对该对象进行新的抽样探查。
    • 过滤
      单击过滤按钮,在过滤页面,选择字段并设置过滤规则后,单击保存按钮,可实时查看过滤后的探查结果。
    • Group By
      单击 Group By 按钮,在 Group By 页面,选择一个或多个分组字段及其展示方式后,单击保存按钮,可以实时展示相应字段上的count(*)值。
    • 列删除
      单击列删除按钮,在列删除页面,选择一个或多个要取消显示的列字段,单击删除按钮,可以实时移除相应列的展示信息。
    • 列排序
      单击列排序按钮,在列排序页面,选择字段并设置升降序排序规则后,单击保存按钮,可实时查看按规则排序后的探查结果。
    • 操作步骤
      单击操作步骤按钮或在过滤、Group By 等各操作页面,可以查看对本次探查结果的所有操作的内容,并可编辑或删除相应的操作步骤。编辑或者删除之后会按照新的逻辑重新进行运算。
    • 定位字段
      在字段名称搜索框的下拉列表中,选择要查看的字段,可以快速定位该字段。
    • 查看定位字段的监控建议
      单击显示的监控建议按钮,可以查看监控建议,并可单击配置监控按钮,跳转到数据监控页面配置监控信息。

      说明

      仅 Hive 类型的数据表支持该功能。

    • 收起/展开探查
      单击收起/展开探查复合按钮,可以收起/展开页面上半部分的探查信息。
    • 全屏展示探查结果
      单击页面右上角的全屏显示图标按钮,可全屏展示探查结果页面。
      相关操作的参数说明如下表所示。

    参数

    说明

    过滤

    过滤方式

    目前仅支持过滤模板。
    可对操作到目前为止具备的全部字段设置过滤规则,可设置多个,之间的关系为
    字段的过滤方式支持以下选项:

    • ==
    • !=
    • =

    • <
    • <=
    • 空字符
    • 非空字符
    • IS NOT NULL
    • IS NULL
    • LIKE
    • 包含
    • 不包含

    Group By

    Group By

    要分组的列字段,下拉可选,支持多选。
    选项范围包括操作到目前为止具备的全部字段。

    展示方式

    提供新生成表格和作为新列两个选项。

    • 新生成表格:Group By新生成一张表,并替换当前表。
    • 作为新列:在原有的表上增加一个列,显示每个group by字段上的count(*)的值。

    列删除

    字段名称

    要删除的列字段,下拉可选,支持多选。
    选项范围包括操作到目前为止具备的全部字段。

    列排序

    排序规则

    选择字段,设置其升降序排序规则。
    选项范围包括操作到目前为止具备的全部字段。