You need to enable JavaScript to run this app.
导航
4.4.1 创建数据对比
最近更新时间:2022.09.05 11:25:35首次发布时间:2022.09.05 11:25:35
我的收藏
有用
有用
无用
无用

alt

在数据发生变动的时候,如更改数据Schema、变更数据源等,需要对变更前后的数据进行对比,通过量化评估两份数据的差异,来避免变更导致的数据变化影响数据下游的正常使用的情况发生。
可以使用数据对比功能,对新旧数据表到字段级进行差异量化对比,精确衡量数据变动的影响,为数据责任人提供参考依据。

创建数据对比

提供了两种模式进行对比:

  1. Hive表对比,即对比的对象为两张已持久化到Hive的A/B表。
    alt

  2. Hive SQL对比,即对比的对象为两段SQL产出的虚拟数据集,该数据尚未持久化到Hive表。
    相比Hive表对比,Hive SQL对比具有以下优势:

    1. 如果需要对比多个日期分区,可以在SQL中直接查询出某一段日期分区下的数据进行对比,而Hive表对比仅可选择一个固定分区。
    2. 有些需要更改表结构的数据变动(如增加字段、更改字段类型等),用SQL对比更方便。因为可以先对比数据结果,再进行变更。

alt