在数据发生变动的时候,如更改数据Schema、变更数据源等,需要对变更前后的数据进行对比,通过量化评估两份数据的差异,来避免变更导致的数据变化影响数据下游的正常使用的情况发生。
可以使用数据对比功能,对新旧数据表到字段级进行差异量化对比,精确衡量数据变动的影响,为数据责任人提供参考依据。
提供了两种模式进行对比:
Hive表对比,即对比的对象为两张已持久化到Hive的A/B表。
Hive SQL对比,即对比的对象为两段SQL产出的虚拟数据集,该数据尚未持久化到Hive表。
相比Hive表对比,Hive SQL对比具有以下优势: