数据集是由一张或多张表组成的数据模型,是创建标签、分群、洞察的基础,在应用数据前,需要将数据连接对接的源数据信息,通过可视化建模功能输出为数据集。
在【数据融合】-【数据集】模块,可以查看项目内所有数据集的情况概览,包括数据集来源、CDP应用(数据源标识)、存储类型、存储总量、生命周期、更新时间等。
各类应用场景的区别如下:
点击 查看血缘信息 ,即可展示**血缘视图,**帮助用户直观追踪数据的来源和流向,增强数据管理的透明度和追溯能力。
点击 编辑 ,即可修改当前数据集的名称、描述,以及生命周期天数(即数据的有效保存天数,如选择7天,则根据数据更新时间最多保存7天的数据,超出7天的数据将根据数据更新时间定时滑动清空)。
建议:如每天保存全部数据,建议保留7天以内数据以降低存储压力,如每天保存新增的数据或非分区表,建议根据常用数据范围自定义生命周期。
点击 注册数据源,将跳转到元数据模块便捷创建为数据源。
点击 删除 ,支持删除当前数据源。注意:删除操作有可能影响上下游使用,请谨慎操作。
在 项目中心-权限-按内容管理-资源 页面,支持对 数据集 进行授权。选择“数据集”类型的资源。
支持单个/批量授权,支持授予查看、编辑、管理权限。
输入:在可视化建模新建任务时,支持选择 数据集 连接的形式。
输出:支持将数据输出到数据集,支持输出到hive/clickhouse。
在 数据融合-元数据管理-新建数据源 页面,新增数据源时,支持选择数据集连接源。若该数据集有baseid,则直接使用该表;若无,需系统自动创建对应的idmapping映射可视化建模任务。
*仅项目/系统管理员有权限拉取系统内所有抽取到Hive的数据集。
在 数据融合-ID图谱构建 页面,引入该ID类型的全量ID时,以及选择任意两个ID类型(非基准ID)建立连接时,在注册类型关系页面,均需选择存储为Hive的数据集。