说明
在CDP的可视化建模中,我们为您提供了内置的轻量级数据清洗与可视化建模功能。
您可以轻松地进行数据筛选、去重、替换等操作,确保数据的准确性和一致性。在数据清洗完成后,您可以将清洗后的数据输出到Hive、Clickhouse等数据库,或者直接输出为标签,以供后续使用。
由于原始数据接入CDP后无法直接使用,所以接下来需要先进行数据源编辑和数据清洗。
在本节中,我们将通过可视化建模,创建“按日分区”的数据源。每个分区将包含完整的原始数据,以便每日构建最新的标签。从数据源编辑到清洗再到构建分区,让我们开始吧~
鼠标悬停在 数据融合 模块,在弹出的菜单中选择 可视化建模。
进入可视化建模页面后,点击左上角 新建 , 选择 新建文件夹,创建文件夹“IDMapping前置任务”。
任务创建成功后,系统将会自动打开任务画布。
点击右下角的 执行 按钮,等待执行成功后,点击 预览探查 ,即可看到表结构。
点击 数据预览 右侧的 切换 按钮,可切换到明细数据,观察执行后的数据内容。(平台参与预览计算的数据量默认为“10000”,可以在算子设置面板中进行修改。)
说明
执行数据清洗
点击节点右侧的“+”,在弹出的算子列表中选择 计算列 ,新增一个数据清洗算子。
双击算子名称,重命名为“添加分区日期”。
在 计算列详情 中输入字段名称“p_date”,并选择字段类型为“string”
在面板右侧 常用函数 中的搜索栏中输入“TASK”,双击“{TASK_DATE}”,左侧表达式的输入框中会填充上对应内容
点击 确认 按钮,完成该算子的添加
说明
将数据保存到数据集
点击“添加分区日期”算子右侧的“+”,在弹出的算子列表中选择 输出 ,新增一个输出算子。
双击算子名称,重命名为“IDMapping_用户ID_离线_HIVE”。
点击算子配置面板中的 新增数据集 ,配置新的数据源。
输入数据集名称:IDMapping_用户ID_离线_HIVE
添加描述信息: 创建人:demo;创建时间:20xx-xx-xx
设置开放项目:选择“默认项目”或是刚才创建的新项目
类型:Hive
生命周期天数:7天
分区字段:p_date
完成后点击右下角的 确定 按钮,保存数据集。
等待平台创建对应的数据表,不要关闭弹窗;数据集创建成功后,弹窗会自动关闭。