You need to enable JavaScript to run this app.
导航
3. 可视化建模
最近更新时间:2024.01.10 17:32:52首次发布时间:2023.08.28 16:43:58

说明

在CDP的可视化建模中,我们为您提供了内置的轻量级数据清洗与可视化建模功能。
您可以轻松地进行数据筛选、去重、替换等操作,确保数据的准确性和一致性。在数据清洗完成后,您可以将清洗后的数据输出到Hive、Clickhouse等数据库,或者直接输出为标签,以供后续使用。

由于原始数据接入CDP后无法直接使用,所以接下来需要先进行数据源编辑和数据清洗。

在本节中,我们将通过可视化建模,创建“按日分区”的数据源。每个分区将包含完整的原始数据,以便每日构建最新的标签。从数据源编辑到清洗再到构建分区,让我们开始吧~

1. 创建任务
  1. 鼠标悬停在 数据融合 模块,在弹出的菜单中选择 可视化建模

  2. 进入可视化建模页面后,点击左上角 新建 , 选择 新建文件夹,创建文件夹“IDMapping前置任务”。

  1. 点击文件夹右侧,选择 新建任务 ,在弹窗中输入任务名称“用户ID_IDMapping”,点击确定,创建新的任务。

2. 添加数据连接和节点数据

任务创建成功后,系统将会自动打开任务画布。

  1. 鼠标点击数据连接处的 “+” 按钮,在弹窗中选择之前创建好的 数据连接

  1. 在左侧目录中,展开刚才上传的“test_data”文件夹,找到表“user_profile”,鼠标左键点击该表,直接拖拽到画布中,即可添加输入节点数据。

  1. 点击右下角的 执行 按钮,等待执行成功后,点击 预览探查 ,即可看到表结构。

  2. 点击 数据预览 右侧的 切换 按钮,可切换到明细数据,观察执行后的数据内容。(平台参与预览计算的数据量默认为“10000”,可以在算子设置面板中进行修改。)

3. 添加算子

说明

执行数据清洗

  1. 点击节点右侧的“+”,在弹出的算子列表中选择 计算列 ,新增一个数据清洗算子。

  2. 双击算子名称,重命名为“添加分区日期”。

  1. 在算子的配置面板,进行表达式的配置:
    1. 计算列详情 中输入字段名称“p_date”,并选择字段类型为“string

    2. 在面板右侧 常用函数 中的搜索栏中输入“TASK”,双击“{TASK_DATE}”,左侧表达式的输入框中会填充上对应内容

    3. 点击 确认 按钮,完成该算子的添加

4. 输出数据集

说明

将数据保存到数据集

  1. 点击“添加分区日期”算子右侧的“+”,在弹出的算子列表中选择 输出 ,新增一个输出算子。

  2. 双击算子名称,重命名为“IDMapping_用户ID_离线_HIVE”。

  1. 点击算子配置面板中的 新增数据集 ,配置新的数据源。

    1. 输入数据集名称:IDMapping_用户ID_离线_HIVE

    2. 添加描述信息: 创建人:demo;创建时间:20xx-xx-xx

    3. 设置开放项目:选择“默认项目”或是刚才创建的新项目

    4. 类型:Hive

    5. 生命周期天数:7天

    6. 分区字段:p_date

  2. 完成后点击右下角的 确定 按钮,保存数据集。

  3. 等待平台创建对应的数据表,不要关闭弹窗;数据集创建成功后,弹窗会自动关闭。

5. 任务运行配置
  1. 点击右上角运行配置,选择相应的运行类型和频率。

  1. 检查无误后,点击右上角的 保存 按钮,保存任务。保存成功后,点击左上角的 < 按钮,退出任务画布。

  1. 在任务概览页面,可以查看处理流程、数据预览和运行记录。

  1. 进入 运行记录 标签页,可查看任务的运行频率和运行历史。点击右侧的 运行 按钮,在弹窗中选择需要运行的日期期间,确定运行建模任务。

  1. 运行记录页面会记录所有运行历史,刷新页面或者切换标签页,均可刷新运行记录。观察并等待运行状态更新为运行成功,此时任务运行完成。