3. 可视化建模--客户数据平台-火山引擎

文档中心

导航

3. 可视化建模

最近更新时间：2024.01.10 17:32:52首次发布时间：2023.08.28 16:43:58

说明

在CDP的可视化建模中，我们为您提供了内置的轻量级数据清洗与可视化建模功能。
您可以轻松地进行数据筛选、去重、替换等操作，确保数据的准确性和一致性。在数据清洗完成后，您可以将清洗后的数据输出到Hive、Clickhouse等数据库，或者直接输出为标签，以供后续使用。

由于原始数据接入CDP后无法直接使用，所以接下来需要先进行数据源编辑和数据清洗。

在本节中，我们将通过可视化建模，创建“按日分区”的数据源。每个分区将包含完整的原始数据，以便每日构建最新的标签。从数据源编辑到清洗再到构建分区，让我们开始吧～

1. 创建任务

鼠标悬停在 数据融合 模块，在弹出的菜单中选择 可视化建模。
进入可视化建模页面后，点击左上角 新建， 选择 新建文件夹，创建文件夹“IDMapping前置任务”。

点击文件夹右侧，选择 新建任务 ，在弹窗中输入任务名称“用户ID_IDMapping”，点击确定，创建新的任务。

2. 添加数据连接和节点数据

任务创建成功后，系统将会自动打开任务画布。

鼠标点击数据连接处的 “+” 按钮，在弹窗中选择之前创建好的 数据连接 。

在左侧目录中，展开刚才上传的“test_data”文件夹，找到表“user_profile”，鼠标左键点击该表，直接拖拽到画布中，即可添加输入节点数据。

点击右下角的执行按钮，等待执行成功后，点击 预览探查 ，即可看到表结构。
点击 数据预览 右侧的切换按钮，可切换到明细数据，观察执行后的数据内容。（平台参与预览计算的数据量默认为“10000”，可以在算子设置面板中进行修改。）

3. 添加算子

说明

执行数据清洗

点击节点右侧的“+”，在弹出的算子列表中选择 计算列 ，新增一个数据清洗算子。
双击算子名称，重命名为“添加分区日期”。

在算子的配置面板，进行表达式的配置：
1. 在 计算列详情 中输入字段名称“p_date”，并选择字段类型为“string”
2. 在面板右侧 常用函数 中的搜索栏中输入“TASK”，双击“{TASK_DATE}”，左侧表达式的输入框中会填充上对应内容
3. 点击确认按钮，完成该算子的添加

4. 输出数据集

说明

将数据保存到数据集

点击“添加分区日期”算子右侧的“+”，在弹出的算子列表中选择输出，新增一个输出算子。
双击算子名称，重命名为“IDMapping_用户ID_离线_HIVE”。

点击算子配置面板中的 新增数据集 ，配置新的数据源。
1. 输入数据集名称：IDMapping_用户ID_离线_HIVE
2. 添加描述信息：创建人：demo；创建时间：20xx-xx-xx
3. 设置开放项目：选择“默认项目”或是刚才创建的新项目
4. 类型：Hive
5. 生命周期天数：7天
6. 分区字段：p_date
完成后点击右下角的确定按钮，保存数据集。
等待平台创建对应的数据表，不要关闭弹窗；数据集创建成功后，弹窗会自动关闭。

5. 任务运行配置

点击右上角运行配置，选择相应的运行类型和频率。

检查无误后，点击右上角的保存按钮，保存任务。保存成功后，点击左上角的 < 按钮，退出任务画布。

在任务概览页面，可以查看处理流程、数据预览和运行记录。

进入 运行记录 标签页，可查看任务的运行频率和运行历史。点击右侧的运行按钮，在弹窗中选择需要运行的日期期间，确定运行建模任务。

运行记录页面会记录所有运行历史，刷新页面或者切换标签页，均可刷新运行记录。观察并等待运行状态更新为运行成功，此时任务运行完成。