1.功能概述
支持可视化建模任务及数据集等资源的灵活迁移,例如,可以将A项目中的可视化建模任务及其相关数据集导出,并在B项目中导入,从而促进项目间的资源共享与协作。
2.使用限制
- 此功能为 付费功能,如有需求请联系您的商务经理。
- 具有 “可视化建模任务模块编辑权限” 或 “项目编辑” 权限的用户可以进入该页面,包含系统管理员、集团管理员、项目管理员、有模块权限点的用户
3 可视化建模(prep)任务与数据集导入导出
3.1 导出导入原理
- 原理:
- 导入方式支持新建、覆盖2种模式:
- 新建模式:第一次导入时采用,从源环境导出后,会在生产环境创建同名的Prep任务和数据集;
- 覆盖模式:二次导入时采用,可以在界面上选择要覆盖的prep任务和数据集。
- 新增、编辑的任务和数据集可以导出,删除的任务和数据集不支持导出导入。
暂时无法在飞书文档外展示此内容
3.2 导出导入内容
| 可导出 | 不可导出 |
---|
Prep任务 | 用户自己创建的Prep任务(不包含系统创建的Prep任务),且是离线任务。 | - 实时任务
- 输出节点包含“输出标签”的任务
- 系统创建的Prep任务(三方数据接入、输出至GMP、输出到第三方引擎(如maxcompte))
|
数据集 | 由用户自己创建的Prep任务产生的数据集可导出 | - 系统创建的prep任务产生的数据集
- 三方数据接入产生的数据集
- 输出至GMP产生的数据集
- 输出至第三方引擎的数据集
- CDP的系统数据集:其产生的标签结果表、分群结果表
- ABI的系统数据集:在ABI数据集页面独立新建的数据集
|
Prep任务 | 可导出 | 不可导出 |
---|
基础配置 | 任务名称、描述、任务类型(离线/实时)、运行类型(手动/周期运行)与运行频率(运行的时刻) | 路径:导入时统一放在了根目录下,需要在目标环境调整。 |
计算逻辑 | 任务用的算子、算子的连接顺序、算子的名称、每个算子的配置 | |
数据连接 | 用到的源环境的数据连接,在导入时,可指定映射到目标环境哪个数据连接 | |
资源队列 | 用到的源环境的数据连接,在导入时,可指定映射到目标环境哪个数据连接 | |
数据集 | 用到的源环境的数据连接,在导入时,可指定映射到目标环境哪个数据集 | |
任务依赖关系 | | 任务依赖关系暂不支持导出,系统在导入任务时会根据系统推荐的自动依赖挂上依赖关系。这种不能覆盖用户额外添加的手动依赖,这种case用户暂时自己在目标环境挂上依赖关系。 |
数据集 | 可导出 | 不可导出 |
---|
基础配置 | 名称、描述、CDP应用字段、类型(离线/实时)、来源(可视化建模、客户数据平台、智能数据洞察) | |
存储配置 | Hive表:表类型(hive)、生命周期天数、分区(一级分区、二级分区)
CK表:表类型(CH)、所属集群、排序键、分片字段、抽样字段、生命周期天数、分区(一级分区、二级分区) | 新建时,这些配置均会进行导出导入;
覆盖时,表类型和分区不支持导入覆盖,因为这2个配置项在在编辑状态不允许修改。 |
表结构 | 表名称、字段名称、字段类型 | |
Prep任务 | 可导出 | 不可导出 |
---|
输入节点 | 除流式数据库之外的其他数据库,包含本地文件、API、关系型数据库、数据仓库、列式数据库、文档数据库等。 | 流式数据库不支持 |
输出节点 | 输出数据集、输出外部存储、输出模型(只支持导出算子配置,不支持导出模型文件) | 输出标签、输出数据档案 |
3.3 操作步骤
前往 数据管理>可视化建模>资源迁移 页面。
3.3.1 资源导出
1 选择要导出的资源
- 在资源列表中,可以看到所有可导出的可视化建模任务,包括任务名称、所属保存路径、任务所有者、创建时间的详细信息。
- 创建时间字段支持排序功能,系统默认按照创建时间倒序排列,以便用户快速找到最新的任务。
注意
此处仅展示用户有管理权限且是用户手动创建的离线任务,不包含系统自动创建的任务、实时任务、和包含输出标签算子的任务。
- 用户可以通过多种方式筛选需要导出的资源:
- 任务名称:支持模糊搜索,快速定位特定任务。
- 保存路径: 提供下拉菜单,支持多选和模糊搜索,帮助用户快速找到任务。
- 任务所有者:同样支持下拉菜单多选和模糊搜索。
2 查看关联的数据集
- 关联数据集概览:在顶部选择一个或多个Prep任务后,下方将实时展示这些任务关联的数据集。数据集将分为两类展示:输入节点数据集 和 输出节点数据集,同时,系统将展示引用了这些数据集的可视化建模任务。
说明
- 如果多个任务关联同一个数据集,系统会自动去重,列表中只展示一次。
- 对于既是任务A输出又是任务B输入的数据集,将在输入和输出节点数据集中均展示。
- 确认是否具备导出权限: 输出数据集将明确标示当前用户是否具备导出权限。若用户当前无权限导出,系统将限制导出操作。一旦权限发生变更,用户可通过点击“刷新权限状态”按钮,实时更新并查看自己对数据集的最新权限设置。
3 查看关联的数据连接
- 关联数据连接概览:展示所选任务关联的所有数据连接,包括连接名称以及引用该连接的任务。
4 导出权限信息设置
- 当用户勾选“同步导出权限信息”时,系统将导出以下权限相关信息:
- 任务和数据集的创建者。若创建者为资源Owner,则在目标项目中查找该用户;若不存在,则将权限关联至导入者。
- 授权信息,包括管理、编辑和查看权限的用户。若目标用户已存在,则相应权限将被分配;若不存在,则不进行权限分配。
注意
- 权限导出不包括用户组、角色、部门相关的权限信息和行列权限信息,用户需要在新项目中重新授权。
5 执行导出操作
在完成上述操作后,用户可以点击“导出”按钮,系统将根据用户选择的导出资源生成相应的导出文件。
说明
- 导出限制:系统限制每次最多导出100个任务。
- 导出文件命名:导出文件默认命名规则为:“可视化建模_${导出时间}_随机字字符串”,例如:“可视化建模_2023-12-08 12:00:09_随机字符串”。
3.3.2 资源导入
1 上传需要导入的文件
点击 新建 按钮,上传需要导入的文件。(注意:仅支持.prep文件)
2 选择导入方式
- 支持两种导入方式:
- 新建:在目标项目中创建全新的可视化建模任务。
- 覆盖:使用导入包中的任务内容替换当前项目中已存在的任务。
3 新建方式:选择导入资源
- 在列表中,用户可以查看并选择待导入的任务,基于用户选择的任务,系统将展示相关的数据集列表、数据连接列表和集群队列列表。
- 导入数据集: 对于可视化建模任务中关联的数据集,将根据用户的实际选择进行新建或关联到现有数据集。
说明
- 输入节点数据集不进行导入,只能关联已有数据集,是一种映射关系,导入后会将任务的输入节点数据集换成关联的数据集,其不会覆盖关联数据集的元信息。
- 输出节点数据集会进行导入,有2种导入模式:
- 新建:在当前项目中创建该数据集,若存在同名数据集,数据集会导入失败;
- 关联已有数据集:在导入时将数据集换成关联的数据集,系统会比对原有数据集和关联数据集的元信息差异,用户可自行选择是否进行覆盖;
- 在 数据连接 列表中,展示当前勾选的可视化建模任务所引用的数据连接,并提供本项目中可关联的数据连接供用户选择。在导入可视化建模任务时,系统将自动将任务中的数据连接替换为用户选择的数据连接。
- 在 资源队列 列表中,展示勾选的可视化建模任务所使用的资源队列,用户需要从下拉列表中选择一个适用于“定时任务”的资源队列。在导入可视化建模任务时,系统将自动将任务中的资源队列替换为用户选择的队列。
- 导入权限: 在目标项目中,系统将寻找原资源的创建者和任务Owner。若找到,权限将关联至相应用户;若未找到,权限将关联至导入人。
4 覆盖方式:选择导入资源
- 选择覆盖资源: 在列表中,用户可以看到待导入资源的任务名称,并选择要覆盖本项目中的哪个资源。同时,用户可以选择是否同时覆盖任务名称、描述和存储目录。
- 覆盖逻辑:可视化建模任务中的数据集、数据连接、队列将根据配置的映射关系进行处理,其余内容将被覆盖。
- 导入数据集: 对于可视化建模任务中关联的数据集,将根据用户的实际选择进行新建或关联到现有数据集。
- 在 数据连接 列表中,展示当前勾选的可视化建模任务所引用的数据连接,并提供本项目中可关联的数据连接供用户选择。在导入可视化建模任务时,系统将自动将任务中的数据连接替换为用户选择的数据连接。
- 在 资源队列 列表中,展示勾选的可视化建模任务所使用的资源队列,用户需要从下拉列表中选择一个适用于“定时任务”的资源队列。在导入可视化建模任务时,系统将自动将任务中的资源队列替换为用户选择的队列。
- 同步权限信息:导入权限后,资源Owner与源资源一致,资源权限在原有基础上叠加;若不导入,本项目当前资源的Owner和权限信息不变。
5 执行导入操作
在完成上述操作后,用户可以点击“导入”按钮,系统将根据用户选择的导入资源。
导入过程中,将展示导入进度,如上图:
导入完成后,将展示成功与失败情况概览,同时支持下载导入明细数据。
3.4 权限控制
维度 | 回答 |
---|
谁可以进行资源导出? | 具有可视化建模任务模块编辑权限(CDP有独立的权限点)或“项目编辑”权限(ABI使用该权限点)的用户可以进入导出页面,包含系统管理员、集团管理员、项目管理员、有模块权限点的用户; |
可导出哪些资源? | 用户可以导出自己有管理权限的任务和输出数据集;数据连接和输入数据集不用判断; |
谁可以进行资源导入? | 具有可视化建模任务模块编辑权限的用户(CDP有独立的权限点)或“项目编辑”权限(ABI使用该权限点)的用户可以进入该页面。 |
可导入哪些资源? | - 新建任务模式:
- 任务资源权限:不判断,导入人均可新建。
- 输入数据集权限:关联已有数据集,需要有该数据集的管理权限;
- 输出数据集权限:新建数据集不判断,关联已有数据集,需要有该数据集的管理权限;
- 数据连接:关联已有数据连接,需要有数据连接的管理权限。
- 权限信息:
- 若导入权限信息:任务Owner是源项目的用户A,要给A自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
- 若不导入权限信息:任务Owner是导入人B,要给B自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
- 覆盖任务模式:
- 任务资源权限:需要有管理权限;
- 输入数据集权限:关联已有数据集,需要有该数据集的管理权限;
- 输出数据集权限:新建数据集不判断,关联已有数据集,需要有该数据集的管理权限;
- 数据连接:关联已有数据连接,需要有数据连接的管理权限。
- 权限信息
- 导入权限信息:任务Owner会进行覆盖,任务Owner是源项目的A,要给A自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
- 不导入权限信息:任务Owner是当前项目的C,要给C自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
|
3.5 可能导入失败的原因
资源类型 | 失败原因 | 具体场景 | 界面“失败原因”展示 |
---|
数据集 | 数据集名称重复 | 新建数据集时,在目标项目存在重名数据集 | 数据集名称重复,导入失败
与当前项目数据集名称重复,请修改数据集名称后再导入; |
存储配置不一致 | 覆盖数据集时,重要元信息不一致
| 数据集重要元信息不一致,导入失败
与当前项目数据集${数据集名称}的"CDP应用"、“库表类型”、“分区字段”、“排序键”不一致; |
可视化建模任务 | 任务名称重复 | 新建任务时,在目标项目存在重名任务 | 可视化建模任务名称重复,导入失败
与当前项目可视化建模任务名称重复,请修改任务名称后再导入; |
任务分组导入失败 | 源项目与目标项目分组名称一样,但层级不一致 | 可视化建模任务分组不正确,导入失败
标签分组已在“XX层级/XX层级”下存在,需保障标签分组的层级与名称一致方可导入; |
上游依赖导入失败 | 上游依赖的数据集导入失败 | 上游依赖导入失败
依赖的上游数据集:“XX”、“XX”导入失败,请检查上游; |
上游依赖不存在 | 上游依赖的数据表或字段不存在
--Prep任务中依赖的数据连接中不存在对应的表或字段 | 上游依赖不存在
未在数据连接中,找到“XX”表、或“XX”字段; |
IDM图谱未提前在目标项目中配置好 | ID图谱未提前配置 | IDM算子找不到对应ID
IDM找不到相应的oneID算子 |
外部依赖不存在 | 依赖外部的调度系统,则外部系统结果的查询API需要未提前在目标项目配置好,用“依赖名称”字段判断。 | 依赖的外部API不存在
未找到“XX”依赖 |
网络错误 | | | 网络错误 |
3.操作步骤
4.常见问题
4.1 具备什么权限的用户可以进行资源导出?
- 具有“可视化建模任务模块编辑权限”或“项目编辑”权限的用户可以进入该页面,包含系统管理员、集团管理员、项目管理员、有模块权限点的用户;
- 进入该页面的用户可以导出自己有管理权限的任务和输出数据集;数据连接和输入数据集无权限判断。
4.2 具备什么权限的用户可以进行资源导入?
- 具有“可视化建模任务模块编辑权限”或“项目编辑”权限的用户可以进入该页面。
- 进入该页面后,可以导入哪些任务和输出数据集?
- 新建任务方式:
- 任务资源权限:无权限判断,导入人均可新建;
- 输入数据集权限:关联已有数据集,需要有该数据集的管理权限;
- 输出数据集权限:新建数据集不判断,关联已有数据集,需要有该数据集的管理权限;
- 数据连接:关联已有数据连接,需要有数据连接的管理权限;
- 权限信息:
- 若导入权限信息:任务Owner是源项目的用户A,要给A自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
- 若不导入权限信息:任务Owner是导入人B,要给B自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
- 覆盖任务方式:
- 任务资源权限:需要有管理权限;
- 输入数据集权限:关联已有数据集,需要有该数据集的管理权限;
- 输出数据集权限:新建数据集不判断,关联已有数据集,需要有该数据集的管理权限;
- 数据连接:关联已有数据连接,需要有数据连接的管理权限。
- 权限信息
- 导入权限信息:任务Owner会进行覆盖,任务Owner是源项目的A,要给A自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
- 不导入权限信息:任务Owner是当前项目的C,要给C自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。