You need to enable JavaScript to run this app.
导航
资源迁移
最近更新时间:2024.07.15 17:57:44首次发布时间:2024.03.28 11:23:43

1.功能概述

支持可视化建模任务及数据集等资源的灵活迁移,例如,可以将A项目中的可视化建模任务及其相关数据集导出,并在B项目中导入,从而促进项目间的资源共享与协作。

2.使用限制
  • 此功能为 付费功能,如有需求请联系您的商务经理。
  • 具有 “可视化建模任务模块编辑权限” 或 “项目编辑” 权限的用户可以进入该页面,包含系统管理员、集团管理员、项目管理员、有模块权限点的用户

3 可视化建模(prep)任务与数据集导入导出

3.1 导出导入原理

  • 原理:
    • 导入方式支持新建、覆盖2种模式:
      • 新建模式:第一次导入时采用,从源环境导出后,会在生产环境创建同名的Prep任务和数据集;
      • 覆盖模式:二次导入时采用,可以在界面上选择要覆盖的prep任务和数据集。
    • 新增、编辑的任务和数据集可以导出,删除的任务和数据集不支持导出导入。

暂时无法在飞书文档外展示此内容

3.2 导出导入内容

  • 可导出的Prep任务与数据集

可导出

不可导出

Prep任务

用户自己创建的Prep任务(不包含系统创建的Prep任务),且是离线任务。

  • 实时任务
  • 输出节点包含“输出标签”的任务
  • 系统创建的Prep任务(三方数据接入、输出至GMP、输出到第三方引擎(如maxcompte))

数据集

由用户自己创建的Prep任务产生的数据集可导出

  • 系统创建的prep任务产生的数据集
    • 三方数据接入产生的数据集
    • 输出至GMP产生的数据集
    • 输出至第三方引擎的数据集
  • CDP的系统数据集:其产生的标签结果表、分群结果表
  • ABI的系统数据集:在ABI数据集页面独立新建的数据集
  • Prep任务可导出的具体元数据

Prep任务

可导出

不可导出

基础配置

任务名称、描述、任务类型(离线/实时)、运行类型(手动/周期运行)与运行频率(运行的时刻)

路径:导入时统一放在了根目录下,需要在目标环境调整。

计算逻辑

任务用的算子、算子的连接顺序、算子的名称、每个算子的配置

数据连接

用到的源环境的数据连接,在导入时,可指定映射到目标环境哪个数据连接

资源队列

用到的源环境的数据连接,在导入时,可指定映射到目标环境哪个数据连接

数据集

用到的源环境的数据连接,在导入时,可指定映射到目标环境哪个数据集

任务依赖关系

任务依赖关系暂不支持导出,系统在导入任务时会根据系统推荐的自动依赖挂上依赖关系。这种不能覆盖用户额外添加的手动依赖,这种case用户暂时自己在目标环境挂上依赖关系。

  • 数据集可导出的具体元数据

数据集

可导出

不可导出

基础配置

名称、描述、CDP应用字段、类型(离线/实时)、来源(可视化建模、客户数据平台、智能数据洞察)

存储配置

Hive表:表类型(hive)、生命周期天数、分区(一级分区、二级分区)
CK表:表类型(CH)、所属集群、排序键、分片字段、抽样字段、生命周期天数、分区(一级分区、二级分区)

新建时,这些配置均会进行导出导入;
覆盖时,表类型和分区不支持导入覆盖,因为这2个配置项在在编辑状态不允许修改。

表结构

表名称、字段名称、字段类型

  • 可视化建模可导出的输入节点与输出节点

Prep任务

可导出

不可导出

输入节点

除流式数据库之外的其他数据库,包含本地文件、API、关系型数据库、数据仓库、列式数据库、文档数据库等。

流式数据库不支持

输出节点

输出数据集、输出外部存储、输出模型(只支持导出算子配置,不支持导出模型文件)

输出标签、输出数据档案

3.3 操作步骤

前往 数据管理>可视化建模>资源迁移 页面。
图片

3.3.1 资源导出

1 选择要导出的资源

图片

  • 在资源列表中,可以看到所有可导出的可视化建模任务,包括任务名称、所属保存路径、任务所有者、创建时间的详细信息。
  • 创建时间字段支持排序功能,系统默认按照创建时间倒序排列,以便用户快速找到最新的任务。

注意

此处仅展示用户有管理权限且是用户手动创建的离线任务,不包含系统自动创建的任务、实时任务、和包含输出标签算子的任务。

  • 用户可以通过多种方式筛选需要导出的资源:
    • 任务名称:支持模糊搜索,快速定位特定任务。
    • 保存路径: 提供下拉菜单,支持多选和模糊搜索,帮助用户快速找到任务。
    • 任务所有者:同样支持下拉菜单多选和模糊搜索。

2 查看关联的数据集

图片

  • 关联数据集概览:在顶部选择一个或多个Prep任务后,下方将实时展示这些任务关联的数据集。数据集将分为两类展示:输入节点数据集输出节点数据集,同时,系统将展示引用了这些数据集的可视化建模任务。

说明

  • 如果多个任务关联同一个数据集,系统会自动去重,列表中只展示一次。
  • 对于既是任务A输出又是任务B输入的数据集,将在输入和输出节点数据集中均展示。
  • 确认是否具备导出权限: 输出数据集将明确标示当前用户是否具备导出权限。若用户当前无权限导出,系统将限制导出操作。一旦权限发生变更,用户可通过点击“刷新权限状态”按钮,实时更新并查看自己对数据集的最新权限设置。

3 查看关联的数据连接

图片

  • 关联数据连接概览:展示所选任务关联的所有数据连接,包括连接名称以及引用该连接的任务。

4 导出权限信息设置

图片

  • 当用户勾选“同步导出权限信息”时,系统将导出以下权限相关信息:
    • 任务和数据集的创建者。若创建者为资源Owner,则在目标项目中查找该用户;若不存在,则将权限关联至导入者。
    • 授权信息,包括管理、编辑和查看权限的用户。若目标用户已存在,则相应权限将被分配;若不存在,则不进行权限分配。

注意

  • 权限导出不包括用户组、角色、部门相关的权限信息和行列权限信息,用户需要在新项目中重新授权。

5 执行导出操作

图片
在完成上述操作后,用户可以点击“导出”按钮,系统将根据用户选择的导出资源生成相应的导出文件。

说明

  • 导出限制:系统限制每次最多导出100个任务。
  • 导出文件命名:导出文件默认命名规则为:“可视化建模_${导出时间}_随机字字符串”,例如:“可视化建模_2023-12-08 12:00:09_随机字符串”。

3.3.2 资源导入

1 上传需要导入的文件

图片
点击 新建 按钮,上传需要导入的文件。(注意:仅支持.prep文件)

2 选择导入方式

图片

  • 支持两种导入方式:
    • 新建:在目标项目中创建全新的可视化建模任务。
    • 覆盖:使用导入包中的任务内容替换当前项目中已存在的任务。

3 新建方式:选择导入资源

图片

  • 在列表中,用户可以查看并选择待导入的任务,基于用户选择的任务,系统将展示相关的数据集列表、数据连接列表和集群队列列表。

图片

  • 导入数据集: 对于可视化建模任务中关联的数据集,将根据用户的实际选择进行新建或关联到现有数据集。

说明

  • 输入节点数据集不进行导入,只能关联已有数据集,是一种映射关系,导入后会将任务的输入节点数据集换成关联的数据集,其不会覆盖关联数据集的元信息。
  • 输出节点数据集会进行导入,有2种导入模式:
    • 新建:在当前项目中创建该数据集,若存在同名数据集,数据集会导入失败;
    • 关联已有数据集:在导入时将数据集换成关联的数据集,系统会比对原有数据集和关联数据集的元信息差异,用户可自行选择是否进行覆盖;

图片

  • 数据连接 列表中,展示当前勾选的可视化建模任务所引用的数据连接,并提供本项目中可关联的数据连接供用户选择。在导入可视化建模任务时,系统将自动将任务中的数据连接替换为用户选择的数据连接。
  • 资源队列 列表中,展示勾选的可视化建模任务所使用的资源队列,用户需要从下拉列表中选择一个适用于“定时任务”的资源队列。在导入可视化建模任务时,系统将自动将任务中的资源队列替换为用户选择的队列。

图片

  • 导入权限: 在目标项目中,系统将寻找原资源的创建者和任务Owner。若找到,权限将关联至相应用户;若未找到,权限将关联至导入人。

4 覆盖方式:选择导入资源

图片

  • 选择覆盖资源: 在列表中,用户可以看到待导入资源的任务名称,并选择要覆盖本项目中的哪个资源。同时,用户可以选择是否同时覆盖任务名称、描述和存储目录。
  • 覆盖逻辑:可视化建模任务中的数据集、数据连接、队列将根据配置的映射关系进行处理,其余内容将被覆盖。

图片

  • 导入数据集: 对于可视化建模任务中关联的数据集,将根据用户的实际选择进行新建或关联到现有数据集。

图片

  • 数据连接 列表中,展示当前勾选的可视化建模任务所引用的数据连接,并提供本项目中可关联的数据连接供用户选择。在导入可视化建模任务时,系统将自动将任务中的数据连接替换为用户选择的数据连接。
  • 资源队列 列表中,展示勾选的可视化建模任务所使用的资源队列,用户需要从下拉列表中选择一个适用于“定时任务”的资源队列。在导入可视化建模任务时,系统将自动将任务中的资源队列替换为用户选择的队列。

图片

  • 同步权限信息:导入权限后,资源Owner与源资源一致,资源权限在原有基础上叠加;若不导入,本项目当前资源的Owner和权限信息不变。

5 执行导入操作

图片
在完成上述操作后,用户可以点击“导入”按钮,系统将根据用户选择的导入资源。
图片
导入过程中,将展示导入进度,如上图:
图片
导入完成后,将展示成功与失败情况概览,同时支持下载导入明细数据。

3.4 权限控制

维度

回答

谁可以进行资源导出?

具有可视化建模任务模块编辑权限(CDP有独立的权限点)或“项目编辑”权限(ABI使用该权限点)的用户可以进入导出页面,包含系统管理员、集团管理员、项目管理员、有模块权限点的用户;

可导出哪些资源?

用户可以导出自己有管理权限的任务和输出数据集;数据连接和输入数据集不用判断;

谁可以进行资源导入?

具有可视化建模任务模块编辑权限的用户(CDP有独立的权限点)或“项目编辑”权限(ABI使用该权限点)的用户可以进入该页面。

可导入哪些资源?

  • 新建任务模式:
    • 任务资源权限:不判断,导入人均可新建。
    • 输入数据集权限:关联已有数据集,需要有该数据集的管理权限;
    • 输出数据集权限:新建数据集不判断,关联已有数据集,需要有该数据集的管理权限;
    • 数据连接:关联已有数据连接,需要有数据连接的管理权限。
    • 权限信息:
      • 若导入权限信息:任务Owner是源项目的用户A,要给A自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
      • 若不导入权限信息:任务Owner是导入人B,要给B自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
  • 覆盖任务模式:
    • 任务资源权限:需要有管理权限;
    • 输入数据集权限:关联已有数据集,需要有该数据集的管理权限;
    • 输出数据集权限:新建数据集不判断,关联已有数据集,需要有该数据集的管理权限;
    • 数据连接:关联已有数据连接,需要有数据连接的管理权限。
    • 权限信息
      • 导入权限信息:任务Owner会进行覆盖,任务Owner是源项目的A,要给A自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
      • 不导入权限信息:任务Owner是当前项目的C,要给C自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。

3.5 可能导入失败的原因

资源类型

失败原因

具体场景

界面“失败原因”展示

数据集

数据集名称重复

新建数据集时,在目标项目存在重名数据集

数据集名称重复,导入失败
与当前项目数据集名称重复,请修改数据集名称后再导入;

存储配置不一致

覆盖数据集时,重要元信息不一致
图片

数据集重要元信息不一致,导入失败
与当前项目数据集${数据集名称}的"CDP应用"、“库表类型”、“分区字段”、“排序键”不一致;

可视化建模任务

任务名称重复

新建任务时,在目标项目存在重名任务

可视化建模任务名称重复,导入失败
与当前项目可视化建模任务名称重复,请修改任务名称后再导入;

任务分组导入失败

源项目与目标项目分组名称一样,但层级不一致

可视化建模任务分组不正确,导入失败
标签分组已在“XX层级/XX层级”下存在,需保障标签分组的层级与名称一致方可导入;

上游依赖导入失败

上游依赖的数据集导入失败

上游依赖导入失败
依赖的上游数据集:“XX”、“XX”导入失败,请检查上游;

上游依赖不存在

上游依赖的数据表或字段不存在
--Prep任务中依赖的数据连接中不存在对应的表或字段

上游依赖不存在
未在数据连接中,找到“XX”表、或“XX”字段;

IDM图谱未提前在目标项目中配置好

ID图谱未提前配置

IDM算子找不到对应ID
IDM找不到相应的oneID算子

外部依赖不存在

依赖外部的调度系统,则外部系统结果的查询API需要未提前在目标项目配置好,用“依赖名称”字段判断。

依赖的外部API不存在
未找到“XX”依赖

网络错误

网络错误

3.操作步骤

4.常见问题

4.1 具备什么权限的用户可以进行资源导出?

  • 具有“可视化建模任务模块编辑权限”或“项目编辑”权限的用户可以进入该页面,包含系统管理员、集团管理员、项目管理员、有模块权限点的用户;
  • 进入该页面的用户可以导出自己有管理权限的任务和输出数据集;数据连接和输入数据集无权限判断。

4.2 具备什么权限的用户可以进行资源导入?

  • 具有“可视化建模任务模块编辑权限”或“项目编辑”权限的用户可以进入该页面。
  • 进入该页面后,可以导入哪些任务和输出数据集?
    • 新建任务方式:
      • 任务资源权限:无权限判断,导入人均可新建;
      • 输入数据集权限:关联已有数据集,需要有该数据集的管理权限
      • 输出数据集权限:新建数据集不判断,关联已有数据集,需要有该数据集的管理权限
      • 数据连接:关联已有数据连接,需要有数据连接的管理权限;
      • 权限信息:
        • 若导入权限信息:任务Owner是源项目的用户A,要给A自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
        • 若不导入权限信息:任务Owner是导入人B,要给B自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
    • 覆盖任务方式:
      • 任务资源权限:需要有管理权限
      • 输入数据集权限:关联已有数据集,需要有该数据集的管理权限
      • 输出数据集权限:新建数据集不判断,关联已有数据集,需要有该数据集的管理权限
      • 数据连接:关联已有数据连接,需要有数据连接的管理权限
      • 权限信息
        • 导入权限信息:任务Owner会进行覆盖,任务Owner是源项目的A,要给A自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。
        • 不导入权限信息:任务Owner是当前项目的C,要给C自动加上输入节点数据集的读权限,输出节点数据集的写权限,否则任务可能运行失败。