You need to enable JavaScript to run this app.
导航
数据输出
最近更新时间:2024.11.18 15:31:25首次发布时间:2024.03.06 15:13:01

原【项目中心-数据输出任务】从1.22版本开始不再维护,请将历史任务迁移至升级后的模块【营销应用-数据输出】

1.功能概述

数据输出模块支持将客户下游系统对接VeCDP,用户可以将在VeCDP上创建的数据数据输出到如自有数据库,以便进行灵活处理应用或分析工作。

2.使用限制
  • 任务创建者: 需要具备功能权限(即项目中心-权限-编辑数据输出任务的权限)+ 资源权限(需要用到的标签&属性的权限)
  • 数据使用者: 需要具有数据行权限

3.能力说明

3.1 支持输出的内容说明

输出内容

说明

支持的输出类型

分群

全量主体+附带信息(包含:标签、主体属性、行为事件、业务明细、ID类型)

全量宽表输出
增量宽表输出

指定主体(支持选择多个分群)+附带信息(包含:标签、主体属性、行为事件、业务明细、ID类型)

全量宽表输出
全量高表输出
全量组合输出
增量宽表输出
增量高表输出
增量组合输出

标签

全量主体离线&实时标签结果表标签结果+ID类型

全量宽表输出
全量高表输出

主体属性

全量主体属性+ID类型

全量宽表输出

行为属性

全量主体行为属性+ID类型

全量宽表输出

业务明细

全量主体业务明细+ID类型

全量宽表输出

说明

  • 高表是指行多列少的表,一行中的数据量较少,行数多
  • 宽表是指列多行少的表,一行中的数据量较大,行数少
  • 输出频率均支持定时输出(支持天、周、月)或 单次输出

3.2 支持输出的下游存储

开启方式:进入配置中心,搜索配置 data_asset_output_v2.platform_list ,追加对应通道 code

类型

存储名称

code

输出连接限制

支持的产品版本

支持部署形态

表名

列名

不支持类型

以字母开头

外置存储

Las(版本号:2.0)

las

小写字母、数字、下划线

小写字母,数字,下划线

必须

1.21

私部

MaxCompute

maxCompute

大小写字母、数字、下划线

大写字母、数字、下划线、中文

/

必须

1.23

sass

OceanBase-Mysql

oceanBaseMysql

大写字母、数字、下划线、中文

数字、下划线、中文

不支持array\map

必须

1.23

saas&私部

OceanBase-Oracle

oceanBaseOracle

大写字母、数字、下划线、中文

大写字母、数字、下划线、中文

不支持array\map

必须

1.23

saas&私部

Oracle

oracle

大写字母、数字、下划线、中文

大写字母、数字、下划线、中文

不支持array\map

必须

1.23

saas&私部

外置 hive

externalHive

小写字母、数字、下划线

小写字母,数字,下划线

必须

1.21

私部

自定义输出

udfOutput

/

/

/

1.23

私部

内置存储

内置hive

innerHive

/

小写字母、数字、下划线

不支持array

必须

1.19.2

私部

1.20.1

saas 托管账号

内置hdfs

hdfs

/

小写字母、数字、下划线

/

必须

1.19.2

私部

1.20.1

saas 托管账号

第三方云存储

火山引擎云存储

volcEngineOss

/

小写字母、数字、下划线

/

必须

1.19.2

私部

1.20.1

saas 托管账号

1.20.1

saas 非托管账户

阿里云存储

aliOss

/

小写字母、数字、下划线

/

必须

1.19.2

私部

1.20.1

saas 托管账号

1.20.1

saas 非托管账户

腾讯云存储

tencentOss

/

小写字母、数字、下划线

/

必须

1.19.2

私部

1.20.1

saas 托管账号

1.20.1

saas 非托管账户

3.3 单主体数据输出操作步骤

第一步:通道配置(在项目中心>通道配置中,完成第三方存储、LAS、外置Hive的通道配置)
第二步:创建数据输出任务(在营销应用>数据输出中,新建数据输出任务,配置输出内容、输出频率、输出账号、任务依赖等)

3.3.1 完成通道配置

1.点击 项目中心 > 通道管理 ,在第三方渠道页面选择 添加通道应用
2.支持火山云对象存储、阿里云对象存储、腾讯云对象存储、外置hive和LAS账号渠道的绑定
Image

3.3.1.1 火山云对象存储

点击 项目中心 > 通道管理 ,在第三方通道页面选择 添加通道应用 ,选择 火山云对象存储, 准确填写对应信息后点击 授权 即可。
Image
所需信息获取步骤如下:
1.登陆 火山云官网,登陆账号; 2.点击头像,选择 API访问密钥 ,获取Accesskey、AccessKeySecret信息;
Image
3.创建存储桶,点击查看操作说明
Image
4.获取桶信息。在左侧导航栏,单击概览,在右侧页面查看该存储桶的用量概览、基本信息和访问域名,在该页面获取OSS地址、Bucket名称等信息。
Image

3.3.1.2 阿里云对象存储

点击 项目中心 > 通道管理 ,在第三方通道页面选择 添加通道应用 ,选择 阿里云对象存储, 准确填写对应信息后点击 授权 即可。
Image
所需信息获取步骤如下:
1.登陆 阿里云官网,登陆账号; 2.在 访问控制 页面,获取Accesskey,AccessKeySecret信息;
Image
3.创建存储空间,完成后可以 获取存储空间地域信息 ,取得OSS地址、Bucket名称等信息。
Image

3.3.1.3 腾讯云对象存储

点击 项目中心 > 通道管理 ,在第三方通道 页面选择 添加通道应用 ,选择 腾讯云对象存储, 准确填写对应信息后点击 授权 即可。
Image
所需信息获取步骤如下:
1.登陆 腾讯云官网,登陆账号; 2.在 访问管理 页面,获取Accesskey,AccessKeySecret信息;
Image
3.在左侧导航中,单击存储桶列表,进入存储桶列表页面,单击创建存储桶。点击查看操作说明
Image
4.在 存储桶列表 页面,获取Bucket名称、Bucket Region等信息。
Image

3.3.1.4 外置Hive

外置hive添加通道示例(Krb5鉴权)

  • 添加通道应用

Image

hiveServer2Url: jdbc:hive2://example.com:10000/;principal=hive/example.com@BYTEDANCE.COM

hive user : cdp

hdfs Address : hdfs://nameservice1

数据仓库: /commons/cdp

principal: cdp@BYTEDANCE.COM

刷新界面,记录 账户ID/账户组ID

  1. 上传配置文件

需提前准备好以下文件,

  • keytab文件,例 cdp.keytab
  • core-site.xml
  • hdfs-site.xml
  • krb5.conf

需将文件做以下处理
cdp.keytab, krb5.conf ,core_site.xml ,hdfs_site.xml (hdfs-site.xml、core-site.xml需要将"-"改成"_",否则会有问题)

hdfs-site.xml修改客户端创建目录的权限,默认为022

  <property>
    <name>fs.permissions.umask-mode</name>
    <value>002</value>
  </property>

对应的路径为

#platformId为三方授权时的id,在项目中心-三方渠道-hive找到相关id上传

/user/dp/cdp/data_asset/security/kerberos/${platformId}/${userKeyTable}
/user/dp/cdp/data_asset/security/kerberos/${platformId}/krb5.conf
/user/dp/cdp/data_asset/security/kerberos/${platformId}/core_site.xml
/user/dp/cdp/data_asset/security/kerberos/${platformId}/hdfs_site.xml

例:如果id为 1
执行 hdfs dfs -mkdir -p /user/dp/cdp/data_asset/security/kerberos/1
执行 hdfs dfs -put -f cdp.keytab /user/dp/cdp/data_asset/security/kerberos/1
    hdfs dfs -put -f krb5.conf /user/dp/cdp/data_asset/security/kerberos/1
    hdfs dfs -put -f core_site.xml /user/dp/cdp/data_asset/security/kerberos/1
    hdfs dfs -put -f hdfs_site.xml /user/dp/cdp/data_asset/security/kerberos/1

操作流程

点击 项目中心 > 通道管理 ,在第三方通道页面选择 添加通道应用 ,选择 外置Hive。
Image
在外置Hive配置页面,按照以下要求填写所需信息:

  • 账号名称: 输入Hive账号名称即可
  • hiveServer2Url:输入hiveServer2的URL地址,支持使用zookeeper形式的地址。
  • hdfs Address:提供输出到外置HDFS的地址。
  • 数据仓库:指定hive metaStore的warehouse路径,例如,如果使用CDP作为标志,可以填写为“/user/hive/cdp_warehouse”。
  • 鉴权方式:选择适合的鉴权方式,目前支持“用户密码”和“kerberos鉴权”两种方式。
    • 用户密码:输入hive用户的用户名和密码。
    • kerberos鉴权:需要提供keytable文件对应的principal信息。
  • 上传配置文件:上传必要的配置文件,包括但不限于hdfs_site.xml, core_site.xml, krb5.conf, xxx.keytab(上传的文件 xxx.keytab,需要先重命名为 cdp.keytab 再上传)文件。注意,文件名不支持使用中划线。

确认所有信息填写无误后,点击“授权”按钮完成配置。

3.3.1.5 LAS

点击 项目中心 > 渠道管理 ,在第三方通道页面选择 添加通道应用 ,选择 LAS。
Image
在配置LAS的页面,按照以下要求填写所需信息:

  • LAS endPoint : 输入LAS服务部署的前端页面URL。请确保URL格式正确,包括协议(如http或https)和完整的路径。
  • identityId: 填写用户在minibase注册时获得的身份ID
  • identityType: 输入用户在minibase注册时的身份类型。身份类型通常包括但不限于USER(用户)、ACCOUNT(账户)等。注意:输入的身份类型需要是大写的。

填写示例如下:
Image

3.3.1.6 MaxCompute

点击 项目中心 > 通道管理 ,在第三方通道页面选择 添加通道应用 ,选择 MaxCompute
Image

3.3.1.7 OceanBase-Mysql

点击 项目中心 > 通道管理 ,在第三方通道页面选择 添加通道应用 ,选择 OceanBase-Mysql
Image

3.3.1.8 OceanBase-Oracle

点击 项目中心 > 通道管理 ,在第三方通道页面选择 添加通道应用 ,选择 OceanBase-Oracle
Image

3.3.1.9 Oracle

点击 项目中心 > 通道管理 ,在第三方通道页面选择 添加通道应用 ,选择 Oracle
Image

3.3.2 基础信息配置

  • 点击 营销应用>数据输出>新建任务 按钮 ;

Image

  • 在配置页面填写对应信息:
    • 任务名称: 为当前数据输出任务命名,支持中英文/数字/下划线
    • 输出方式: 支持三方存储(包含火山云对象存储、阿里云对象存储、腾讯云对象存储)、外置存储(包含外置Hive、LAS、OceanBase Mysql、Oceanbase Oracle、Oracle、maxcompute)、内置存储(HDFS、内置Hive)

3.3.3 输出内容配置

3.3.3.1 输出「标签」数据资产

Image

  • 输出内容: 选择 标签 并勾选需要输出的标签。

  • 选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。

  • 输出类型:

    • 支持 全量宽表 输出,输出的标签数据表结构的样例如下:

    基准ID

    XX_ID,如用户ID

    性别

    年龄

    会员等级

    标签…

    业务日期

    63528953748201638462087

    531916

    23

    白金

    ……

    2023/6/13

    63528372748201638462087

    638042

    45

    黄金

    ……

    2023/6/14

    63528953748629738462087

    538274

    23

    白银

    ……

    2023/6/15

    73628953748201638462087

    442187

    30

    白银

    ……

    2023/6/16

    • 支持 全量高表 输出,输出的标签数据表结构的样例如下:

    基准ID

    标签ID

    标签值

    业务日期

    63528953748201638462087

    23

    2023/6/13

    63528372748201638462087

    45

    25

    2023/6/14

    63528953748629738462087

    21

    大学

    2023/6/15

    73628953748201638462087

    89

    白金会员

    2023/6/16

3.3.3.2 输出「主体属性」数据资产

Image

  • 输出内容: 选择 主体属性 并勾选需要输出的主体属性。最多可以选择5个数据档案对应的主体属性。
  • 选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。
  • 输出类型: 支持全量宽表、高表输出。

3.3.3.3 输出「行为属性」数据资产

Image

  • 输出内容: 选择 行为属性 并勾选需要输出的行为属性。最多可以选择5个数据档案对应的行为属性。
  • 选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。
  • 输出类型: 支持全量宽表、高表输出。

3.3.3.4 输出「业务明细」数据资产

Image

  • 输出内容: 选择 业务明细 并勾选需要输出的明细数据。最多可以选择5个数据档案对应的明细数据。
  • 选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。
  • 输出类型: 支持全量宽表、高表输出。

3.3.3.5 输出「分群」数据资产

Image

  • 输出内容: 选择 分群 并勾选需要输出的分群。
    • 输出方式: 用户可以选择输出全量ID或仅输出部分ID,以适应不同的分析和运营需求。
    • 附带信息: 在输出分群时,用户可以添加额外的附带信息,如标签、主体属性、行为事件、业务明细,增强输出时的信息补充和理解。
    • 多选输出ID类型: 输出时支持多选ID(ID图谱中引入的ID均可勾选),最多支持选择10个。
    • 输出类型:全量宽表输出、全量高表输出、全量组合输出、增量高表输出、增量组合输出;
      • 当不添加附带信息时,可以输出全量宽表、全量高表、全量组合、增量高表、增量组合:

Image

* **全量宽表输出**:

客户id

客群ID_001

客群ID_002

aaa

1

1

bbb

0

1

* **全量高表输出**:

客户id

asset_key

asset_value

aaa

segment_id

001

aaa

segment_id

002

bbb

segment_id

001

* **全量组合输出**:

客户id

asset_key

asset_value

aaa

segment_id

001

aaa

segment_id

002

bbb

segment_id

001

* **增量高表输出**:

首次输出

客户id

asset_key

asset_value

meta_status

meta_version

aaa

segment_id

001

0

xxxxx-xx-xx xx:xx:xx

aaa

segment_id

002

0

xxxxx-xx-xx xx:xx:xx

bbb

segment_id

001

0

xxxxx-xx-xx xx:xx:xx

若人群包001中删除客户aaa,人群包002新增客户ccc

客户id

asset_key

asset_value

meta_status

meta_version

aaa

segment_id

001

3

xxxxx-xx-xx xx:xx:xx

ccc

segment_id

002

1

xxxxx-xx-xx xx:xx:xx

* **增量组合输出**:

首次输出

客户id

asset_key

asset_value

meta_status

meta_version

aaa

segment_id

001

0

xxxxx-xx-xx xx:xx:xx

aaa

segment_id

002

0

xxxxx-xx-xx xx:xx:xx

bbb

segment_id

001

0

xxxxx-xx-xx xx:xx:xx

若人群包001中删除客户aaa,人群包002新增客户ccc

客户id

asset_key

asset_value

meta_status

meta_version

aaa

segment_id

001

3

xxxxx-xx-xx xx:xx:xx

ccc

segment_id

002

1

xxxxx-xx-xx xx:xx:xx

* 当添加附带信息,例如标签时,只能输出全量宽表、全量组合、增量组合:

Image

* **全量宽表输出**:

客户id

客群ID_001

客群ID_002

tag_1

tag_2

aaa

1

1

xx

bbb

0

1

xx

xx

* **全量组合输出**:

客户id

asset_key

asset_value

tag_1

tag_2

aaa

segment_id

001

xx

aaa

segment_id

002

xx

bbb

segment_id

001

xx

xx

* **增量组合输出**:

首次输出

客户id

asset_key

asset_value

tag_1

tag_2

meta_status

meta_version

aaa

segment_id

001

xx

0

xxxxx-xx-xx xx:xx:xx

aaa

segment_id

002

xx

0

xxxxx-xx-xx xx:xx:xx

bbb

segment_id

001

xx

xx

0

xxxxx-xx-xx xx:xx:xx

若人群包001中删除客户aaa,人群包002新增客户ccc

客户id

asset_key

asset_value

tag_1

tag_2

meta_status

meta_version

aaa

segment_id

001

xx

3

xxxxx-xx-xx xx:xx:xx

ccc

segment_id

002

xx

xx

1

xxxxx-xx-xx xx:xx:xx

3.3.4 输出方内容配置

3.3.4.1 输出至「第三方存储对象」

Image

  • 输出账号: 即选择输出的下游存储渠道的账号名称。
  • 输出频率:
    • 如果需要一次性数据输出,选择“单次输出”。
    • 如果需要定期数据输出,选择“定时输出”,并进一步选择输出周期(按天、周、月)。
  • 输出文件夹名称:
    • 默认情况下,文件夹名称将由任务名称和时间戳组成,例如“111_20231104”。
    • 注意文件夹名称的最大长度限制为32个字符,且名称必须是唯一的。如果需要,可以修改默认名称。
    • 可以选择是否在文件夹名称后添加时间戳后缀。
  • 存储格式: CSV、Parquet、ORC或JSON。
  • 分隔符: 根据数据内容和需求,选择适合的分隔符,支持的分隔符包括逗号(,)、分号(;)、制表符(\t)和竖线(|)。
  • 选择数据行权限: 如果需要基于用户权限进行数据输出,可以选择此选项。在弹出的列表中选择项目内的用户,系统将根据所选用户的数据行权限来输出相应的数据资产。

3.3.4.2 输出至「外置Hive、LAS、内置Hive」

Image

  • 输出账号: 即选择输出的下游存储渠道的账号名称。
  • 输出频率:
    • 如果需要一次性数据输出,选择“单次输出”。
    • 如果需要定期数据输出,选择“定时输出”,并进一步选择输出周期(按天、周、月)。
  • 输出数据库: 填写数据输出到的数据库名称
  • 输出数据表: 填写数据输出到的数据表名称。请确保数据表已存在或您有权限创建。
  • 选择数据行权限: 如果需要基于用户权限进行数据输出,可以选择此选项。在弹出的列表中选择项目内的用户,系统将根据所选用户的数据行权限来输出相应的数据资产。

3.3.4.3 输出至「内置存储-HDFS」

Image

  • 输出频率:
    • 如果需要一次性数据输出,选择“单次输出”。
    • 如果需要定期数据输出,选择“定时输出”,并进一步选择输出周期(按天、周、月)。
  • 存储格式: CSV、Parquet、ORC或JSON。
  • 分隔符: 根据数据内容和需求,选择适合的分隔符,支持的分隔符包括逗号(,)、分号(;)、制表符(\t)和竖线(|)。
  • 输出路径: 填写数据将被输出到的HDFS路径。请确保路径格式正确,并且您有权限在该路径下创建文件。
  • 选择数据行权限: 如果需要基于用户权限进行数据输出,可以选择此选项。在弹出的列表中选择项目内的用户,系统将根据所选用户的数据行权限来输出相应的数据资产。

3.3.4.4 输出至「外置存储」

Image

  • 输出账号: 即选择输出的下游存储渠道的账号名称。
  • 输出频率:
    • 如果需要一次性数据输出,选择“单次输出”。
    • 如果需要定期数据输出,选择“定时输出”,并进一步选择输出周期(按天、周、月)。
  • 输出数据表: 填写数据输出到的数据表名称。请确保数据表已存在或您有权限创建。
  • 数据生命周期:可以设置数据项的生命周期,增强数据的可控性和安全性。
  • 选择数据行权限: 如果需要基于用户权限进行数据输出,可以选择此选项。在弹出的列表中选择项目内的用户,系统将根据所选用户的数据行权限来输出相应的数据资产。

3.3.5 输出加密配置

输出加密配置

  • 加密算法:提供多种加密算法,包括MD5、SHA256、AES/ECB/PKCS7Padding/128、AES/CBC/PKCS7Padding/128、AES/CFB/PKCS7Padding/128、DES。
  • 密文编码:支持BASE64和HEX两种编码方式。

数据加密处理策略

  • 若未在隐私加密模块登记加密信息,且数据输出选择加密,则直接对原字段值进行加密。
  • 若已登记加密信息,且为AES或DES,数据输出选择加密时,将先解密原字段,再按配置的加密方式重新加密。
  • 若已登记加密信息,且为MD5或SHA256,数据输出选择加密时,将在原字段基础上再次加密。
  • 若已登记加密信息,且为RSA,数据输出选择加密时,同MD5或SHA256处理方式。
  • 若已登记加密信息,但数据输出未选择加密,则按原字段输出。

注意:需要与隐私安全-数据加解密功能结合使用,在隐私安全内配置完成后,才能在这里选择

3.3.6 输出数据预览

支持表结构预览数据和编辑;
Image

  • 字段类型:如int、string等
  • 字段名称:输出的结果表的列名,支持用户自定义
    • 小写英文字母、数字、下划线(_),并且以小写英文字母开头
    • 最大长度为32个字符,名称不可重复
  • 资产名称:用户选择的资产内容的名称,如标签名称
  • 资产类型:用户选择的资产类型,如标签、分群、ID类型、属性等
  • 资产ID:用户选择的资产内容的ID,如分群ID、标签ID

3.3.7 任务依赖配置

Image

  • 在任务依赖配置页,系统将自动展示与所选资产相关的上游依赖任务信息。
  • 对于每个上游依赖任务,系统会提供一个开关按钮,用户可以通过点击该按钮来开启或关闭任务依赖。开启依赖意味着当前任务的执行将依赖于上游任务的完成;关闭依赖则表示当前任务的执行不受上游任务状态的影响。

3.4 多主体数据输出操作步骤

支持多主体数据输出,基于主体间的关联关系可以输出A主体信息及关联的B主体信息。

场景1:输出A主体与B主体的关联关系

举例:输出【人】关联的【车】关联关系
操作:选择输出主体【人】,输出内容【分群】;选择关联主体【车】,输出内容【分群】
Image

场景2:输出A主体与B主体的关联关系,同时附带B主体的信息

举例:输出【人】关联的【车】关联关系,同时输出【车】的标签
操作:选择输出主体【人】,输出内容【分群】;选择关联主体【车】,输出内容【分群】,同时附带信息【标签】
Image

场景3:输出A主体与B主体的关联关系,同时附带A主体的信息和B主体的信息

举例:输出【人】关联的【车】关联关系,同时输出【人】的信息和【车】的标签
操作:选择输出主体【人】,输出内容【分群】,同时附带信息【标签】;选择关联主体【车】,输出内容【分群】,同时附带信息【标签】
Image

备注:
1)A主体或B主体选择输出【分群】,则可支持输出全量ID或者指定分群的关联关系及附加信息
2)A主体或B主体选择输出【标签】或【主体属性】,则输出全量ID的关联关系及附加信息

3.5 模板管理

模板管理支持创建并应用模板,方便业务人员快速通过模板完成数据输出任务配置。

  • 点击 营销应用>数据输出>模板管理 可查看历史创建的数据输出模板;

Image

  • 点击 营销应用>数据输出>模板管理>创建模板 可新建数据输出模板

Image

  • 基础信息:
    • 任务名称: 为当前数据输出任务命名,支持中英文/数字/下划线
    • **输出方式:**内置存储(内置Hive)、 外置存储(自定义输出)
  • 输出内容和上述3.3.3输出内容配置步骤相同,这里不再赘述