不会,会过滤掉重复项,补充之前缺少的。
支持MySQL、HIVE、ClickHouse等数据库连接、API数据连接、流式数据(Kafka数据)接入、本地文件数据上传、巨量引擎及巨量千川数据接入。
可以通过配置策略字段来进行更合理的Mapping,例如:手机号参照会员ID,当一个手机号对应多个会员ID的时候,可以配置生成策略,选择绑定时间,使用最新绑定的会员ID的基准ID作为结果,来实现更合理的ID mapping。
可以在IDMapping配置时自行配置,CDP的ID图谱构建中有「基准ID是否可变」的按钮,默认可变,即按照生成策略每天都进行重新生成。如果希望某些ID类型基准ID生成后保持不变,则可以关闭此开关。
联合部署时,CDP和finder底层是一份数据,CDP中会内置finder的行为&属性数据,供CDP系统应用。注意:CDP与Finder目前仅在私有化部署情况下打通。
用户属性是用户状态的记录,由指定的事件赋值/更新,用户属性的定义来源不同,由各个业务系统定义(含cdp)。包含用户的基本信息(性别、年龄...)和业务场景信息(会员id、积分...)。
数据格式样例如下:
字段 | 数据类型 | 示例 | 对应配置 |
---|---|---|---|
base_id | int | 23456,用户ID唯一 | 用户ID |
sex | string | 男 | |
age | int | 30 | |
hobby | array | 篮球、足球 | |
total_account | float | 364.55 | |
birthday | date | 1991/2/23 |
行为数据是“谁,在什么时间,在什么地点,对什么内容,做了什么事情,产生了多少结果”, 行为数据源包括离线和实时的用户行为数据,用于用户标签的构建与人群的圈选,常见行为数据如:
行为数据格式样例如下:
字段 | 数据类型 | 示例 | 对应配置 |
---|---|---|---|
base_id | int | 23456,用户ID唯一 | 用户ID |
time | bigint | 事件发生时间戳,1627526641894 | 行为时间 |
event | string | 行为事件名称, ViewProduct | 行为事件 |
project | string | 公共参数,tiktok_test | |
params_string | map(string,string) | 事件参数(文本型),province | 行为参数 |
params_int | map(string,int) | 事件参数(整数型),session_duration | 行为参数 |
params_float | map(string,float) | 事件参数(浮点型),custom_screen_height | 行为参数 |
明细数据是业务事实数据,主要用于标签构建和圈人,支持筛选字段筛选、聚合、条件判断(聚合方式支持总次数、求和、平均值、最大值、最小值)。
数据样例格式如下:
字段 | 数据类型 | 示例 | 对应配置 |
---|---|---|---|
order_id | int | 47583 | |
order_time | time | 2021/9/27 9:12 | |
base_id | int | 23456,用户ID不唯一,有多条用户订单记录 | 用户ID |
fee | float | 45.34 | |
type | string | 0代表实时单,1代表预约单 | |
biz | string | 0代表经济,1代表舒适,2代表豪华 |
如果该数据集作为最终数据集,用于【元数据登记】或者【可视化查询】,建议选择 ClickHouse 的存储,如果该数据集只是用来进行中间结果的存储,或者与其他其他数据集进行关联操作,建议选择 Hive 的存储方式,Hive 中分区统一使用 p_date 字段,数据类型为 string,ClickHouse 中分区统一使用 p_date 字段,数据类型为 Date,ClickHouse 存储中,对于应用到【元数据登记】的数据集,排序字段、抽样字段、分片字段统一选择【base_id】,分区 p_date,生命周期根据需要进行设置,一般默认即可。
每天按照时间戳的形式对增量数据进行抽取,增量字段无时间的更新的数据在当天就不做抽取。
当天分区已经运行成功的任务,再次触发上游任务,下游已成功的任务是不会重新执行的
如果希望某些 ID 类型只要原始 ID 不同,生成的基准 ID 必然不同则可打开此开关,例如会员号生成基准ID时设定为参考手机号,如果有其他会员 ID 通过此手机号已经生成过基准 ID,则此会员号不会复用已有基准ID,而是会重新生成。
默认打开,每天按照生成策略重新生成基准 ID,之所以基准 ID 会变是因为,基准 ID 是基于依赖关系生成的,重要的 ID 类型会放在前面,如果当天的数据重要 ID 还没进来,则根据次重要 ID 来生成基准 ID,如果第二天重要 ID 数据过来了,则基准 ID 会重新生成。
在数据集增加字段后,数据档案不会自动更新以包含新的字段。您需要手动添加新字段到相应的数据档案中。这通常涉及到编辑数据档案的配置,将新字段添加到档案定义中。在进行这样的更改时,应确保新字段的添加不会影响数据档案的现有逻辑和依赖关系。
hive数据集当前不支持展示存储总量,预计会在CDP1.25版本提供支持。
对于一个基准ID对应多个业务ID的场景,GMP只会对其中一个业务ID进行触达,具体哪一个现在没有什么规则,可以理解为随机。