需要确认ID图谱绑定的上游数据集的分区字段的格式是否相同,格式不一致可能导致ID图谱任务录入数据失败。
不会,会过滤掉重复项,补充之前缺少的。
支持MySQL、HIVE、ClickHouse等数据库连接、API数据连接、流式数据(Kafka数据)接入、本地文件数据上传、巨量引擎及巨量千川数据接入。
可以在IDMapping配置时自行配置,CDP的ID图谱构建中有「基准ID是否可变」的按钮,默认可变,即按照生成策略每天都进行重新生成。如果希望某些ID类型基准ID生成后保持不变,则可以关闭此开关。
联合部署时,CDP和finder底层是一份数据,CDP中会内置finder的行为&属性数据,供CDP系统应用。注意:CDP与Finder目前仅在私有化部署情况下打通。
用户属性是用户状态的记录,由指定的事件赋值/更新,用户属性的定义来源不同,由各个业务系统定义(含cdp)。包含用户的基本信息(性别、年龄...)和业务场景信息(会员id、积分...)。
数据格式样例如下:
字段 | 数据类型 | 示例 | 对应配置 |
|---|---|---|---|
base_id | int | 23456,用户ID唯一 | 用户ID |
sex | string | 男 | |
age | int | 30 | |
hobby | array | 篮球、足球 | |
total_account | float | 364.55 | |
birthday | date | 1991/2/23 |
行为数据是“谁,在什么时间,在什么地点,对什么内容,做了什么事情,产生了多少结果”, 行为数据源包括离线和实时的用户行为数据,用于用户标签的构建与人群的圈选,常见行为数据如:
行为数据格式样例如下:
字段 | 数据类型 | 示例 | 对应配置 |
|---|---|---|---|
base_id | int | 23456,用户ID唯一 | 用户ID |
time | bigint | 事件发生时间戳,1627526641894 | 行为时间 |
event | string | 行为事件名称, ViewProduct | 行为事件 |
project | string | 公共参数,tiktok_test | |
params_string | map(string,string) | 事件参数(文本型),province | 行为参数 |
params_int | map(string,int) | 事件参数(整数型),session_duration | 行为参数 |
params_float | map(string,float) | 事件参数(浮点型),custom_screen_height | 行为参数 |
明细数据是业务事实数据,主要用于标签构建和圈人,支持筛选字段筛选、聚合、条件判断(聚合方式支持总次数、求和、平均值、最大值、最小值)。
数据样例格式如下:
字段 | 数据类型 | 示例 | 对应配置 |
|---|---|---|---|
order_id | int | 47583 | |
order_time | time | 2021/9/27 9:12 | |
base_id | int | 23456,用户ID不唯一,有多条用户订单记录 | 用户ID |
fee | float | 45.34 | |
type | string | 0代表实时单,1代表预约单 | |
biz | string | 0代表经济,1代表舒适,2代表豪华 |
每天按照时间戳的形式对增量数据进行抽取,增量字段无时间的更新的数据在当天就不做抽取。
当天分区已经运行成功的任务,再次触发上游任务,下游已成功的任务是不会重新执行的
如果希望某些 ID 类型只要原始 ID 不同,生成的基准 ID 必然不同则可打开此开关,例如会员号生成基准ID时设定为参考手机号,如果有其他会员 ID 通过此手机号已经生成过基准 ID,则此会员号不会复用已有基准ID,而是会重新生成。
默认打开,每天按照生成策略重新生成基准 ID,之所以基准 ID 会变是因为,基准 ID 是基于依赖关系生成的,重要的 ID 类型会放在前面,如果当天的数据重要 ID 还没进来,则根据次重要 ID 来生成基准 ID,如果第二天重要 ID 数据过来了,则基准 ID 会重新生成。
在数据集增加字段后,数据档案不会自动更新以包含新的字段。您需要手动添加新字段到相应的数据档案中。这通常涉及到编辑数据档案的配置,将新字段添加到档案定义中。在进行这样的更改时,应确保新字段的添加不会影响数据档案的现有逻辑和依赖关系。
遇到该报错,一般是因为上传文件时,来源表字段未正确填写目标档案名称导致。
如果MySQL IP发生变化,CDP侧的业务pod都需要滚动重启一下。
假设客户环境有一个门户页面,提供了一个CDP的入口按钮,点击按钮就可以跳转到CDP指定页面。但是在未授权的时候,点击这个按钮会先跳转到SSO登录页面,登录完以后会回到这个入口按钮的链接上。在入口处直接配置目标地址为CDP的地址。
CDP的可视化建模功能上是支持clickhouse自定义SQL查看ClickHouse底表,但是由于有性能风险暂时关闭了直接抽取。如果您有开启此功能的需求,可联系火山引擎技术人员,但需要注意开启后会对ClickHouse有稳定性风险(安全风险、抽挂风险)。
可视化建模自身的一种任务调度优化机制是根据任务的“热度”调整任务实例的优先级。“热度”计算的规则是被访问次数 / 资源的闲置天数,查询的比较频繁的,就会判定热度高。当前BDB没有提供修改实例优先级的接口,可视化建模只能通过backfill回溯提高优先级,backfill会取消终止掉前一个实例。
可视化建模任务,上游的数据就绪后,直接下游的任务就会自动执行,没有延迟节点的这种逻辑。
遇到该问题一般为IDM图谱修改后,未正确保存IDM图谱导致,可以尝试重新编辑保存。除了对ID配置信息做保存、注意需要同时操作IDM图谱最最外层的保存功能。
如果该数据集作为最终数据集,用于【元数据登记】或者【可视化查询】,建议选择 ClickHouse 的存储,如果该数据集只是用来进行中间结果的存储,或者与其他其他数据集进行关联操作,建议选择 Hive 的存储方式,Hive 中分区统一使用 p_date 字段,数据类型为 string,ClickHouse 中分区统一使用 p_date 字段,数据类型为 Date,ClickHouse 存储中,对于应用到【元数据登记】的数据集,排序字段、抽样字段、分片字段统一选择【base_id】,分区 p_date,生命周期根据需要进行设置,一般默认即可。
provider任务为三方数据接入任务的上游,可通过如下SQL查看下游相关的建模任务:
select name,app_id from aeolus_db.prep_task where name like '%数据处理%'
provider任务失败一般因为三方的服务不稳定失败,需要通过BDB重新执行。常见的错误有“api freq out of limit”触发三方频控、可以通过重试解决。
当天分区已经运行成功的任务,再次触发上游任务,下游已成功的任务是不会重新执行的。
hive数据集当前不支持展示存储总量,预计会在CDP1.25版本提供支持。
对于一个基准ID对应多个业务ID的场景,GMP只会对其中一个业务ID进行触达,目前暂无规则,可以理解为随机。
IDM配置的数据集任务发生变动,IDM本身是要重新编辑保存下的,并且需要深度编辑保存。【ID】以及【参考关系】所有涉及到任务变动的数据集的,都要重新编辑保存下,刷新下IDM整体的任务依赖。
微信公众号Sensor任务对应的provider任务是部署在SaaS上的,可以根据日志的"providerDataSourceConfigId":xxx,"providerReportId":xx参数去查询;
补充:Provider的实现逻辑是通过接口逐条获取微信公众号数据,缓存到SaaS本地,此过程相对较慢;然后Sensor下游建模从SaaS获取。
根本原因是聚类模型训练时拆分数据用于训练和预测,评估算子使用参与训练的数据进行评估,而训练结果使用拆分的预测数据评估,导致数据源不同和轮廓系数差异(结果是越小越好,值为0是一样)。
进入数据档案找到Finder行为表,点击更新频率后的刷新按钮,刷新后Finder行为表变为实时表即可选择。
说明
原因:历史SDK版本(如1.27.4)存在ApiAction对应错误的情况,导致接口请求路径映射错误,从而返回404错误。
解决方法:将SDK更新到1.27.22版本,该版本修复了历史版本ApiAction对应错误导致接口请求404的问题。
可以在IDMapping配置时自行配置,CDP的ID图谱构建中有「基准ID是否可变」的按钮,默认可变,即按照生成策略每天都进行重新生成。如果希望某些ID类型基准ID生成后保持不变,则可以关闭此开关。
可以通过配置策略字段来进行更合理的Mapping,例如:手机号参照会员ID,当一个手机号对应多个会员ID的时候,可以配置生成策略,选择绑定时间,使用最新绑定的会员ID的基准ID作为结果,来实现更合理的ID mapping。
部分版本支持页面删除主体,如页面没有但需要删除,需要联系火山引擎技术人员变更删除。
可能是由于在另一个主体或之前创建了相同的ID英文标识导致唯一性冲突,需要删除多余的具有同ID英文标识的ID类型。
CDP资产输出-数据输出不支持组合ID类型,已经剔除掉基准ID以及组合ID类型。
项目中心-开放平台有配置入口,具体操作请参见开放平台。