You need to enable JavaScript to run this app.
导航
数据管理常见问题
最近更新时间:2025.10.29 15:45:47首次发布时间:2023.03.17 14:39:47
复制全文
我的收藏
有用
有用
无用
无用

数据源问题

Q:​ID图谱任务运行成功,但是数据集中的ID并没有进CDP是为什么?

需要确认ID图谱绑定的上游数据集的分区字段的格式是否相同,格式不一致可能导致ID图谱任务录入数据失败。
Image

Q:通过批量新建的方式修改事件或事件属性信息,上传信息是否会覆盖原来所有配置?

不会,会过滤掉重复项,补充之前缺少的。

Q:CDP支持哪些数据连接?

支持MySQL、HIVE、ClickHouse等数据库连接、API数据连接、流式数据(Kafka数据)接入、本地文件数据上传、巨量引擎及巨量千川数据接入。

Q:CDP的基准ID(即OneID)是每天都按照生成策略和规则重新生成的吗?

可以在IDMapping配置时自行配置,CDP的ID图谱构建中有「基准ID是否可变」的按钮,默认可变,即按照生成策略每天都进行重新生成。如果希望某些ID类型基准ID生成后保持不变,则可以关闭此开关。

Q:多产品联合部署的时候,Finder的数据如何接入CDP?

联合部署时,CDP和finder底层是一份数据,CDP中会内置finder的行为&属性数据,供CDP系统应用。注意:CDP与Finder目前仅在私有化部署情况下打通。

Q:CDP元数据登记中要求的行为/明细/属性数据格式是怎样的?是否有数据样例。

用户属性是用户状态的记录,由指定的事件赋值/更新,用户属性的定义来源不同,由各个业务系统定义(含cdp)。包含用户的基本信息(性别、年龄...)和业务场景信息(会员id、积分...)。
数据格式样例如下:

字段

数据类型

示例

对应配置

base_id

int

23456,用户ID唯一

用户ID

sex

string

age

int

30

hobby

array

篮球、足球

total_account

float

364.55

birthday

date

1991/2/23

行为数据是“谁,在什么时间,在什么地点,对什么内容,做了什么事情,产生了多少结果”, 行为数据源包括离线和实时的用户行为数据,用于用户标签的构建与人群的圈选,常见行为数据如:

  • 小程序、app等用户实时行为数据
  • 为方便快速圈人而设计的通过明细数据转换的离线行为数据

行为数据格式样例如下:

字段

数据类型

示例

对应配置

base_id

int

23456,用户ID唯一

用户ID

time

bigint

事件发生时间戳,1627526641894

行为时间

event

string

行为事件名称, ViewProduct

行为事件

project

string

公共参数,tiktok_test

params_string

map(string,string)

事件参数(文本型),province

行为参数

params_int

map(string,int)

事件参数(整数型),session_duration

行为参数

params_float

map(string,float)

事件参数(浮点型),custom_screen_height

行为参数

明细数据是业务事实数据,主要用于标签构建和圈人,支持筛选字段筛选、聚合、条件判断(聚合方式支持总次数、求和、平均值、最大值、最小值)。
数据样例格式如下:

字段

数据类型

示例

对应配置

order_id

int

47583

order_time

time

2021/9/27 9:12

base_id

int

23456,用户ID不唯一,有多条用户订单记录

用户ID

fee

float

45.34

type

string

0代表实时单,1代表预约单

biz

string

0代表经济,1代表舒适,2代表豪华

Q:''增量抽取''的逻辑?

每天按照时间戳的形式对增量数据进行抽取,增量字段无时间的更新的数据在当天就不做抽取。

Q:手动触发idm任务后相关下游任务并未重新执行?

当天分区已经运行成功的任务,再次触发上游任务,下游已成功的任务是不会重新执行的

Q: 配置 ID 生成策略时,该 ID 与基准 ID 强制一对一怎么理解?

如果希望某些 ID 类型只要原始 ID 不同,生成的基准 ID 必然不同则可打开此开关,例如会员号生成基准ID时设定为参考手机号,如果有其他会员 ID 通过此手机号已经生成过基准 ID,则此会员号不会复用已有基准ID,而是会重新生成。

Q:配置 ID 生成策略时,基准 ID 是否可变怎么理解?

默认打开,每天按照生成策略重新生成基准 ID,之所以基准 ID 会变是因为,基准 ID 是基于依赖关系生成的,重要的 ID 类型会放在前面,如果当天的数据重要 ID 还没进来,则根据次重要 ID 来生成基准 ID,如果第二天重要 ID 数据过来了,则基准 ID 会重新生成。

Q:AI算子/分类/聚类/回归算子运行失败原因汇总

  1. AI算子运行要求行数大于200行
  2. 分类/回归算子的标签列去重的枚举值应该不超过总行数的1/3
  3. 分类算法,标签列的枚举值不能过多,建议50分类以内,过多会导致评估的类别没有参与算法训练
  4. 同时,所有的特征列不能都一样
  5. 某一列的特征值,不能全为null
  6. spark-catboost目前开源的版本,不支持一个spark-session里面同时运行两个任务。同时需要增加高级参数,spark.task.cpus,值和spark.executor.cores的值一样
  7. 除了catboost和xgboost的特征列做了优化,支持选string/array/map,其他的AI算子特征列只支持选择数字类型(int,double,float,long,short等)

Q:数据集增加字段后,数据档案必须手动添加吗?

在数据集增加字段后,数据档案不会自动更新以包含新的字段。您需要手动添加新字段到相应的数据档案中。这通常涉及到编辑数据档案的配置,将新字段添加到档案定义中。在进行这样的更改时,应确保新字段的添加不会影响数据档案的现有逻辑和依赖关系。

Q:​属性档案展示名批量上传时预览正常,但为什么在确认时会弹出“未知数据源”的报错?

遇到该报错,一般是因为上传文件时,来源表字段未正确填写目标档案名称导致。

Q:混部环境数据库IP变化后,需要重启哪些服务?

如果MySQL IP发生变化,CDP侧的业务pod都需要滚动重启一下。

Q:CDP配置客户侧的SSO后,能直接登录到产品功能页面而不经过控制台吗?

假设客户环境有一个门户页面,提供了一个CDP的入口按钮,点击按钮就可以跳转到CDP指定页面。但是在未授权的时候,点击这个按钮会先跳转到SSO登录页面,登录完以后会回到这个入口按钮的链接上。在入口处直接配置目标地址为CDP的地址。

可视化建模

Q:可视化建模是否支持直接抽取ClickHouse底表数据?

CDP的可视化建模功能上是支持clickhouse自定义SQL查看ClickHouse底表,但是由于有性能风险暂时关闭了直接抽取。如果您有开启此功能的需求,可联系火山引擎技术人员,但需要注意开启后会对ClickHouse有稳定性风险(安全风险、抽挂风险)。

Q:可视化建模任务中第一个任务实例被终止进程,是什么原因吗?

可视化建模自身的一种任务调度优化机制是根据任务的“热度”调整任务实例的优先级。“热度”计算的规则是被访问次数 / 资源的闲置天数,查询的比较频繁的,就会判定热度高。当前BDB没有提供修改实例优先级的接口,可视化建模只能通过backfill回溯提高优先级,backfill会取消终止掉前一个实例。

Q:可视化建模任务中,支持上下游任务中间添加延迟策略后,才让下游任务开始执行吗?

可视化建模任务,上游的数据就绪后,直接下游的任务就会自动执行,没有延迟节点的这种逻辑。

Q:可视化建模IDM算子报错“离线ID_mapping算子配置错误,未获取到主体”?

遇到该问题一般为IDM图谱修改后,未正确保存IDM图谱导致,可以尝试重新编辑保存。除了对ID配置信息做保存、注意需要同时操作IDM图谱最最外层的保存功能。

Q:可视化输出数据集,存储配置选项该如何选择?

如果该数据集作为最终数据集,用于【元数据登记】或者【可视化查询】,建议选择 ClickHouse 的存储,如果该数据集只是用来进行中间结果的存储,或者与其他其他数据集进行关联操作,建议选择 Hive 的存储方式,Hive 中分区统一使用 p_date 字段,数据类型为 string,ClickHouse 中分区统一使用 p_date 字段,数据类型为 Date,ClickHouse 存储中,对于应用到【元数据登记】的数据集,排序字段、抽样字段、分片字段统一选择【base_id】,分区 p_date,生命周期根据需要进行设置,一般默认即可。

Q:provider任务失败,如何查看对应的建模任务?

  1. provider任务为三方数据接入任务的上游,可通过如下SQL查看下游相关的建模任务:

    select name,app_id from aeolus_db.prep_task where name like '%数据处理%'
    
  2. provider任务失败一般因为三方的服务不稳定失败,需要通过BDB重新执行。常见的错误有“api freq out of limit”触发三方频控、可以通过重试解决。

Q:手动触发idm任务后相关下游任务并未重新执行?

当天分区已经运行成功的任务,再次触发上游任务,下游已成功的任务是不会重新执行的。

Q:AI算子/分类/聚类/回归算子运行失败原因汇总

  1. AI算子运行要求行数大于200行。
  2. 分类/回归算子的标签列去重的枚举值应该不超过总行数的1/3。
  3. 分类算法,标签列的枚举值不能过多,建议50分类以内,过多会导致评估的类别没有参与算法训练。
  4. 同时,所有的特征列不能都一样。
  5. 某一列的特征值,不能全为null。
  6. spark-catboost目前开源的版本,不支持一个spark-session里面同时运行两个任务。同时需要增加高级参数,spark.task.cpus,值和spark.executor.cores的值一样。。
  7. 除了catboost和xgboost的特征列做了优化,支持选string/array/map,其他的AI算子特征列只支持选择数字类型(int,double,float,long,short等)。。

Q:hive数据集可以显示存储总量吗?

hive数据集当前不支持展示存储总量,预计会在CDP1.25版本提供支持。

Q:对于一个基准ID对应多个业务ID的场景,GMP会对两个业务ID进行触达吗?

对于一个基准ID对应多个业务ID的场景,GMP只会对其中一个业务ID进行触达,目前暂无规则,可以理解为随机。

Q:IDM编辑保存报错"[bdb] 接口异常: 10001, 参数错误: 依赖配置有问题,包含不存在的上游任务:[],已关闭的上游任务:[210],不满足偏移规则的上游任务:[],请检查"?

IDM配置的数据集任务发生变动,IDM本身是要重新编辑保存下的,并且需要深度编辑保存。【ID】以及【参考关系】所有涉及到任务变动的数据集的,都要重新编辑保存下,刷新下IDM整体的任务依赖。

Q:微信公众号Sensor任务为什么就绪时间晚?

微信公众号Sensor任务对应的provider任务是部署在SaaS上的,可以根据日志的"providerDataSourceConfigId":xxx,"providerReportId":xx参数去查询;
补充:Provider的实现逻辑是通过接口逐条获取微信公众号数据,缓存到SaaS本地,此过程相对较慢;然后Sensor下游建模从SaaS获取。

Q:轮廓系数在聚类和评估的结果为什么不一致?

根本原因是聚类模型训练时拆分数据用于训练和预测,评估算子使用参与训练的数据进行评估,而训练结果使用拆分的预测数据评估,导致数据源不同和轮廓系数差异(结果是越小越好,值为0是一样)。

Q:实时任务里,如何用输出数据档案算子把数据写入Finder行为表?

进入数据档案找到Finder行为表,点击更新频率后的刷新按钮,刷新后Finder行为表变为实时表即可选择。

Q:可视化建模数据集TTL上限如何修改?

  1. 如果部署了ABI(火山引擎智能数据洞察平台),可以在ABI的系统管理-数据运维配置-同步配置-设置数据生命周期上限,最大值为1500天。
    Image
  2. 独立部署CDP需要通过开关变更设置数据生命周期可配置上限。

说明

  • 数据生命周期上限为系统层面限制默认为1500天。
  • 系统底层(ck引擎)支持的TTL最大值为7300天;ck的要求是 ttl < 7300,不包含7300。因为天级业务日期是前一天,实际建表会把 ttl + 1。所以页面阈值应该是 7298。
  • hive底层支持的TTL无限制。

Q:仿真环境中,调用删除数据输出任务的接口报错404 NOT_FOUND?

原因:历史SDK版本(如1.27.4)存在ApiAction对应错误的情况,导致接口请求路径映射错误,从而返回404错误。
解决方法:将SDK更新到1.27.22版本,该版本修复了历史版本ApiAction对应错误导致接口请求404的问题。

ID图谱

Q:CDP的基准ID(即OneID)是每天都按照生成策略和规则重新生成的吗?

可以在IDMapping配置时自行配置,CDP的ID图谱构建中有「基准ID是否可变」的按钮,默认可变,即按照生成策略每天都进行重新生成。如果希望某些ID类型基准ID生成后保持不变,则可以关闭此开关。

Q:当ID存在一对多的情况,如何进行Mapping?

可以通过配置策略字段来进行更合理的Mapping,例如:手机号参照会员ID,当一个手机号对应多个会员ID的时候,可以配置生成策略,选择绑定时间,使用最新绑定的会员ID的基准ID作为结果,来实现更合理的ID mapping。

Q:IDMapping图谱构建如何删除主体?

部分版本支持页面删除主体,如页面没有但需要删除,需要联系火山引擎技术人员变更删除。

Q:创建ID类型时提示"ID类型code已存在"?

可能是由于在另一个主体或之前创建了相同的ID英文标识导致唯一性冲突,需要删除多余的具有同ID英文标识的ID类型。

资产输出

Q:CDP资产输出-数据输出,编辑表单中,为什么ID类型下拉列表部分ID类型不可见?

CDP资产输出-数据输出不支持组合ID类型,已经剔除掉基准ID以及组合ID类型。

Q:关于CDP是否支持自定义导航栏、自定义菜单功能及相关配置入口?

项目中心-开放平台有配置入口,具体操作请参见开放平台