分群与洞察常见问题--客户数据平台（私有化）-火山引擎

文档中心

立即注册

导航

分群与洞察常见问题

最近更新时间：2024.10.22 16:17:09首次发布时间：2023.03.17 14:39:47

Q：CDP 对已经命中标签规则的人群，需要手工剔除个别用户，如何实现？圈选分群如何剔除指定的ID？

可以将ID上传为一个人群包，在圈选分群的时候不包含「上传的人群包」。

Q：目前产品支持几种创建私域人群包的方式？

支持规则创建、上传创建、模型创建(Lookalike)三种方式。除此之外，洞察导出以及复制已有人群包并创建新人群包的方式等也可以新建人群包。

Q：如何理解创建人群包时的“精准预估”？

在创建人群包时，如果选择ID是基准ID，将根据圈选条件预算预估数量；当选择的ID非基准ID时，可以通过精准预估，系统将根据ID mapping将当前ID转换基准ID，并计算出预估数量。
注意：

当选择基准ID时，可秒级计算出预估数量；
当选择非基准ID时，百万级别1s内，千万级别10s内，上亿级别1min内；

Q：历史保存的洞察报告会自动更新吗？

不会，历史保存的洞察报告是创建时的结果。CDP的群体洞察支持实时出数，若要更新已经保存过的洞察报告，可以点击编辑，再次点击查询，就会用标签最新数据进行群体洞察。

Q：洞察报告模块各项指标分别是什么意思？

指标	解释	说明
大盘TGI	名词解释	展示分群包中某标签值在该项目下的显著性特征结果。>100则表示分群包具有相对倾向或者偏好，数值越大倾向和偏好越强；<100则表示相关倾向较弱（和平均相比）；=100则表示平均水平。
	计算公式	(分群包中可识别标签值用户量/分群包用户总量)/(项目下可识别标签值用户/项目下用户总量)*100
	场景举例	公司总人数为10,000人；该洞察报告中分析的人群为游戏研发部门全体员工，总计1,000人；全公司具有深度游戏爱好的员工为500人；游戏研发部门具有深度游戏爱好的员工为100人。此时大盘TGI=（100/1000）/（500/10000）*100=200，高于100，说明游戏部门相比公司其他部门员工更爱游戏。
标签占比	名词解释	分群包中，标签值在当前分群包下的占比。占比越高，表示在分群包中该标签的绝对人数越多。
标签占比	计算公式	分群包中标签值用户数量/分群包用户数量*100%
标签TGI	名词解释	分群包中某标签值在该标签下显著性特征结果。>100则表示分群包中标签值在该标签下更具有相对倾向或偏好，数值越大则倾向和偏好越强；<100则表示相关倾向较弱（和平均相比）；=100则表示平均水平。
	计算公式	(分群包中可识别标签值用户量/分群包中该标签用户总量)/（项目下可识别标签值用户量/项目下该标签用户总量）*100
	场景举例	公司总人数为10,000人，全公司具有深度兴趣爱好的用户为800人，深度游戏爱好的员工为500人，深度美妆爱好员工300人。该洞察报告中分析的人群为游戏研发部门全体员工，总计1,000人，其中具有深度兴趣爱好的用户为120人，其中具有深度游戏爱好的员工为100人，具有深度美妆爱好员工20人。具有深度游戏爱好的标签TGI=（100/120）/（500/800）*100=133 高于100，说明游戏部门更多的用户喜欢游戏。
标签有效占比	名词解释	分群包中，标签值在当前分群包下标签总人数下的占比。占比越高，表示在分群包中该标签的绝对人数越多。
标签有效占比	计算公式	分群包中标签值用户数量/分群包中标签的用户总量*100%

Q：生命周期洞察里面的<机会人群>是什么意思？

没有在用户阶段里的人都会展示在机会人群里，可以理解为“其他”。

Q：规则创建人群包时，“包含”“不包含”“全局不包含”“包含全部”分别时什么意思？

圈选逻辑	解释
包含	将圈选出被打上该标签且标签值符合选项的用户举例：如果全量用户100人，其中10人被打上“是否老年”标签：其中“是”4人、“否”5人、“其他”为1人。那么选择该标签包含 “是”，即选中4人。
包含全部	将圈选出被打上所选择的所有标签值的用户举例：小a的兴趣标签值是短视频，体育和娱乐；小b的兴趣标签值是体育。分群圈人的时候，圈兴趣爱好标签“包含”体育时，那么小a和小b能被圈到圈兴趣爱好标签 “包含全部” 短视频和体育，那么只有小a能被圈到
不包含	被打上该标签且标签值不包含选项的用户举例：如果全量用户100人，其中10人被打上“是否老年”标签：其中“是”4人、“否”5人、“其他”为1人。那么选择该标签不包含 “是”，即选中6人。
全局不包含	在全量用户（含未被打上该标签的用户）排除该标签值的用户举例：如果全量用户100人，其中10人被打上“是否老年”标签：其中“是”4人、“否”5人、“其他”为1人。那么选择该标签全局不包含 “是”，即选中96人。

Q：Lookalike创建分群的逻辑？

如果是固定人数的话，lookalike计算的时候会给每个人计算概率值，然后根据概率值排序取top n的人数变成人群

Q：分群是存储在 clickhouse 中吗？

每个分群结果是以位图（bitmap）模式存储在clickhouse的

Q：多维特征分析中的召回率和精确率分别指的是什么

召回率：正样本中满足该筛选条件的特征组合人群，在总体正样本中的占比。比如，正样本中满足该特征的人群为100人，全体正样本为1000人，则召回率为（100/1000）*100%=10%
精确率：正样本中满足该筛选条件的特征组合人群，在正负总样本中的占比。比如：正样本中满足该特征的人群为400人，负样本中满足该特征的人群为100人，则精确率为400/（400+100）*100%=80%

Q：洞察报告中业务大盘和人数分别指什么？

大盘是指的该项目下该标签值的总人数，人数是指的该人群包中该标签的人数

Q：子分群包下的人群是增量用户新增的机制，还是存量用户也会更换？

人群包更新都是每次重新计算。不会增量更新。

Q：分群创建和预估时依赖的数据规则分别是怎样的？

分群创建和预估时的数据规则如下：

分群预估：依赖的是当前使用的资源（标签/分群/属性）的最新分区。在非baseid的预估场景中，使用的计数函数为uniq()，这可能会带来大约0.1%到0.2%的误差。
分群创建：分为两种情况：
- 按需人群：直接开始任务，使用的是当前使用的资源的最新分区数据。
- 按天人群：
  - 第一次创建时，与按需人群相同，使用最新分区数据。
  - 后续按天运行时，如果配置了任务依赖，则依赖的标签/人群产出时使用对应资源的当天产出数据。
  - 如果未配置任务依赖，则与按需人群相同，使用最新分区数据。

Q：人群包拆包是什么逻辑？

人群包拆包是根据比例随机将用户分到对应的分群包下的。

Q：在使用DataFinder行为表属性值筛选时，有哪些限制规则需要注意？

DataFinder行为表属性值筛选的限制规则包括：

属性值的随机匹配数量限制为1000个。
筛选结果具有一天的缓存周期，即每天更新一次缓存。
第一次进行筛选时，系统会实时查询并显示结果。
后续的筛选将使用缓存结果，以提高效率。
如果在筛选中搜索不到所需的属性值，用户需要手动进行录入。

Q：人群包下载在VeCDP平台有什么样的限制？

VeCDP人群包下载没有条数限制。下载文件的大小限制大约为2G。如果文件大小超过2G，下载可能会失败。

Q：洞察报告上游依赖的标签和分群，是T-1的数据还是最近有数的一天？

洞察报告没有依赖，是取分群和标签的最近有数的一天的数据。

Q：针对一个每天更新的人群包进行群体洞察，人群包每天更新，但保存的洞察报告还是基于旧的人群包的数吗？

上游人群包变了后，洞察报告需要手动更新保存(或者洞察报告改成自动更新)。

Q：群体洞察-按照标签排序、按照UV占比排序的排序规则是什么？

洞察报告中按照标签排序后，展示标签的时候会按照标签中展示的顺序进行展示。
如下图，标签展示是「按照标签覆盖人数降序」排序的，那么在洞察报告中也是按照此顺序展示标签值。

洞察报告中展示效果：

排序规则：

洞察报告中显示数值类型的标签，默认展示为标签值区间对应的人数。
按照标签排序：标签页对指定标签配置的排序规则是什么，在群体洞察报告中的标签值顺序就是什么。
按照UV占比排序：按照每个标签值的人数占比进行从大到小排序。

Q：群体洞察报告中的标签画像信息，表格视图显示行数是否有限制？仅支持滑动预览数据，且限制最多展示50行。

Q：实时分群选不到Finder行为表。Finder离线表怎么转成实时表？同时购买了Finder和CDP，希望将Finder行为数据接入CDP做实时应用，finder属性表是否支持作为实时数据档案？

CDP1.22版本开始，如果客户开了实时功能的话，数据档案中Finder行为表-更新频率字段会有个刷新按钮，点击下这个按钮就可以将离线的Finder行为表转为实时的行为表了。点击没有风险，可以直接操作（注意：转实时数据源后不支持还原为离线，不影响使用）。

标品不支持自动将Finder属性表自动转换为实时数据档案，需要ETL单独配置开发。

Q：lookalike报错1100000000222是什么问题？

Lookalike（相似人群扩展）功能在使用时需要满足一定的条件，其中包括分群数量的要求。所选分群的数量应该在100到全量ID数量的1/5之间，但不超过10,000,000。如果您在使用Lookalike功能时遇到了“所选分群不符合条件，分群数量应满足[100, min(10000000, 全量ID的1/5)]”的报错信息，这意味着您选择的分群数量不在这个范围内。
为了解决这个问题，请确保：

您选择的种子分群（即您希望找到相似用户的原始分群）的用户数量至少有100个。
种子分群的用户数量不超过全量ID数量的1/5，同时不超过10,000,000。
如果您的分群数量不在这个范围内，您需要调整分群的规模，以确保它满足Lookalike功能的要求。您可以通过增加或减少分群中的用户数量来达到这个要求。

Q：怎么跨主体圈选特定时期购买具有某些特征的商品的用户？

场景描述：客户需要根据商品的材质和品牌圈出商品，之后找出某一特定时间段购买这些特征商品的人。
解决方案：建议客户新构建一张主体转换关系表，假设原始表是明细表，通过加工明细表过滤出最近1年的交易记录，之后筛选出用户和商品的关系字段，包含两个字段用户的会员ID和商品ID，生成hive全量表，添加到主体转换关系中。之后通过商品圈选，然后选择新建的这组转换关系，将商品ID转换成用户ID。

Q：群体画像报告中UV&TGI综合最高特征的底层计算逻辑是什么？

群体画像报告中UV&TGI综合最高特征计算公示为：UV*TGI后排序获取TOP“综合最高特征”。
群体画像报告中UV为分群包中该标签值用户数量。
「.UV&TGI综合最高特征」中的TGI为标签TGI。

Q：云图账号已授权&绑定、cdp通道中刷新不出来? 营销推送推送使用涉及哪些开关？

遇到该问题需要检查DMP分群推送相关开关是否开启。
广点通当前无开关控制，当前仅支持广告主账号不支持代理商账号。

Q：CDP如何删除隐藏分群？

在如下图中位置连续点击，可以触发显示「隐藏分群显示按钮」

然后可以通过分群包id或分群名称，检索出该分群进行额外处理

Q：分群推送MA功能如何触发重新推送？

分群推送MA功能可以通过暂停任务再启动的方式触发重新推送

Q：CDP-Saas环境分群上传性能如何？

由于Saas环境走公共队列、Saas环境上传分群 2W 需要15分钟以内正常的。

Q：私域looklike计算相似度的原理是什么？

基于用户的标签样本，通过二分类算法，给目标人群打分排序，越接近种子人群的分数越高。

Q：下载用户分群是否有数量限制？能否批量下载多个分群？

CDP产品当前对下载的分群数量没有做限制、仅受限于对应环境网络超时配置。
当前CDP产品不支持批量下载多个分群。

客户数据平台（私有化）