常用名词--客户数据平台（私有化）-火山引擎

文档中心

导航

常用名词

最近更新时间：2025.03.26 16:53:44首次发布时间：2023.03.17 14:39:44

在客户数据平台产品的使用中，涉及各类专用名词，为帮助用户更好地理解与使用产品，整理产品相关名词解释如下：

产品定位相关概念

CDP产品与其他营销工具的区别：

概念	解释说明
CDP（客户数据平台）	数据来源：汇聚企业全渠道数据，包括一方/二方/三方数据，打破系统之间的数据孤岛，建立统一的人、物、关系标签体系和画像系统。应用场景：主要应用于企业的后链路营销和运营
DMP（数据管理平台）	数据来源：DMP的数据主要来自媒体自身的数据与第三方机构的数据，其触点主要是媒体提供的触点，涵盖大量广告投放端的监播数据和广告交互行为数据。应用场景：DMP定位于为广告提供服务
CRM（客户关系管理系统）	数据来源：存储的主要是客户相对静态的数据，数据触点来源主要是转化和售后类触点，专注于客户和潜在客户，获取其购买商品和服务过程中与企业接触和互动的数据。应用场景：围绕交易的相关业务数据管理
SCRM（社交化客户关系管理）	数据来源：SCRM触点主要在线上，集中在社交自有媒体，属于营销自动化类工具。CDP与SCRM是上下游承接的关系，CDP输出人群包给SCRM系统进行应用。应用场景：主要用于以社交平台为主阵地的用户运营

产品功能相关概念

数据融合相关概念

功能模块	概念	解释说明
ID Mapping	BaseID	BaseID即基准ID，是系统识别用户身份的OneID
ID Mapping	主体	CDP中的主体，即ID-Mapping OneID的目标对象，如人、车等
可视化建模	数据建模	按照某种数据处理逻辑将元数据数据清洗、加工及生产的过程叫做数据建模
	数据连接	构建与各类数据源打通的配置能力，实现数据读取的首要功能
	画布	将各功能模块按照有向流程组建成一种数据加工流程的可视化效果
	算子	画布中数据读取、加工、算法、数据输出能力的集成能力，对应画布中每个处理节点
	算子间的连线	算子间的有向关系，指代两个算子间数据流转的通道
	任务	从输入数据源加载数据，经过数据处理与清洗，最终加载并输出目标数据源的过程。
	实时任务	输入的数据源的数据变化能实时反应到输出数据，即数据源数据是实时更新且数据流实时加工的可视化建模任务，适用于对时效性要求极高的场景。比如：直播的实时报表、根据用户行为立即给出推荐。
	离线任务	数据源数据是天级/小时级等更新（即每天/每小时更新一次）且数据流程加工过程是定时执行或手动执行的可视化建模任务
	数据集	数据集是由一张或多张表组成的数据模型，是标签、分群等应用的基础。
	运行记录	任务每运行一次生成一条运行记录，可以是用户手动触发的，也可以是系统根据周期性配置自动调起的。
	处理流程	展示当前模型的数据处理节点与逻辑的流程。
	全量抽取	从数据源表中抽取全量的数据，需通过字段取值设置抽取范围
	增量筛选	依据分区字段从数据源表中抽取增量数据，仅非分区表支持，需指定用于判断增量的字段
	字段设置	支持选择保留字段、设置字段类型、设置字段名称、设置字段排序。
	连接	数据Join，支持左右内部连接/外连接，支持跨源连接
	聚合	选择聚合字段及方式，可更改聚合方式、设置聚合后的字段名称
	计算列	使用Spark函数处理上游字段，用以添加新字段。也可为无业务日期的表添加业务日期字段。
	筛选行	选择字段，确认筛选条件，支持两层且/或逻辑关系。
	数据拆分	拆分算子会将算子按照这个比例拆分成两份数据，这个值代表第一份数据占输入数据的比例。
	字符串索引	一种类型转换算子，它将指定的属性的值映射成数值型索引，使得只能对数值型数据做处理的算子也可以对属性进行处理。该算子一般用于数据预处理，另外，不适合对于包含连续型数据的列执行该算子，如ID列
	替换缺失值	用于缺失值替换，替换策略包括中位数替换、均值替换等，该算法要求被指定的列的数据为数值型数据
	去重	去除选定列中，重复的选项，重复是指所有选中列的值都一样
	二值化	将数值特征转换为二值特征0或1，对定量的特征进行“是与否”的划分，以剔除冗余信息
	列归一化	对一个表的某一列或多列进行归一化处理，将原始数据缩放到需要的范围。原始数据经过数据归一化处理后，各指标处于同一数量级，适合进行综合对比评价。
	主成分分析	主成分分析(PCA)是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。只能对数据型并且角色为regular的属性做运算，输出通常为中间结果，需要作为其他算子的输入。(详见配置释义)
	笛卡尔积	笛卡尔乘积是指两个集合X和Y的笛卡尓积(Cartesian product)，又称直积，表示为X × Y，第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。
	离散余弦变换	离散余弦变换(DCT)将一个长度为N的时间域实值序列转换为一个长度为N的频率域实值序列。
	行归一化	数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。
	奇异值分解	一种数据降维方式，可以对数值型数据进行简化处理，通过选取较高的奇异值将数据投影到低维空间。
	特征哈希	一种简单的降维方法，目标是把原始的高维特征向量压缩成较低维特征向量，且尽量不损失原始特征的表达能力。
	one-hot编码	类型转换算子，将一列映射为一个0/1向量，这个向量最多有一个1值
	计算权重	计算属性的权重
	分类	逻辑回归、决策树
	聚类	K-Means聚类
	评估	二分类评估、多分类评估、聚类评估、回归评估

标签体系相关概念

概念	解释说明
标签	基于行为/属性等数据，基于业务逻辑或模型能力创建的有业务指导意义，标签值可枚举的形式
标签体系	由标签构成，以结构性的方式对标签内容，包括标签的数量、分类、层级关系等进行呈现和管理
全量标签（Mautag）	该集团下全量用户总数，每日更新
文本型标签值	用于标签值为文本类型的标签，常见使用该类型的标签例如姓名、用户名、城市等
整数型标签值	用于标签值为整数类型的标签，常见使用该类型的标签例如年龄、点击次数、来店次数等
小数型标签值	用于标签值为小数类型的标签，常见使用该类型的标签例如费用、占比等
多值型标签值	当标签值存在多个值时使用，常见使用该类型的标签例如兴趣爱好、喜爱话题等
日期型标签值	用于标签值为日期类型的标签，具体到日期，常见使用该类型的标签例如出生日期等
日期时间型标签值	用于标签值为日期时间类型的标签，具体到时分秒，常见使用该类型的标签例如更新日期等
AIPL模型	一种将品牌人群资产定量化、链路化运营的手段，A（Awareness）代表品牌认知人群；I（Interest）代表品牌兴趣人群；P（Purchase）代表品牌购买人群；L（Loyalty）代表品牌忠诚人群
5A模型	菲利普科特勒在《营销革命4.0》里提出的营销模型，A1 了解（Aware）指顾客被动接受信息；A2 吸引（appeal）指品牌印象增加的顾客；A3 问询（Ask）指被好奇驱使主动搜索信息的顾客；A4 行动（Act）指采取行动的顾客；A5 拥护（Advocate）指对品牌有忠诚度并进行宣扬的客户
RFM模型	模型通过对每个用户R值、F值、M值高低的评估，将其对应到不同的区间中去，从而将用户划分为8种用户价值类型，分别为：重要价值客户、重要唤回客户、重要深耕客户、重要挽留客户、潜力客户、新客户、一般维持客户、流失客户。 R：最近一次消费（Recency），反映的是一个客户的活跃程度 F：消费频率（Frequency），反映的是一个客户的忠诚度 M：消费金额（Monetary），反映的是一个客户的贡献度
圈选条件“且”	满足所有规则或组合规则条件则视为符合标签规则
圈选条件“或”	满足任意规则或组合规则条件则视为符合标签规则
不包含	当前数据集的数据范围内不符合条件的用户
包含	当前数据集的数据范围内符合条件的用户
全局不包含	在全量用户（含未被打上该标签的用户）排除该标签值的用户（举例：如果全量用户100人，其中10人被打上“是否老年”标签：其中“是”4人、“否”5人、“其他”为1人。那么选择该标签全局不包含 “是”，即选中96人。）
按离散数值划分标签值	直接使用指标计算结果值作为标签值
按数值区间划分标签值	基于指标计算结果值的阈值区间范围设置用户分层标签

用户分群相关概念

概念	解释说明
人群ID类型	以什么ID类型进行分群文件输出
分群名称	人群包名称，分群内ID对象可能是人，也可能是物
输出主体	在【分群主体转换中】，录入主体1的分群文件，转换输出另外一个主体的分群
加密方式	SHA256/MD5加密
拆包	-随机拆包：从目标人群中随机拉取规定数量的人群；可随机拆分多个包；最后结果为：母包+N个随机子包，各个子包人群id唯一； -等比例拆包：平均拆为N个包；最后结果为母包+N个子包，各子包人群id唯一且数量一致；
分群数量	圈选产生分群文件时，对应的个体数量
静态分群	分群更新频次为：一次性
动态分群	分群更新频次为：按天/按需
人群扩样（Lookalike）	将种子分群包进行同质扩样，按需扩大目标群体

用户洞察相关概念

功能模块	概念	解释说明
群体洞察	大盘TGI	展示分群包中某标签值在该项目下的显著性特征结果。>100则表示分群包具有相对倾向或者偏好，数值越大倾向和偏好越强；<100则表示相关倾向较弱（和平均相比）；=100则表示平均水平。计算公式：(分群包中可识别标签值用户量/分群包用户总量)/(项目下可识别标签值用户/项目下用户总量)*100
	标签占比	分群包中，标签值在当前分群包下的占比。占比越高，表示在分群包中该标签的绝对人数越多。计算公式：分群包中标签值用户数量/分群包用户数量*100%
	标签TGI	分群包中某标签值在该标签下显著性特征结果。>100则表示分群包中标签值在该标签下更具有相对倾向或偏好，数值越大则倾向和偏好越强；<100则表示相关倾向较弱（和平均相比）；=100则表示平均水平。计算公式：(分群包中可识别标签值用户量/分群包中该标签用户总量)/（项目下可识别标签值用户量/项目下该标签用户总量）*100
	标签有效占比	分群包中，标签值在当前分群包下标签总人数下的占比。占比越高，表示在分群包中该标签的绝对人数越多。计算公式：分群包中标签值用户数量/分群包中标签的用户总量*100%
	下钻分析	在当前维度往下展开下一层数据
	交叉分析	洞察单个人群在两个画像维度上的关系
生命周期分析	总用户量	当天的总人数
	日环比	（当天总人数/前一天总人数-1）x100%
	当日新增	昨天不在总资产里，当天在的用户数
	当日流失	昨天在总资产里，当天不在的用户数
多维特征分析	特征组合综合评分	最能体现标签组合效果的指数，指数结果在0~1之间，数字越大，效果越好。评分计算逻辑为精确率0.8+召回率0.2，两者加权计算得出。
	召回率	正样本中满足该筛选条件的特征组合人群，在总体正样本中的占比。比如，正样本中满足该特征的人群为100人，全体正样本为1000人，则召回率为（100/1000）*100%=10%
	精确率	正样本中满足该筛选条件的特征组合人群，在正负总样本中的占比。比如：正样本中满足该特征的人群为400人，负样本中满足该特征的人群为100人，则精确率为400/（400+100）*100%=80%
	正样本中的人数	正样本中符合该特征的人群
	扩量后的人数	基于正样本扩量后的人群

权限相关概念

概念	解释说明
项目	是使用产品的一个独立“空间”，项目之间除共享服务器硬件资源外其余资源均独立隔离，如用户权限、数据资源在项目A与项目B都不同。
用户	产品的使用者，需要在Portal控制台创建，具备项目、账号、邮箱、电话等信息。
用户组	具备特殊业务含义的一组用户，只属于某个项目的用户群组，需要在CDP项目中心-授权管理中独立创建。
模块	即CDP产品的功能模块，对应各自的菜单。支持在项目中心进行模块使用权限授权
资源	用户在CDP中生产的资源，如标签、数据集、人群包、洞察报告、可视化建模任务。支持在项目中心进行资源权限授权（用户分群及用户洞察的授权在详情页操作）