汽车销售常见的数据采集方式主要分为线上(APP/微信小程序)、线下(门店登记/线下扫码),在针对用户行为统计的时候往往需要从不同的数据表中进行信息整合,结合用户的 id-mapping 的基本属性,来统计出用户的关键性的指标。
本案例综合考虑用户线上行为及用户线下行为,结合用户进入选装包的时间,进入小程序的时间以及进入线下门店的情况,综合考虑这几个因素,来计算用户的关键行为来辅助判断用户是否对购车有兴趣,并最终结合 CDP 平台辅助决策用户营销。
系统提供便捷的交互式数据处理能力,结合探查/数据结果预览,可以方便用户边看结果边数据处理,降低传统数据处理的门槛,没有专业的 SQL 技巧也能轻松上手。
目前产品支持20+种主流的数据源接入的能力,支持数据的采样、筛选、部分列读取等。
提供多种数据处理的算子,如:
处理方式 | 解释说明 |
---|---|
字段设置 | 列名字/列类型/列筛选 |
连接 | 数据Join,支持左右内部连接/外连接,支持跨源连接 |
聚合 | 选择聚合字段及方式,可更改聚合方式、设置聚合后的字段名称 |
计算列 | 使用Spark函数处理上游字段,用以添加新字段。也可为无业务日期的表添加业务日期字段。 |
筛选行 | 选择字段,确认筛选条件,支持两层且/或逻辑关系。 |
字符串索引 | 一种类型转换算子,它将指定的属性的值映射成数值型索引,使得只能对数值型数据做处理的算子也可以对属性进行处理。该算子一般用于数据预处理,另外,不适合对于包含连续型数据的列执行该算子,如ID列 |
替换缺失值 | 替换null值,支持用min/max/avg/固定值替换 |
将线上线下的表统计浏览选装包页面的时长、进入小程序的时间、线下进入门店的次数,结合用户的基本属性,计算出用户活跃的时长,作为指标对接到CDP或者输出hive/clickhouse,便于后续处理。
线上行为数据表(用户唯一标志id和设备id):
字段名称 | 字段类型 | 字段意义 | 字段说明 |
---|---|---|---|
p_date | string | 分区字段,日期 | 数据埋点根据日期分区,按天存储 |
tenant_id | int | 租户id | 渠道接入的方式 |
device_id | string | 设备id | 用户的设备的id |
user_id | string | 用户id | 用来唯一标志用户 |
app_id | int | app的id | 客户端app的id |
event | string | 行为事件 | enter_mp: 进入微信公众号 |
string_params | map | 事件详情,存字符行为 | enter_from: 公众号/线下扫码 |
decimal_params | map | 事件详情,存数字 | stay_time: 停留时间 |
time | bigint | 发生时间,时间戳 | 事件发生的事件,时间戳类型 |
线下行为数据表(登记用户名和电话):
字段名称 | 字段类型 | 字段意义 | 字段说明 |
---|---|---|---|
p_date | string | 分区字段,日期 | 数据埋点根据日期分区,按天存储 |
tenant_id | int | 租户id | 渠道接入的方式 |
name | string | 用户姓名 | 用户的姓名,会和id-mapping匹配 |
phone | string | 用户电话 | 用户注册的电话 |
app_id | int | app的id | 客户端app的id |
event | string | 行为事件 | enter_mp: 进入微信公众号 |
string_params | map | 事件详情,存字符行为 | enter_from: 公众号/线下扫码 |
decimal_params | map | 事件详情,存数字 | stay_time: 停留时间 |
time | bigint | 发生时间,时间戳 | 事件发生的事件,时间戳类型 |
ID_Mapping表:
字段名称 | 字段类型 | 字段意义 | 字段说明 |
---|---|---|---|
date | string | 分区字段,日期 | 用户信息更新的日期,每日全量更新 |
uid | bigint | 用户id | 用来唯一标志用户 |
nickname | string | 用户名称 | 用户在平台注册的名字 |
name | string | 用户姓名 | 用户的姓名,会和id-mapping匹配 |
phone | array | 用户电话 | 用户注册的电话,有多个电话 |
carnumber | array | 用户的车牌号 | 用户注册的车牌号,有多个车牌 |
did | array | 设备id | 用户的手机设备id,有多台设备 |
string | 邮箱 | 用户注册的邮箱 |
线上行为主要采集访问次数(进入选装包的次数+进入小程序的次数)和访问时长统计(退出时间)。
用筛选和聚合算子,筛选进入选装包和进入小程序的事件,然后彼此做一个聚合(统计进入次数)
用筛选事件和计算列(提取map类型的value值),再聚合求和,来计算一个用户停留时间
最后两个数据进行合并处理,得到最终用户访问的有效指标(访问次数和停留时间)
线下行为主要采集到门店的访问次数,一般登记的用户名和电话,所以需要和 id 表进行合并。
用筛选算子和聚合算子筛选进入门店的次数
和 id-mapping 表进行合并,得到用户的唯一 id
最后使用连接算子,将线上线下数据进行合并,并可以将数据加工处理的结果输出到 hive/clickhosue,后续可以在 DataWind 平台中进行可视化查询/创建仪表盘大屏。也可以结合 CDP 产品,进行标签洞察/营销应用/用户分群等。