汽车销售常见的数据采集方式主要分为线上(APP/微信小程序)线下(门店登记/线下扫码),在针对用户行为统计的时候往往需要从不同的数据表中进行信息整合,结合用户的id-mapping的基本属性,来统计出用户的关键性的指标。
本案例综合考虑用户线上行为/用户线下行为,结合用户进入选装包的时间,进入小程序的时间以及进入线下门店的情况,综合考虑这几个因素,来计算用户的关键行为来辅助判断用户是否对购车有兴趣,并最终结合CDP平台辅助决策用户营销。
数据准备模块提供便捷的交互式数据处理,结合探查/数据结果预览,可以方便用户边看结果边数据处理,降低传统数据处理的门槛,没有专业的sql技巧也能轻松上手。
目前数据准备集成了Hive, Mysql, Clickhouse, kafka, HttpApi, 飞书, Csv/Excel, Oracle, Impala, PostgreSql, Hbase, SqlServer, MaxCompute, ADB, MongoDb, Hana, teradata, Db2, Vertica, GreenPlum等20几种主流的数据源接入的能力,支持数据的采样/全量/筛选/部分列读取
数据准备模块包含了多种数据处理的算子
处理方式 | 解释说明 |
字段设置 | 列名字/列类型/列筛选 |
连接 | 数据Join,支持左右内部连接/外连接,支持跨源连接 |
聚合 | 选择聚合字段及方式,可更改聚合方式、设置聚合后的字段名称 |
计算列 | 使用Spark函数处理上游字段,用以添加新字段。也可为无业务日期的表添加业务日期字段。 |
筛选行 | 选择字段,确认筛选条件,支持两层且/或逻辑关系。 |
字符串索引 | 一种类型转换算子,它将指定的属性的值映射成数值型索引,使得只能对数值型数据做处理的算子也可以对属性进行处理。该算子一般用于数据预处理,另外,不适合对于包含连续型数据的列执行该算子,如ID列 |
替换缺失值 | 替换null值,支持用min/max/avg/固定值替换 |
将线上线下的表统计浏览选装包页面的时长/进入小程序的时间/线下进入门店的次数,结合用户的基本属性,计算出用户活跃的时长,作为指标对接到CDP或者输出hive/clickhouse,便于后续处理
线上行为数据表(用户唯一标志id和设备id):
字段名称 | 字段类型 | 字段意义 | 字段说明 |
p_date | string | 分区字段,日期 | 数据埋点根据日期分区,按天存储 |
tenant_id | int | 租户id | 渠道接入的方式 |
device_id | string | 设备id | 用户的设备的id |
user_id | string | 用户id | 用来唯一标志用户 |
app_id | int | app的id | 客户端app的id |
event | string | 行为事件 | enter_mp: 进入微信公众号 enter_car_optical_pack: 进入选装包页面 close_car_optical_pcak: 关闭选装包页面 |
string_params | map | 事件详情,存字符行为 | enter_from: 公众号/线下扫码 enter_from: 小程序首页/公众号推送 |
decimal_params | map | 事件详情,存数字 | stay_time: 停留时间 |
time | bigint | 发生时间,时间戳 | 事件发生的事件,时间戳类型 |
线下行为数据表(登记用户名和电话):
字段名称 | 字段类型 | 字段意义 | 字段说明 |
p_date | string | 分区字段,日期 | 数据埋点根据日期分区,按天存储 |
tenant_id | int | 租户id | 渠道接入的方式 |
name | string | 用户姓名 | 用户的姓名,会和id-mapping匹配 |
phone | string | 用户电话 | 用户注册的电话 |
app_id | int | app的id | 客户端app的id |
event | string | 行为事件 | enter_mp: 进入微信公众号 enter_car_optical_pack: 进入选装包页面 close_car_optical_pcak: 关闭选装包页面 |
string_params | map | 事件详情,存字符行为 | enter_from: 公众号/线下扫码 enter_from: 小程序首页/公众号推送 |
decimal_params | map | 事件详情,存数字 | stay_time: 停留时间 |
time | bigint | 发生时间,时间戳 | 事件发生的事件,时间戳类型 |
ID_Mapping表:
字段名称 | 字段类型 | 字段意义 | 字段说明 |
date | string | 分区字段,日期 | 用户信息更新的日期,每日全量更新 |
uid | bigint | 用户id | 用来唯一标志用户 |
nickname | string | 用户名称 | 用户在平台注册的名字 |
name | string | 用户姓名 | 用户的姓名,会和id-mapping匹配 |
phone | array | 用户电话 | 用户注册的电话,有多个电话 |
carnumber | array | 用户的车牌号 | 用户注册的车牌号,有多个车牌 |
did | array | 设备id | 用户的手机设备id,有多台设备 |
string | 邮箱 | 用户注册的邮箱 |
线上行为主要采集访问次数(进入选装包的次数+进入小程序的次数)和访问时长统计(退出时间)
线下行为主要采集到门店的访问次数,一般登记的用户名和电话,所以需要和id表进行合并
最后使用连接算子,将线上线下数据进行合并,并可以将数据加工处理的结果输出到hive/clickhosue,后续可以结合ABI进行分析处理。同时也可以对接CDP平台,对该指标进行标签洞察/营销应用/用户分群中投入生产使用
数据准备平台包含丰富的数据接入能力和简单易上手的数据处理能力,方便用户在针对不同数据表/跨源数据处理/交互式可视化数据处理,极大降低输出清洗成本,让使用者轻松解决数据难题。