You need to enable JavaScript to run this app.
导航
⁣【案例】汽车用户关键行为统计
最近更新时间:2024.07.11 17:32:50首次发布时间:2023.03.17 14:39:45

一、概述

汽车销售常见的数据采集方式主要分为线上(APP/微信小程序)线下(门店登记/线下扫码),在针对用户行为统计的时候往往需要从不同的数据表中进行信息整合,结合用户的id-mapping的基本属性,来统计出用户的关键性的指标。
本案例综合考虑用户线上行为/用户线下行为,结合用户进入选装包的时间,进入小程序的时间以及进入线下门店的情况,综合考虑这几个因素,来计算用户的关键行为来辅助判断用户是否对购车有兴趣,并最终结合CDP平台辅助决策用户营销。

二、处理过程

数据准备模块提供便捷的交互式数据处理,结合探查/数据结果预览,可以方便用户边看结果边数据处理,降低传统数据处理的门槛,没有专业的sql技巧也能轻松上手。

1.数据源接入

目前数据准备集成了Hive, Mysql, Clickhouse, kafka, HttpApi, 飞书, Csv/Excel, Oracle, Impala, PostgreSql, Hbase, SqlServer, MaxCompute, ADB, MongoDb, Hana, teradata, Db2, Vertica, GreenPlum等20几种主流的数据源接入的能力,支持数据的采样/全量/筛选/部分列读取
图片

2.数据处理

数据准备模块包含了多种数据处理的算子

处理方式

解释说明

字段设置

列名字/列类型/列筛选

连接

数据Join,支持左右内部连接/外连接,支持跨源连接

聚合

选择聚合字段及方式,可更改聚合方式、设置聚合后的字段名称

计算列

使用Spark函数处理上游字段,用以添加新字段。也可为无业务日期的表添加业务日期字段。

筛选行

选择字段,确认筛选条件,支持两层且/或逻辑关系。

字符串索引

一种类型转换算子,它将指定的属性的值映射成数值型索引,使得只能对数值型数据做处理的算子也可以对属性进行处理。该算子一般用于数据预处理,另外,不适合对于包含连续型数据的列执行该算子,如ID列

替换缺失值

替换null值,支持用min/max/avg/固定值替换

三、问题建模

将线上线下的表统计浏览选装包页面的时长/进入小程序的时间/线下进入门店的次数,结合用户的基本属性,计算出用户活跃的时长,作为指标对接到CDP或者输出hive/clickhouse,便于后续处理

1.数据描述

线上行为数据表(用户唯一标志id和设备id):

字段名称

字段类型

字段意义

字段说明

p_date

string

分区字段,日期

数据埋点根据日期分区,按天存储

tenant_id

int

租户id

渠道接入的方式

device_id

string

设备id

用户的设备的id

user_id

string

用户id

用来唯一标志用户

app_id

int

app的id

客户端app的id

event

string

行为事件

enter_mp: 进入微信公众号
enter_car_optical_pack: 进入选装包页面
close_car_optical_pcak: 关闭选装包页面

string_params

map

事件详情,存字符行为

enter_from: 公众号/线下扫码
enter_from: 小程序首页/公众号推送

decimal_params

map

事件详情,存数字

stay_time: 停留时间

time

bigint

发生时间,时间戳

事件发生的事件,时间戳类型

线下行为数据表(登记用户名和电话):

字段名称

字段类型

字段意义

字段说明

p_date

string

分区字段,日期

数据埋点根据日期分区,按天存储

tenant_id

int

租户id

渠道接入的方式

name

string

用户姓名

用户的姓名,会和id-mapping匹配

phone

string

用户电话

用户注册的电话

app_id

int

app的id

客户端app的id

event

string

行为事件

enter_mp: 进入微信公众号
enter_car_optical_pack: 进入选装包页面
close_car_optical_pcak: 关闭选装包页面

string_params

map

事件详情,存字符行为

enter_from: 公众号/线下扫码
enter_from: 小程序首页/公众号推送

decimal_params

map

事件详情,存数字

stay_time: 停留时间

time

bigint

发生时间,时间戳

事件发生的事件,时间戳类型

ID_Mapping表:

字段名称

字段类型

字段意义

字段说明

date

string

分区字段,日期

用户信息更新的日期,每日全量更新

uid

bigint

用户id

用来唯一标志用户

nickname

string

用户名称

用户在平台注册的名字

name

string

用户姓名

用户的姓名,会和id-mapping匹配

phone

array

用户电话

用户注册的电话,有多个电话

carnumber

array

用户的车牌号

用户注册的车牌号,有多个车牌

did

array

设备id

用户的手机设备id,有多台设备

mail

string

邮箱

用户注册的邮箱

2.数据准备

2.1 线上数据处理

图片
线上行为主要采集访问次数(进入选装包的次数+进入小程序的次数)和访问时长统计(退出时间)

  • 用筛选和聚合算子,筛选进入选装包和进入小程序的事件,然后彼此做一个聚合(统计进入次数)
  • 用筛选事件和计算列(提取map类型的value值),在聚合求和,来计算一个用户停留时间
  • 最后两个数据进行合并处理,得到最终用户访问的有效指标(访问次数和停留时间)

2.2 线下数据和id-mapping处理

图片
线下行为主要采集到门店的访问次数,一般登记的用户名和电话,所以需要和id表进行合并

  • 用筛选算子和聚合算子筛选进入门店的次数
  • 和id-mapping表进行合并,得到用户的唯一id

2.3 数据整合统计 && 数据生产应用

图片
最后使用连接算子,将线上线下数据进行合并,并可以将数据加工处理的结果输出到hive/clickhosue,后续可以结合ABI进行分析处理。同时也可以对接CDP平台,对该指标进行标签洞察/营销应用/用户分群中投入生产使用

四、总结

数据准备平台包含丰富的数据接入能力和简单易上手的数据处理能力,方便用户在针对不同数据表/跨源数据处理/交互式可视化数据处理,极大降低输出清洗成本,让使用者轻松解决数据难题。