乘法公式计算每个因子对整体变动的贡献度,即将变动分解到因子 。它基于这样一种假设:每个接触点(如广告展示、点击等)对最终转化结果的影响是相乘的关系,即根指标是若干因子指标的乘积。
某个指标m,和若干指标相乘相等,即关系如下
那么在基期和对比期都满足这个关系,即:
其中上标是0的代表基期,上标是1的代表对比期,我们要做的是对基期( m^0 ) 变到对比期( m^1 ) 进行归因,实际上就是将变化分到各个因子指标m1,m2,...mn。方法如下:
对基期和对比期的公式两侧同时取对数:
然后用下面的公式减去上面的公式,可得:
稍作整理:
通过上式,显然我们将基期( m^0 )到对比期( m^1 )的变化分到了各个因子指标的变化上去。
例如,因子m1的贡献值就是:
贡献率就是:
当一个根指标可以表示为若干个因子指标相乘,如:
我们希望将成单率波动差值分解到每个因子指标上,使每个指标因子的贡献率可加和为100%。由于成单率和因子指标之间是乘法关系,我们无法直接计算出可加和的贡献率,因此需要先把乘法关系转为加法关系。
对数乘法公式:ln(a*b) = ln(a)+ln(b),可以把乘法关系转换为加法关系:
ln(成单率) = ln(渲染成功率) + ln(提交订单率) + ln(生单成功率) +ln(支付成功率)
成单率对数波动差值 = ln(本期成单率) - ln(上期成单率),右边的两项又分别可表示为:
这时我们对上面两个等式左右两边的对应项分别做差,就可以将成单率对数波动差值分解到每个因子指标上:
[ln(本期成单率) - ln(上期成单率)] =
[ln(本期渲染成功率) - ln(上期渲染成功率)]
+[ln(本期提交订单率) - ln(上期提交订单率)]
+[ln(本期生单成功率) - ln(上期生单成功率)]
+[ln(本期支付成功率) - ln(上期支付成功率)]
因子的对数波动差值占成单率对数波动差值的比例,就是因子的贡献率,因子贡献率加和为100%:
对于非乘法公式,一般指标之间没有严格的公式关系。例如,房价和位置,楼层,面积的关系,并无严格的数学公式,但是又存在一些相关性。对于这种指标关系归因,采用的方式是根据提供的数据,使用机器学习算法建立一个函数关系,比如对于房价数据,我们可以用数据拟合一个回归模型,输入位置,楼层,面积即可计算出来房价。
如果我们建立的模型很简单,比如线性模型,我们可以很容易的计算出来各个特征的贡献。但是简单的模型往往拟合能力较差,在很多情况下不能很好的拟合。为此,我们采用了拟合能力更强的xgboost算法进行建模。
而使用xgboost模型就会带来另一个问题,那就是xgboost模型很复杂,我们怎么计算各个特征的贡献,为此,我们引入了shap方法,shap方法是一个解决模型可解释性的方法,可以计算出来复杂模型下各个特征的贡献。
最终,我们采用了xgboost+shap的方法来解决相关指标归因的问题。
我们通过举例来说明整个流程:
当我们假设一个指标可以表示为若干个相关指标的函数模型f,如:
渲染成功率 = f(首屏请求失败pv, 渲染环节回退pv)
我们首先要检验这个函数模型本身是否具有良好的预测效果,如:
给定首屏请求失败pv和渲染环节回退pv,该模型是否能预测出接近真实值的渲染成功率
出于精确度和计算效率的考虑,我们使用XGBoost进行建模。把可用的历史数据切分为训练集和测试集,如果训练模型能够在测试集上表现良好,我们认为模型具有良好的预测效果,能够得到有效的归因结论。否则我们会提示用户优化模型,具体可以通过增添与预测指标相关性更强的因子指标,或增加数据量来优化。对于上面的渲染成功率模型,我们使用100天左右的数据获得了良好的预测效果,下一步就可以相关指标的计算贡献值和贡献率了。
渲染成功率波动差值 = 本期渲染成功率 - 上期渲染成功率
我们希望将渲染成功率波动差值分解到每个相关指标上,使每个相关指标的贡献值可加和为渲染成功率波动差值。由于渲染成功率和相关指标之间是一个xgboost模型,我们无法直接计算出可加和的贡献值,所以需要先为黑盒模型找到一个具备可加性的解释方法,因此我们选用SHAP回归值来解释。
SHAP回归值的计算是一个复杂的问题,具体可参考:https://towardsdatascience.com/using-shap-values-to-explain-how-your-machine-learning-model-works-732b3f40e137
分别对本期和上期渲染成功率进行建模,再分别得到本期和上期相关指标的SHAP回归值,可得:
将上面两个等式左右两边的对应项分别做差,就可以将渲染成功率波动差值分解到每个相关指标上:
(本期渲染成功率 - 上期渲染成功率) =
(本期首屏请求失败pv的SHAP回归值 - 上期首屏请求失败pv的SHAP回归值)
+(本期渲染环节回退pv的SHAP回归值 - 上期渲染环节回退pv的SHAP回归值)
相关指标的两期SHAP回归值之差,就是相关指标的贡献值,相关指标贡献值加和为渲染成功率波动差值:
相关指标贡献值占渲染成功率波动差值的比例,就是相关指标的贡献率,相关指标贡献率加和为100%: