对于新手用户,在开启实验时往往对于分配多少线上流量缺少经验性的判断,从而影响实验结果。
「A/B 测试」提供实验流量推荐工具,通过设定一系列的目标参数,推荐线上流量分配比例。假定新策略对核心指标在真实场景能带来提升,使用流量推荐工具能帮助用户在一次实验中就可得到显著的结果。
在新建实验第二步「设置生效策略」,点击“流量计算器”,即可弹出流量建议工具页面,如下图:
主要可操作项如下:
WAU,指您接入的当前应用每周的活跃用户数。
为何不用DAU?
「A/B 测试」将会根据核心指标的历史运行情况,为您提前计算历史均值。若未能自动依据最近数据产出,则需要您手动输入数值。
MDE是什么?
Minimum Detectable Effect (MDE),最小可检测单位,即检验灵敏度,是实验在当前条件下能有效检测的指标diff幅度。
MDE可以用来做什么?
通过比较指标MDE与指标的目标提升率,来判断不显著的指标结论是否可信,可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束,错失有潜力的feature。
如何设置?
MDE越小,意味着您要求测试的灵敏度越高,所需的样本量也越大。
指标方差,实验版本内用户粒度层面的近期指标方差。若未能自动依据最近数据产出,则需要手动输入数值。
如何计算指标方差?
例如pv/uv,您可以使用SQL标准函数计算指标方差(MySQL帮助说明请戳这里)
select STD(total_cost)** 2 from purchase_table group by user_id;
例如ctr = sum(y) / sum(x)、 sum( read ) / sum( impr ),您可以按照如下公式计算指标方差:
其中,x、y的期望(μ)、方差(var)和协方差(cov)分别用impr和read的样本均值、样本方差、二者之间的样本协方差来替代。
统计功效 = 1 - 第二类错误的概率(β),统计功效在现实中表现为:假设我的新策略是有效的,我有多大概率在实验中检测出来。
在实验流量建议工具中,统计功效的默认值为80%,支持调整为50%、80%、90%、99%。
第二类错误,指原假设错误(伪),但是我们假设检验的结论却显示“原假设正确(真)、备择假设是错误的”,这一过程中我们接受了错误(伪)的原假设,所以第二类错误是“取伪”。
在统计学中,我们用β来描述实验者犯第二类错误的概率。
统计显著性=1 - 第一类错误的概率(α),也称“置信水平、置信度、置信系数”,它的存在是为了描述实验结果的可信度。
「A/B 测试」把置信度参数默认值设置为95%,集团管理和应用管理员可以在“系统设置-置信水平设置”根据需求进行调整。
第一类错误,指原假设正确(真),但是我们假设检验的结论却显示“原假设错误(伪)、备择假设是正确的”,这一过程中我们拒绝了正确(真)的原假设,所以第一类错误是“弃真”。
在统计学中,我们用显著性水平(α)来描述实验者犯第一类错误的概率。
当某个实验组的指标是显著的,说明这个实验结果大概率是可信的。这个概率是95%,也就是说,系统有95%的信心确认这个实验结果是准确的。
举个例子,
一个按钮从蓝色改成红色,一个窗口从左边移到右边,到底用户体验会变好还是变差呢?我们并不确定,因此我们试图使用A/B实验的办法,帮助我们转化这种“不确定”——观察小流量实验中新旧策略的表现,从而确定新旧策略的优劣。
但是,这样就能完全消除不确定性了吗?答案是不能,因为存在抽样误差。
举个例子,假设瑞士人均收入为中国的十倍,那么随机抽三个瑞士人和三个中国人,能保证样本里这三个瑞士人的平均收入是三个中国人的十倍吗?万一这三个中国人是马云,王健林和一个小学生呢?
反过来想,假设在1%的流量下,组A(按钮呈红色)比组B(按钮呈现蓝色)购买率高,将流量扩大至100%,能保证策略A的表现仍旧比策略B出色吗?显然,我们还是不确定。
抽样误差带来的不确定性,使得我们在做小流量实验时,永远没法保证结论是完全正确的。幸运的是,对于抽样的不确定性,在统计学中,我们有一套方法来量化这种不确定性到底有多大,这便是显著性水平(α)存在的意义。