对于新手用户,在开启实验时往往对于分配多少线上流量缺少经验性的判断,从而影响实验结果。
「A/B 测试」提供实验流量推荐工具,通过设定一系列的目标参数,推荐线上流量分配比例。假定新策略对核心指标在真实场景能带来提升,使用流量推荐工具能帮助用户在一次实验中就可得到显著的结果。
在新建实验第二步「设置生效策略」,点击“流量计算器”,即可弹出流量建议工具页面,如下图:
DataTester将会根据指标的历史运行情况,为您提前计算历史均值。若未能自动依据最近数据产出预计算结果,或您需要更灵活的配置计算数据,您可以手动填写。
选择预计算指标
参数 | 配置说明 |
---|---|
选择指标 | 在下拉框中选择实验指标。您可以根据实验目的,分别选择实验的核心指标、关注指标,分别使用流量计算器预估一下所需的样本量,最终的流量取其中的最大值,以保障实验的核心指标、关注指标数据的有效产出都有足够的流量。 |
预计实验天数 | 当前默认为7天。 |
预计算数据 | DataTester根据所选指标的历史运营情况,基于多天累计数据进行计算出来的预估总样本量、指标均值、指标方差值。
|
手动填写
参数 | 配置说明 |
---|---|
指标类型 | 根据后续实验的指标类型,选择对应的指标类型。不同指标类型对应的方差、样本量计算公式会有差异,当前支持:
说明 求和类指标建议转化为人均指标。 |
预估总样本量(累计) | 预计实验周期内的累计去重样本量(进组人数),实际主要用于计算“建议实验总流量”比例。 |
指标均值(累计) | 预计实验周期内的指标均值。
|
指标方差(累计) | 预计实验周期内用户粒度的的指标方差值。更多指标方差的介绍详情请参见下文的参考:相关概念文档。 |
参数 | 配置说明 |
---|---|
期望检测指标的最小变化 | 即MDE(minimum detectable effect,minimum detectable effect),也就是实验的灵敏度。如果一个实验业务预期可以提升x%,这里的MDE可以设置为x%,或略小的值,以获取能检验到提升值所需要的样本量。支持设置相对值或绝对值。 |
实验版本个数 | 根据后续开展实验时所需的实验版本数(含对照组)进行配置。取值范围为2~20。 |
预设参数 | 预设参数可使用平台默认值。
更多统计功效power、统计显著性相关概念介绍请参见参考:相关概念文档。 |
指标方差,实验版本内用户粒度层面的近期指标方差。
如何计算指标方差?
人均值类的指标,例如pv/uv,您可以使用SQL标准函数计算指标方差(MySQL帮助说明请戳这里)
select STD(total_cost)** 2 from purchase_table group by user_id;
pv_ctr类的指标,例如,pv_ctr = sum(y) / sum(x) ,x和y需要已经按用户粒度聚合好,如sum( read ) / sum( impr ),您可以按照如下公式计算指标方差:
其中,x、y的期望(μ)、方差(var)和协方差(cov)分别用impr和read的样本均值、样本方差、二者之间的样本协方差来替代。
说明
通常实验指标为提升/降低xx(某个业务指标值),那MDE建议以小于这个指标值来进行估算,尽量避免MDE取值较大,无法检测出真实的实验结果。
更多关于MDE的介绍请见资源中心。
第二类错误,指原假设错误(伪),但是我们假设检验的结论却显示“原假设正确(真)、备择假设是错误的”,这一过程中我们接受了错误(伪)的原假设,所以第二类错误是“取伪”。
在统计学中,我们用β来描述实验者犯第二类错误的概率。
统计功效power = 1 - 第二类错误的概率(β),统计功效在现实中表现为:假设我的新策略是有效的,我有多大概率在实验中检测出来。
由上文可知,A/B实验不可避免的存在抽样误差,我们把——原假设正确(真),但是我们假设检验的结论却显示“原假设错误(伪)、备择假设是正确的”——这类错误定义为第一类错误,这一过程中我们拒绝了正确(真)的原假设,所以第一类错误是“弃真”。
在统计学中,我们用显著性水平(α)来描述实验者犯第一类错误的概率。
当某个实验组的指标是显著的,说明这个实验结果有一定信心是可信的。例如,显著性水平是95%,也就是说,系统有95%的信心确认这个实验结果是准确的。
统计显著性=1 - 第一类错误的概率(α),也称“置信水平、置信度、置信系数”,它的存在是为了描述实验结果的可信度。
「A/B 测试」把置信度参数默认值设置为95%,集团管理和应用管理员可以在“系统设置-置信水平设置”根据需求进行调整。
举个例子,一个按钮从蓝色改成红色,一个窗口从左边移到右边,到底用户体验会变好还是变差呢?我们并不确定,因此我们试图使用A/B实验的办法,帮助我们转化这种“不确定”——观察小流量实验中新旧策略的表现,从而确定新旧策略的优劣。
但是,这样就能完全消除不确定性了吗?
——答案是不能,因为存在抽样误差。举个例子,假设X国人均收入为Y国的十倍,那么随机抽三个X国人和三个Y国人,能保证样本里这三个X国人的平均收入是三个Y国人的十倍吗?,显然答案是不确定的,有可能随机抽取的三个Y国人是Y国首富TOP1、TOP2和TOP3,这种由于抽取样本导致的误差即为抽样误差。
反过来想,假设在1%的流量下,组A(按钮呈红色)比组B(按钮呈现蓝色)购买率高,将流量扩大至100%,能保证策略A的表现仍旧比策略B出色吗?——显然答案也还是不确定。
抽样误差带来的不确定性,使得我们在做小流量实验时,永远没法保证结论是完全正确的。幸运的是,对于抽样的不确定性,在统计学中,我们有一套方法来量化这种不确定性到底有多大,这便是显著性水平(α)存在的意义。