You need to enable JavaScript to run this app.
导航
流量计算器
最近更新时间:2024.06.05 10:36:44首次发布时间:2023.06.09 16:02:40

一. 概述

对于新手用户,在开启实验时往往对于分配多少线上流量缺少经验性的判断,从而影响实验结果。
「A/B 测试」提供实验流量推荐工具,通过设定一系列的目标参数,推荐线上流量分配比例。假定新策略对核心指标在真实场景能带来提升,使用流量推荐工具能帮助用户在一次实验中就可得到显著的结果。

二. 为什么开实验时需要先计算实验流量
  • 实验流量越大,统计功效越大,也就是说:假定一个实验对指标是有真实提升的,那么充足的流量有更大概率在一次实验中得到显著的结果。
  • 但是,为了更大的统计功效,实验使用过多流量开也不可取。默认取统计功效为80%,因为:
    • 浪费流量 :线上流量是宝贵的,通常同一互斥组会有多个迭代同时进行,一个占据10%流量就能满足统计功效的实验,如果把流量开到100%显然浪费。
    • 若实验负向,带来不必要的线上损失 :实验中常常会测试新的策略,新策略相比老策略通常有更大的风险,一旦出现问题,小流量实验影响面更小。
    • 显著性更敏感,但实验实际的收益可能并不能打平feature的成本 :虽然结果获得微小的正向显著,但实验ROI较低,长此以往对于产品来讲并不是好事,相当于用显微镜观察实验组和对照组,它们终归是不一样的,如果得到0.001%的统计显著,这真的是有意义的吗?因此,在开实验时建议大家根据实验的预期指标收益,计算所需的实验流量,并根据MAU折算为实验流量。开实验按照此建议实验流量大小进行设置即可。

三. 如何使用

在新建实验第二步「设置生效策略」,点击“流量计算器”,即可弹出流量建议工具页面,如下图:
图片
主要可操作项如下:

1. WAU

WAU,指您接入的当前应用每周的活跃用户数。
为何不用DAU?

  • 很多互联网产品在工作日和周末的DAU变化差异较大,建议观测整周WAU。

2. 核心指标基线

「A/B 测试」将会根据核心指标的历史运行情况,为您提前计算历史均值。若未能自动依据最近数据产出,则需要您手动输入数值。

3. 校验灵敏度MDE

MDE是什么?
Minimum Detectable Effect (MDE),最小可检测单位,即检验灵敏度,是实验在当前条件下能有效检测的指标diff幅度。

  • 当前条件 ,指当前样本量的「指标值、指标分布」情况,并假设「样本方差」与「总体指标方差」足够接近。
  • 有效检测 ,指检出概率≥80%(type II error小于等于20%)。

MDE可以用来做什么?
通过比较指标MDE与指标的目标提升率,来判断不显著的指标结论是否可信,可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束,错失有潜力的feature。
如何设置?
MDE越小,意味着您要求测试的灵敏度越高,所需的样本量也越大。

  • 如果MDE设置过于精细,不仅会浪费不必要的流量,同时实际收益可能不能弥补新策略的研发和推广成本。
  • 如果灵敏度不足(比如预期1%就达标,但实验灵敏度仅能检测5%及以上),可能会导致错失有潜力的feature。

4. 指标方差

指标方差,实验版本内用户粒度层面的近期指标方差。若未能自动依据最近数据产出,则需要手动输入数值。
如何计算指标方差?
例如pv/uv,您可以使用SQL标准函数计算指标方差(MySQL帮助说明请戳这里

select  STD(total_cost)** 2
from purchase_table
group by user_id;
  • ctr点击率类:

例如ctr = sum(y) / sum(x)、 sum( read ) / sum( impr ),您可以按照如下公式计算指标方差:
图片
其中,x、y的期望(μ)、方差(var)和协方差(cov)分别用impr和read的样本均值、样本方差、二者之间的样本协方差来替代。

5. 统计功效power(1-β)

统计功效 = 1 - 第二类错误的概率(β),统计功效在现实中表现为:假设我的新策略是有效的,我有多大概率在实验中检测出来。
在实验流量建议工具中,统计功效的默认值为80%,支持调整为50%、80%、90%、99%。

5.1 抽样误差

  • 为了尽可能避免错误的策略给用户带来影响 ,我们在做实验时只会调取总体流量中的一小部分。因此,A/B实验存在着抽样这一步骤。尽管我们想尽办法,希望保持样本流量和总体流量分布一致,但抽样所产生的误差总归无法避免。这就意味着,我们通过抽样收集数据,对于“原假设”、“备择假设”的检验结果不可能是100%准确的。
  • 通过统计学理论,我们可以知道在检验的过程中,我们可能会犯什么错,以及有多大几率犯错。统计学告诉我们,在假设检验的过程中,我们可能犯两种错误,它们分别被称为第一类错误(弃真)和第二类错误(取伪)。

5.2 第二类错误

第二类错误,指原假设错误(伪),但是我们假设检验的结论却显示“原假设正确(真)、备择假设是错误的”,这一过程中我们接受了错误(伪)的原假设,所以第二类错误是“取伪”。

  • 在实际操作中表现为:我的新策略其实有效,但实验没能检测出来。

在统计学中,我们用β来描述实验者犯第二类错误的概率。

6. 统计显著性(1-α)

统计显著性=1 - 第一类错误的概率(α),也称“置信水平、置信度、置信系数”,它的存在是为了描述实验结果的可信度。
「A/B 测试」把置信度参数默认值设置为95%,集团管理和应用管理员可以在“系统设置-置信水平设置”根据需求进行调整。

6.1 第一类错误

第一类错误,指原假设正确(真),但是我们假设检验的结论却显示“原假设错误(伪)、备择假设是正确的”,这一过程中我们拒绝了正确(真)的原假设,所以第一类错误是“弃真”。

  • 在实际操作中表现为:实验结论显示我的新策略有用,但实际上我的新策略没有用。

在统计学中,我们用显著性水平(α)来描述实验者犯第一类错误的概率。
当某个实验组的指标是显著的,说明这个实验结果大概率是可信的。这个概率是95%,也就是说,系统有95%的信心确认这个实验结果是准确的。

6.2 显著性水平存在的意义

举个例子,

一个按钮从蓝色改成红色,一个窗口从左边移到右边,到底用户体验会变好还是变差呢?我们并不确定,因此我们试图使用A/B实验的办法,帮助我们转化这种“不确定”——观察小流量实验中新旧策略的表现,从而确定新旧策略的优劣。
但是,这样就能完全消除不确定性了吗?答案是不能,因为存在抽样误差。
举个例子,假设瑞士人均收入为中国的十倍,那么随机抽三个瑞士人和三个中国人,能保证样本里这三个瑞士人的平均收入是三个中国人的十倍吗?万一这三个中国人是马云,王健林和一个小学生呢?
反过来想,假设在1%的流量下,组A(按钮呈红色)比组B(按钮呈现蓝色)购买率高,将流量扩大至100%,能保证策略A的表现仍旧比策略B出色吗?显然,我们还是不确定。

抽样误差带来的不确定性,使得我们在做小流量实验时,永远没法保证结论是完全正确的。幸运的是,对于抽样的不确定性,在统计学中,我们有一套方法来量化这种不确定性到底有多大,这便是显著性水平(α)存在的意义。