You need to enable JavaScript to run this app.
导航
流量计算器
最近更新时间:2024.11.04 16:17:10首次发布时间:2021.02.23 10:41:56

概述

对于新手用户,在开启实验时往往对于分配多少线上流量缺少经验性的判断,从而影响实验结果。
「A/B 测试」提供实验流量推荐工具,通过设定一系列的目标参数,推荐线上流量分配比例。假定新策略对核心指标在真实场景能带来提升,使用流量推荐工具能帮助用户在一次实验中就可得到显著的结果。

应用场景
  • 实验流量越大,统计功效越大,也就是说:假定一个实验对指标是有真实提升的,那么充足的流量有更大概率在一次实验中得到显著的结果。
  • 但是,为了更大的统计功效,实验使用过多流量开也不可取。默认取统计功效为80%,因为:
    • 浪费流量 :线上流量是宝贵的,通常同一互斥组会有多个迭代同时进行,一个占据10%流量就能满足统计功效的实验,如果把流量开到100%显然浪费。
    • 若实验负向,带来不必要的线上损失 :实验中常常会测试新的策略,新策略相比老策略通常有更大的风险,一旦出现问题,小流量实验影响面更小。
    • 显著性更敏感,但实验实际的收益可能并不能打平feature的成本 :虽然结果获得微小的正向显著,但实验ROI较低,长此以往对于产品来讲并不是好事,相当于用显微镜观察实验组和对照组,它们终归是不一样的,如果得到0.001%的统计显著,这真的是有意义的吗?因此,在开实验时建议大家根据实验的预期指标收益,计算所需的实验流量,并根据MAU折算为实验流量。开实验按照此建议实验流量大小进行设置即可。

使用流量计算器

在新建实验第二步「设置生效策略」,点击“流量计算器”,即可弹出流量建议工具页面,如下图:
Image

录入指标信息

DataTester将会根据指标的历史运行情况,为您提前计算历史均值。若未能自动依据最近数据产出预计算结果,或您需要更灵活的配置计算数据,您可以手动填写。

  • 选择预计算指标

    参数

    配置说明

    选择指标

    在下拉框中选择实验指标。您可以根据实验目的,分别选择实验的核心指标、关注指标,分别使用流量计算器预估一下所需的样本量,最终的流量取其中的最大值,以保障实验的核心指标、关注指标数据的有效产出都有足够的流量。

    预计实验天数

    当前默认为7天。

    预计算数据

    DataTester根据所选指标的历史运营情况,基于多天累计数据进行计算出来的预估总样本量、指标均值、指标方差值。

    • 预估总样本量(累计):预计实验周期内(当前为7天),指标计算对应的去重累积样本量。
    • 指标均值(累计):预计实验周期内的指标均值,基于累计数据计算。
    • 指标方差(累计):预计实验周期内用户粒度的的指标方差值,基于累计数据计算。
  • 手动填写

    参数

    配置说明

    指标类型

    根据后续实验的指标类型,选择对应的指标类型。不同指标类型对应的方差、样本量计算公式会有差异,当前支持:

    • 人均值:累加值/人数,例如人均金额,人均次数
    • 留存:留存人数/人数,也是一种uv_ctr,和uv_ctr公式一样
    • uv_ctr:人数的转化率,例如 转化人数/进组人数
    • pv_ctr:累加值/累加值,例如 转化次数/点击次数

    说明

    求和类指标建议转化为人均指标。

    预估总样本量(累计)

    预计实验周期内的累计去重样本量(进组人数),实际主要用于计算“建议实验总流量”比例。

    指标均值(累计)

    预计实验周期内的指标均值。

    • 估算该指标在实验周期内的累计均值。
    • 留存类指标的累计均值可以按进组日期拆分计算后进行累加,也可以直接根据整体留存估计。

    指标方差(累计)

    预计实验周期内用户粒度的的指标方差值。更多指标方差的介绍详情请参见下文的参考:相关概念文档

设置测试精度

参数

配置说明

期望检测指标的最小变化

即MDE(minimum detectable effect,minimum detectable effect),也就是实验的灵敏度。如果一个实验业务预期可以提升x%,这里的MDE可以设置为x%,或略小的值,以获取能检验到提升值所需要的样本量。支持设置相对值或绝对值。
关于MDE的详细介绍可参见下文的概念参考文档校验灵敏度MDE

实验版本个数

根据后续开展实验时所需的实验版本数(含对照组)进行配置。取值范围为2~20。

预设参数

预设参数可使用平台默认值。

  • 统计功效power(1-β):多大概率能检查出版本差异。假设两组实际是有差异的,统计结果有多大概率能检验出显著性。默认80%,支持调整为50%、80%、90%、99%、99.99%。
  • 统计显著性(α):无差异的版本多大概率判定无显著结论。假设两组实际没有差异,统计结果有多大概率会错误地给出显著结论(即犯第一类错误的概率)。默认5%,也支持1%、10%和20%。
  • 流量过滤比例:指能通过过滤条件用户数 / 不加过滤条件的实验进组用户数。当不过滤时,流量过滤比例则为100%。

更多统计功效power、统计显著性相关概念介绍请参见参考:相关概念文档

查看计算结果

  • 单组所需样本量:根据您配置的指标相关输入数据,流量计算器计算出的单个实验分组所需的样本量。
    例如:指标选择留存类这表,选80%统计功效 ,绝对差填1%,方差输入100,最后计算器输出的样本量 xxxx,
    背后的含义是如果AB版本间的留存的 真实差异 (绝对差异 A - B )是1% ,方差是100,希望在实验中以80%及以上的概率检测出这个差异,需要的 最低样本量 为 xxxx
  • 建议实验总流量:实验总流量比例 = 单组所需样本量 * 实验分组个数(含对照组) / 预计实验时长内触达累计总用户数。

参考:相关概念文档

指标方差

指标方差,实验版本内用户粒度层面的近期指标方差。
如何计算指标方差?

  • 人均值类的指标,例如pv/uv,您可以使用SQL标准函数计算指标方差(MySQL帮助说明请戳这里

    select  STD(total_cost)** 2
    from purchase_table
    group by user_id;
    
  • pv_ctr类的指标,例如,pv_ctr = sum(y) / sum(x) ,x和y需要已经按用户粒度聚合好,如sum( read ) / sum( impr ),您可以按照如下公式计算指标方差:
    Image
    其中,x、y的期望(μ)、方差(var)和协方差(cov)分别用impr和read的样本均值、样本方差、二者之间的样本协方差来替代。

校验灵敏度MDE

  • MDE是什么:Minimum Detectable Effect (MDE),最小可检测单位,即检验灵敏度,是实验在当前条件下有效检测的指标diff幅度。
    • 当前条件,指当前样本量,指标值和指标分布情况,并假设样本方差与总体指标方差足够接近。
    • 有效检测,指检出概率大于等于80%(type II error小于等于20%)。
  • MDE可以用来做什么:通过比较指标MDE与指标的目标提升率,来判断不显著的指标结论是否可信,可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束,错失有潜力的feature。
    假设您对某指标的预期目标提升率为1%
    • 如果此时MDE=0.5%,MDE < 预期提升值,在统计不显著的情况下,说明指标变化真的不显著,请结合业务ROI和其他维度里例如用户体验、长期战略价值等来综合判断是否值得上线;
    • 如果那此时MDE=2%,MDE > 预期提升值,说明当前能检验出显著性的最小差异值是2%,由于灵敏度(也就是校验效力)不足未能检测出。这种情况下建议增大样本量,例如扩大流量、再观察一段时间积累更多进组用户,指标还有置信的可能。
  • 如何设置:MDE越小,意味着您要求测试的灵敏度越高,所需的样本量也越大。
    • 如果MDE设置过于精细,不仅会浪费不必要的流量,同时实际收益可能不能弥补新策略的研发和推广成本。
    • 灵敏度不足(比如预期1%就达标,但实验灵敏度仅能检测5%及以上),可能会导致错失有潜力的feature。

    说明

    通常实验指标为提升/降低xx(某个业务指标值),那MDE建议以小于这个指标值来进行估算,尽量避免MDE取值较大,无法检测出真实的实验结果。

更多关于MDE的介绍请见资源中心

统计功效power(1-β)

抽样误差

  • 为了尽可能避免错误的策略给用户带来影响 ,我们在做实验时只会调取总体流量中的一小部分。因此,A/B实验存在着抽样这一步骤。尽管我们想尽办法,希望保持样本流量和总体流量分布一致,但抽样所产生的误差总归无法避免。这就意味着,我们通过抽样收集数据,对于“原假设”、“备择假设”的检验结果不可能是100%准确的。
  • 通过统计学理论,我们可以知道在检验的过程中,我们可能会犯什么错,以及有多大几率犯错。统计学告诉我们,在假设检验的过程中,我们可能犯两种错误,它们分别被称为第一类错误(弃真)和第二类错误(取伪)。

第二类错误

第二类错误,指原假设错误(伪),但是我们假设检验的结论却显示“原假设正确(真)、备择假设是错误的”,这一过程中我们接受了错误(伪)的原假设,所以第二类错误是“取伪”

  • 在实际操作中表现为:我的新策略其实有效,但实验没能检测出来。

在统计学中,我们用β来描述实验者犯第二类错误的概率。

统计功效power

统计功效power = 1 - 第二类错误的概率(β),统计功效在现实中表现为:假设我的新策略是有效的,我有多大概率在实验中检测出来。

统计显著性(1-α)

第一类错误

由上文可知,A/B实验不可避免的存在抽样误差,我们把——原假设正确(真),但是我们假设检验的结论却显示“原假设错误(伪)、备择假设是正确的”——这类错误定义为第一类错误,这一过程中我们拒绝了正确(真)的原假设,所以第一类错误是“弃真”

  • 在实际操作中表现为:实验结论显示我的新策略有用,但实际上我的新策略没有用。

在统计学中,我们用显著性水平(α)来描述实验者犯第一类错误的概率。
当某个实验组的指标是显著的,说明这个实验结果有一定信心是可信的。例如,显著性水平是95%,也就是说,系统有95%的信心确认这个实验结果是准确的。

统计显著性

统计显著性=1 - 第一类错误的概率(α),也称“置信水平、置信度、置信系数”,它的存在是为了描述实验结果的可信度。
「A/B 测试」把置信度参数默认值设置为95%,集团管理和应用管理员可以在“系统设置-置信水平设置”根据需求进行调整。

显著性水平存在的意义

举个例子,一个按钮从蓝色改成红色,一个窗口从左边移到右边,到底用户体验会变好还是变差呢?我们并不确定,因此我们试图使用A/B实验的办法,帮助我们转化这种“不确定”——观察小流量实验中新旧策略的表现,从而确定新旧策略的优劣。
但是,这样就能完全消除不确定性了吗?
——答案是不能,因为存在抽样误差。举个例子,假设X国人均收入为Y国的十倍,那么随机抽三个X国人和三个Y国人,能保证样本里这三个X国人的平均收入是三个Y国人的十倍吗?,显然答案是不确定的,有可能随机抽取的三个Y国人是Y国首富TOP1、TOP2和TOP3,这种由于抽取样本导致的误差即为抽样误差。
反过来想,假设在1%的流量下,组A(按钮呈红色)比组B(按钮呈现蓝色)购买率高,将流量扩大至100%,能保证策略A的表现仍旧比策略B出色吗?——显然答案也还是不确定。
抽样误差带来的不确定性,使得我们在做小流量实验时,永远没法保证结论是完全正确的。幸运的是,对于抽样的不确定性,在统计学中,我们有一套方法来量化这种不确定性到底有多大,这便是显著性水平(α)存在的意义。