流量计算器--A/B测试（DataTester）私有化-火山引擎

文档中心

导航

流量计算器

最近更新时间：2025.03.05 10:18:57首次发布时间：2023.06.09 16:02:40

概述

对于新手用户，在开启实验时往往对于分配多少线上流量缺少经验性的判断，从而影响实验结果。
「A/B 测试」提供实验流量推荐工具，通过设定一系列的目标参数，推荐线上流量分配比例。假定新策略对核心指标在真实场景能带来提升，使用流量推荐工具能帮助用户在一次实验中就可得到显著的结果。

应用场景

实验流量越大，统计功效越大，也就是说：假定一个实验对指标是有真实提升的，那么充足的流量有更大概率在一次实验中得到显著的结果。
但是，为了更大的统计功效，实验使用过多流量开也不可取。默认取统计功效为80%，因为：
- 浪费流量 ：线上流量是宝贵的，通常同一互斥组会有多个迭代同时进行，一个占据10%流量就能满足统计功效的实验，如果把流量开到100%显然浪费。
- 若实验负向，带来不必要的线上损失 ：实验中常常会测试新的策略，新策略相比老策略通常有更大的风险，一旦出现问题，小流量实验影响面更小。
- 显著性更敏感，但实验实际的收益可能并不能打平feature的成本 ：虽然结果获得微小的正向显著，但实验ROI较低，长此以往对于产品来讲并不是好事，相当于用显微镜观察实验组和对照组，它们终归是不一样的，如果得到0.001%的统计显著，这真的是有意义的吗？因此，在开实验时建议大家根据实验的预期指标收益，计算所需的实验流量，并根据MAU折算为实验流量。开实验按照此建议实验流量大小进行设置即可。

使用流量计算器

在新建实验第二步「设置生效策略」，点击“流量计算器”，即可弹出流量建议工具页面，如下图：

录入指标信息

DataTester将会根据指标的历史运行情况，为您提前计算历史均值。若未能自动依据最近数据产出预计算结果，或您需要更灵活的配置计算数据，您可以手动填写。

选择预计算指标

参数	配置说明
选择指标	在下拉框中选择实验指标。您可以根据实验目的，分别选择实验的核心指标、关注指标，分别使用流量计算器预估一下所需的样本量，最终的流量取其中的最大值，以保障实验的核心指标、关注指标数据的有效产出都有足够的流量。
预计实验天数	当前默认为7天。
预计算数据	DataTester根据所选指标的历史运营情况，基于多天累计数据进行计算出来的预估总样本量、指标均值、指标方差值。预估总样本量（累计）：预计实验周期内（当前为7天），指标计算对应的去重累积样本量。指标均值（累计）：预计实验周期内的指标均值，基于累计数据计算。指标方差（累计）：预计实验周期内用户粒度的的指标方差值，基于累计数据计算。

参数

配置说明

选择指标

在下拉框中选择实验指标。您可以根据实验目的，分别选择实验的核心指标、关注指标，分别使用流量计算器预估一下所需的样本量，最终的流量取其中的最大值，以保障实验的核心指标、关注指标数据的有效产出都有足够的流量。

预计实验天数

当前默认为7天。

预计算数据

DataTester根据所选指标的历史运营情况，基于多天累计数据进行计算出来的预估总样本量、指标均值、指标方差值。

预估总样本量（累计）：预计实验周期内（当前为7天），指标计算对应的去重累积样本量。
指标均值（累计）：预计实验周期内的指标均值，基于累计数据计算。
指标方差（累计）：预计实验周期内用户粒度的的指标方差值，基于累计数据计算。

手动填写

参数	配置说明
指标类型	根据后续实验的指标类型，选择对应的指标类型。不同指标类型对应的方差、样本量计算公式会有差异，当前支持：人均值：累加值/人数，例如人均金额，人均次数留存：留存人数/人数，也是一种uv_ctr，和uv_ctr公式一样 uv_ctr：人数的转化率，例如转化人数/进组人数 pv_ctr：累加值/累加值，例如转化次数/点击次数说明求和类指标建议转化为人均指标。
预估总样本量（累计）	预计实验周期内的累计去重样本量（进组人数），实际主要用于计算“建议实验总流量”比例。
指标均值（累计）	预计实验周期内的指标均值。估算该指标在实验周期内的累计均值。留存类指标的累计均值可以按进组日期拆分计算后进行累加，也可以直接根据整体留存估计。
指标方差（累计）	预计实验周期内用户粒度的的指标方差值。更多指标方差的介绍详情请参见下文的参考：相关概念。

设置测试精度

参数	配置说明
期望检测指标的最小变化	即MDE（minimum detectable effect，minimum detectable effect），也就是实验的灵敏度。如果一个实验业务预期可以提升x%，这里的MDE可以设置为x%，或略小的值，以获取能检验到提升值所需要的样本量。支持设置相对值或绝对值。关于MDE的详细介绍可参见下文的概念参考文档校验灵敏度MDE 章节。
实验版本个数 & 修正多重比较	根据后续开展实验时所需的实验版本数（含对照组）进行配置。取值范围为2~20。当实验版本数多于2时，会出现由于多重比较导致指标犯错了上升的情况，此时您可打开修正多重比较开关，打开后，后续会自动为您修正由于多重比较带来的问题。更多关于多重比较的介绍请参见下文的多重比较。
预设参数	预设参数可使用平台默认值。统计功效power（1-β）：多大概率能检查出版本差异。假设两组实际是有差异的，统计结果有多大概率能检验出显著性。默认80%，支持调整为50%、80%、90%、99%、99.99%。统计显著性（α）：无差异的版本多大概率判定无显著结论。假设两组实际没有差异，统计结果有多大概率会错误地给出显著结论（即犯第一类错误的概率）。默认5%，也支持1%、10%和20%。流量过滤比例：指能`通过过滤条件用户数 / 不加过滤条件的实验进组用户数`。当不过滤时，流量过滤比例则为100%。更多统计功效power、统计显著性相关概念介绍请参见参考：相关概念。

参数

配置说明

期望检测指标的最小变化

即MDE（minimum detectable effect，minimum detectable effect），也就是实验的灵敏度。如果一个实验业务预期可以提升x%，这里的MDE可以设置为x%，或略小的值，以获取能检验到提升值所需要的样本量。支持设置相对值或绝对值。
关于MDE的详细介绍可参见下文的概念参考文档校验灵敏度MDE 章节。

实验版本个数 & 修正多重比较

根据后续开展实验时所需的实验版本数（含对照组）进行配置。取值范围为2~20。
当实验版本数多于2时，会出现由于多重比较导致指标犯错了上升的情况，此时您可打开修正多重比较开关，打开后，后续会自动为您修正由于多重比较带来的问题。更多关于多重比较的介绍请参见下文的多重比较。

预设参数

预设参数可使用平台默认值。

统计功效power（1-β）：多大概率能检查出版本差异。假设两组实际是有差异的，统计结果有多大概率能检验出显著性。默认80%，支持调整为50%、80%、90%、99%、99.99%。
统计显著性（α）：无差异的版本多大概率判定无显著结论。假设两组实际没有差异，统计结果有多大概率会错误地给出显著结论（即犯第一类错误的概率）。默认5%，也支持1%、10%和20%。
流量过滤比例：指能通过过滤条件用户数 / 不加过滤条件的实验进组用户数。当不过滤时，流量过滤比例则为100%。

更多统计功效power、统计显著性相关概念介绍请参见参考：相关概念。

查看计算结果

单组所需样本量：根据您配置的指标相关输入数据，流量计算器计算出的单个实验分组所需的样本量。
例如：指标选择留存类这表，选80%统计功效，绝对差填1%，方差输入100，最后计算器输出的样本量 xxxx，
背后的含义是如果AB版本间的留存的 真实差异 （绝对差异 A - B ）是1% ，方差是100，希望在实验中以80%及以上的概率检测出这个差异，需要的 最低样本量 为 xxxx 。
建议实验总流量：实验总流量比例 = 单组所需样本量 * 实验分组个数（含对照组） / 预计实验时长内触达累计总用户数。

参考：相关概念

指标方差

指标方差，实验版本内用户粒度层面的近期指标方差。
如何计算指标方差？

人均值类的指标，例如pv/uv，您可以使用SQL标准函数计算指标方差（MySQL帮助说明请戳这里）
```
select  STD(total_cost)** 2
from purchase_table
group by user_id;
```
pv_ctr类的指标，例如，pv_ctr = sum(y) / sum(x) ，x和y需要已经按用户粒度聚合好，如sum( read ) / sum( impr )，您可以按照如下公式计算指标方差：

其中，x、y的期望（μ）、方差（var）和协方差（cov）分别用impr和read的样本均值、样本方差、二者之间的样本协方差来替代。

校验灵敏度MDE

MDE是什么：Minimum Detectable Effect (MDE)，最小可检测单位，即检验灵敏度，是实验在当前条件下能有效检测的指标diff幅度。
- 当前条件，指当前样本量，指标值和指标分布情况，并假设样本方差与总体指标方差足够接近。
- 有效检测，指检出概率大于等于80%（type II error小于等于20%）。
MDE可以用来做什么：通过比较指标MDE与指标的目标提升率，来判断不显著的指标结论是否可信，可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束，错失有潜力的feature。
假设您对某指标的预期目标提升率为1%
- 如果此时MDE=0.5%，MDE ＜预期提升值，在统计不显著的情况下，说明指标变化真的不显著，请结合业务ROI和其他维度里例如用户体验、长期战略价值等来综合判断是否值得上线；
- 如果那此时MDE=2%，MDE ＞预期提升值，说明当前能检验出显著性的最小差异值是2%，由于灵敏度（也就是校验效力）不足未能检测出。这种情况下建议增大样本量，例如扩大流量、再观察一段时间积累更多进组用户，指标还有置信的可能。
如何设置：MDE越小，意味着您要求测试的灵敏度越高，所需的样本量也越大。
- 如果MDE设置过于精细，不仅会浪费不必要的流量，同时实际收益可能不能弥补新策略的研发和推广成本。
- 灵敏度不足（比如预期1%就达标，但实验灵敏度仅能检测5%及以上），可能会导致错失有潜力的feature。
说明
通常实验指标为提升/降低xx（某个业务指标值），那MDE建议以小于这个指标值来进行估算，尽量避免MDE取值较大，无法检测出真实的实验结果。

统计功效power（1-β）

抽样误差

为了尽可能避免错误的策略给用户带来影响，我们在做实验时只会调取总体流量中的一小部分。因此，A/B实验存在着抽样这一步骤。尽管我们想尽办法，希望保持样本流量和总体流量分布一致，但抽样所产生的误差总归无法避免。这就意味着，我们通过抽样收集数据，对于“原假设”、“备择假设”的检验结果不可能是100%准确的。
通过统计学理论，我们可以知道在检验的过程中，我们可能会犯什么错，以及有多大几率犯错。统计学告诉我们，在假设检验的过程中，我们可能犯两种错误，它们分别被称为第一类错误（弃真）和第二类错误（取伪）。

第二类错误

第二类错误，指原假设错误（伪），但是我们假设检验的结论却显示“原假设正确（真）、备择假设是错误的”，这一过程中我们接受了错误（伪）的原假设，所以第二类错误是“取伪”。

在实际操作中表现为：我的新策略其实有效，但实验没能检测出来。

在统计学中，我们用β来描述实验者犯第二类错误的概率。

统计功效power

统计功效power = 1 - 第二类错误的概率（β），统计功效在现实中表现为：假设我的新策略是有效的，我有多大概率在实验中检测出来。

统计显著性（1-α）

第一类错误

由上文可知，A/B实验不可避免的存在抽样误差，我们把——原假设正确（真），但是我们假设检验的结论却显示“原假设错误（伪）、备择假设是正确的”——这类错误定义为第一类错误，这一过程中我们拒绝了正确（真）的原假设，所以第一类错误是“弃真”。

在实际操作中表现为：实验结论显示我的新策略有用，但实际上我的新策略没有用。

在统计学中，我们用显著性水平（α）来描述实验者犯第一类错误的概率。
当某个实验组的指标是显著的，说明这个实验结果有一定信心是可信的。例如，显著性水平是95%，也就是说，系统有95%的信心确认这个实验结果是准确的。

统计显著性

统计显著性=1 - 第一类错误的概率（α），也称“置信水平、置信度、置信系数”，它的存在是为了描述实验结果的可信度。
「A/B 测试」把置信度参数默认值设置为95%，集团管理和应用管理员可以在“系统设置-置信水平设置”根据需求进行调整。

显著性水平存在的意义

举个例子，一个按钮从蓝色改成红色，一个窗口从左边移到右边，到底用户体验会变好还是变差呢？我们并不确定，因此我们试图使用A/B实验的办法，帮助我们转化这种“不确定”——观察小流量实验中新旧策略的表现，从而确定新旧策略的优劣。
但是，这样就能完全消除不确定性了吗？
——答案是不能，因为存在抽样误差。举个例子，假设X国人均收入为Y国的十倍，那么随机抽三个X国人和三个Y国人，能保证样本里这三个X国人的平均收入是三个Y国人的十倍吗？，显然答案是不确定的，有可能随机抽取的三个Y国人是Y国首富TOP1、TOP2和TOP3，这种由于抽取样本导致的误差即为抽样误差。
反过来想，假设在1%的流量下，组A（按钮呈红色）比组B（按钮呈现蓝色）购买率高，将流量扩大至100%，能保证策略A的表现仍旧比策略B出色吗？——显然答案也还是不确定。
抽样误差带来的不确定性，使得我们在做小流量实验时，永远没法保证结论是完全正确的。幸运的是，对于抽样的不确定性，在统计学中，我们有一套方法来量化这种不确定性到底有多大，这便

多重比较

以假设检验为理论依据的A/B实验，适用于AB两组进行对比的场景，能够帮助大家从A策略和B策略之中选择一个更好的：在95%的置信水平下，假设新策略没用，我们做一次对比，犯第一类错误（即我的策略没用，但实验结论显示我的策略有用）的概率是5%。但是，如果实验是AABB实验，或者ABCD实验，或者ABCDEFG实验等，那么情况就截然不同了——我们将面临多重比较问题：当实验组多于2组时，我们犯错的概率将大大增加，不再是5%。
以ABCD实验为例：假设策略A、B、C、D间没有明显差异，我们对ABCD两两对比，共计有6种组合，需要进行6次对比。6次对比中只要有一次犯错，我们的结论就算犯错，因此每个统计指标的犯错概率就变为了1-(1-5%)^6=26.5% ，远大于5%。
另外需要注意的一点是，假设检验以「AB没有明显差异」为原假设，B相对于A所得到的p-value，并不等同于B比A好的概率就是1-(p-value)。也正是因此，当存在多重比较的情况时（特别是各组策略没有明显的优劣差异甚至是旗鼓相当时），假设检验难以提供判断哪个策略最优的标准。以上两个问题大大增加了我们评估ABCD谁更优的难度以及决策出错的风险**。**
综上，假设检验在「多组择优」场景下并不适用，没法告诉你谁更好，犯错风险也更大。