You need to enable JavaScript to run this app.
导航
A/B实验怎么开
最近更新时间:2024.11.08 16:00:14首次发布时间:2023.05.24 15:11:21

在熟悉了什么是A/B实验之后,一起来看看A/B实验应该怎么开吧!

制定目标

明确北极星目标

对于任何一家 公司来说(不管是互联网公司还是传统公司),都有一个最重要的业务发展指标——“北极星指标“(North Star Metric),也称“唯一重要指标”(OMTM,One Metric That Matters)。
通常北极星指标需要包含四大特点:

  • 能够反映产品为用户提供的 核心*价值;
  • 能够衡量用户的 活跃*程度;
  • 易于被团队理解;
  • 能够反应企业整体上是否成功。

对于一些成熟行业,北极星指标已经相对固定,比如:

核心 价值

北极星指标

为用户提供物有所值的商品和互动式购物体验

GMV(商品交易总额)

让用户高效地获得值得信赖的答案

问题回答数

为用户提供高 品质 居住产品与生活服务

订单数

显然,北极星指标的制定是 企业 更为战略层面的工作,然而A/B测试不能绕开这一环。在北极星目标明确的前提下, 企业 才能通过系统化的A/B实验实现快速迭代和增长。

细化指标

确定了北极星目标,各个业务团队需要分领属于自己的任务,这里便涉及到将北极星指标拆解为可执行的具体指标。拿电商平台做个例子,假如我设定2019年的GMV是300万美元,那么我们可以将这个北极星目标逐步拆解,例如:
Image
在北极星指标被细化后,各个部门便可以围绕细化后的具体指标,开展有针对性的实验。

建立假设

在明确目标之后,增长团队应该着手分析早期数据,并从数据中找到增长的可能。这一过程需要产品经理、运营经理和技术研发共同探讨完成。
分析结束后,团队需要提出假设,如:将购买页面主色调从蓝色改为红色能够将用户购买率提升3%。值得注意的是,我们所做出的假设必须包含两方面:第一是 提出新策略 ,“购买页面主色调从蓝色改为红色”,这决定了实验中我们要如何配置实验参数;第二是 确切的提升值 ,如“用户购买率提升3%”,这决定了应该有多少用户进入实验。
在A/B实验中,用指标的“预期值提升值”倒推实验流量,需要运用到复杂的统计学知识。然而,即使你并不了解这些知识,使用成熟的A/B实验工具——火山引擎A/B测试的“实验流量建议工具”这一功能,就可以轻松确定应进入实验的流量。详情请参见流量计算器

配置实验

明确了上述内容之后,接下来就该设置实验啦。以A/B测试为例,想要完整地设置好一个实验,我们需要关注以下几个方面:

Where 实验开在哪儿

这里所说的“开在哪儿”,指的是如何选择正确的实验层。
何谓“实验层”呢?“实验层”技术是为了让多个实验能够并行不相互干扰,且都获得足够的流量而研发的流量分层技术。
设想一下,假如我现在有4个实验要进行,每一个实验要取用30%的流量才能够得出可信的实验结果。此时为了同时运行这4个实验就需要4*30%=120%的流量,这意味着 100% 的流量不够同时分配给这4个实验。那么此时我只能选择给实验排序,让几个实验先后完成。但这会造成实验效率低下。试想一下,许多大型互联网公司每年有上万个实验要进行,如果只能排队挨号,实验恐怕可以排到9012年。
那么有没有办法可以解决这个问题呢?
有,就是使用实验层技术,把总体流量“复制”无数遍,形成无数个流量层,让总体流量可以被无数次复用,从而提高实验效率。各层之间的流量是 正交 的,你可以简单理解为:在流量层选择正确的前提下,流量经过科学的分配,可以保证各实验的结果不会受到其他层实验的干扰。
Image
在选择实验层的时候,我们要遵循的规则是:假如实验之间 有相关性 ,那么实验 必须置于同一层 ;假如实验之间 没有相关性 ,那么实验 可以置于不同层

When 实验开多久

基于一些统计学原理,实验开设得过长或过短都不利于实验结果的可信度。通常实验时长要与产品的“数据特征周期”一致。如何理解呢?比如某 直播 类app产品,用户在周一到周五的 活跃 度较低,在周末 活跃 度较高,以一个自然周为周期,不断循环。那么这一 直播 产品在做A/B实验时,通常应该将时长设置为一周。

Who 谁进入实验

实验中,我们要对进入实验的流量大小做出设置。通常在实验的初始阶段,我们倾向于先分配较少的流量(如1%)进入实验。如果初期实验结果一切正常,那么可以进一步加大流量;假如实验数据出现巨大的异常,那么可以随时将实验终止。小流量可以最低程度减少实验异常对用户体验的影响。
除了对流量大小进行设置之外,我们还可以添加限制条件,对进入实验的用户进行过滤,比如只看“安卓用户”、只看“北京地区用户”等等。这部分过滤条件通常需要由实验发起者和分析师共同确认。

Metric 关注的指标

确定哪些指标是我们所关注的。再来看看前文中我们做出的假设:将购买页面主色调从蓝色改为红色能够将用户购买率提升3%。在这一实验中,“用户购买率”必定是我们的关注的指标,并且是我们的“ 目标指标 ”。除此之外,我们还应该关注一些产品常关注的重要数据指标,用以 观察 实验中的新策略会否对其他重要指标产生负面影响。

How 实验配置参数

配置参数实际上是一串代码,这串代码决定了进入实验的用户,其体验到的产品会有什么不同。仍旧用前文中的假设做例子,如果我假设“将购买页面主色调从蓝色改为红色能够提升用户购买率”,那么在实验中,我的下发的配置参数就应该让实验组用户的购买页面色调呈现为红色。这些参数的具体代码需要与产品的研发进行确认。

前期测试

在经过上述的步骤,我们的实验就已经基本设置好了。但在我们并不应急于开启实验,还应当对实验进行前期测试。
测试时,我们会将“测试用户”添加白名单之中,并在测试用户的手机/电脑上中 观察 实验配置是否能够正常生效(如购买页面的颜色改变是否可以正常显示)、客户端/网页会否崩溃、实验数据能否正确上报等。

在实验正式开启之前,通常需要先选择几名用户进入测试阶段,观察实验是否能够正常获取想要收集的数据,或客户端是否有bug等。参与这一步的用户被称为“白名单用户”。
Image

评估结果

实验结果需要从两方面评估:第一是数据结果的涨跌;第二是判断是否可以相信数据结果,即结果是否“显著”。
数据的涨跌自不必多言,如何理解数据是否显著呢?
我们知道,A/B实验是一种小流量实验,我们需要从总体流量中抽取一定量的样本来验证新策略是否有效。抽样过程中,样本并不能完全代表整体。样本分布不均导致实验结果可能出现一种情况——我采取的策略其实没用,但是实验结果显示策略有效。
统计学告诉我们,这种错误不可能完全避免,但是我们可以通过一些统计学方法,在得出实验数据结果的过程中,计算上述错误发生的概率。换句话说,我们可以判断我们的实验有百分之多少的概率是可信的。
根据业界的公认标准,在A/B实验中,如经统计学计算,实验数据结果有95%以上的概率可信,我们便称数据结果是显著的。这样的数据结果才能够用于判断实验假设是否成立。
在A/B测试平台中,我们用数据报告中的颜色来表示数据是否显著。
为了便于判断,「A/B 测试」在数据表格中直接使用颜色直观给出显著性。绿色指的是该指标相对于对照组为正向显著、红色为负向显著、黑色为不显著。
Image
除此外,火山引擎A/B测试还提供了置信区间、P-value、MDE、概率分布势等丰富的统计指标,可以进行进一步的 定量分析。如想了解更多,欢迎阅读[如何看懂实验报告]