本文档,将按照「A/B 测试」实验报告的分析逻辑,逐步为大家讲解:「A/B 测试」上的统计数据有哪些、怎么看,遇到不显著的情况应该怎么办,以及如何撰写实验报告。
实验开启且实验相关数据出来后,在查看实验报告并解读实验数据前,您需要前完成以下准备工作。
您需要先了解实验相关指标数据的统计口径。DataTester的实验数据的统计方式为多天累计数据,此方式的统计口径和优势简介如下,详情可查看报告页累计趋势文档。
细分 | 详情 |
---|---|
统计口径 | 多天累计的方式进行数据统计。 |
优势 |
|
通常,在开展A/B实验前的产品新feature立项阶段,业务人员已经非常明确feature的优化目标和评估指标了,并在开发feature的同时基于此目标和评估标准设计了A/B实验,想要通过A/B实验验证你心中的答案:我的feature有没有效?如果有效那么对目标指标的提升有多少?
既然想要通过A/B实验获得定性+定量的答案,那自然在评估实验之前要根据你的feature的优化目标制定你的评估标准:实验的评估指标和预期提升值,即新feature跟其有直接或间接因果关系的指标以及预期会有多大影响。而不是实验懵懵懂懂做完后完全以数据结果来判断。
在「A/B 测试」中,可以设置某个实验的「核心指标」以及各个实验的「必看指标」。
指标类型 | 指标意义 |
---|---|
核心指标 | 用来决策实验功能是否符合预期的「直接效果指标」或「成功指标」。比如一个关于引导页按钮文案优化的实验,该按钮点击的「转化率」即可作为该实验的决策指标。 |
必看指标 | 必须守护的业务线指标,实验功能可能对其无直接的因果关联、无法直接带来提升,但一般而言不能对其有显著负向影响。 |
通常在创建A/B实验时,已经将核心指标设置为实验核心指标;必看指标设置为实验关注指标。您可以在实验详情页面确认实验的配置结果;在数据指标页面看到对应实验指标的列表。
一般而言,我们建议实验至少运行满一个自然周期(7天)再来观测数据,当然实验周期取决于实验产生效果的时长。
例如对于指标的影响较为灵敏、可在短时间看到立竿见影的效果的feature(比如一些推荐策略)就可以更快获得实验结果;而一些旨在提升长期留存的实验feature需要更久的实验周期来评估效果。
DataTester为实验提供了多维度的结果数据,包括实验进组人数、实验指标的绝对数值/差异绝对值/差异相对值、置信区间/P-Value。
实验报告页面 | 数据指标页面 |
---|---|
您可以在实验报告页面快速查看实验的进组人数、核心指标的相关数据和趋势图,对当前实验的指标结果有个快速了解。 | 您可以在数据指标页面查看各个指标(可选择核心指标和关注指标)的详细数据和趋势图,指标组视图下还可以切换差数值的类型。 |
术语 | 概念含义 | 对实验结果的影响 |
---|---|---|
进组人数 | 该实验版本进组人数(即参与实验的用户数量)。进组用户数据为次日T+1数据,即1号的进组用户数据将在2号展示在报告概览中,进组用户数的详细口径说明详情请参见实验进组用户口径说明。 |
|
绝对数值 | 指的是实验组或对照组中某个关键指标的具体数值,例如转化率、点击率、平均交易额等。 | 绝对取值直接展示了在实验条件下该指标的表现水平,但并不直接反映实验处理效果的大小或方向,也不体现与另一组相比的变化情况。 |
差异绝对值/差异相对值 |
例如,如果实验组的转化率为10%,对照组为8%,那么差异绝对值为2%;差异相对值计算为(10% - 8%) / 8% = 25%。 |
|
置信区间/P-value |
总结而言,置信区间提供了一个区间范围,直观展示了估计的不确定性;而P-Value是一个单一的概率值,用于检验假设。两者都可以作为判断实验结果是否显著的依据,但置信区间提供了更多关于效应大小和方向的信息,而P-Value仅表明结果的意外程度。 | |
MDE | Minimum Detectable Effect最小可检测单位(检验灵敏度),在当前条件下能有效检出置信度的diff幅度。 说明 通常实验指标为提升/降低xx(某个业务指标值),那MDE建议以小于这个指标值来进行估算,尽量避免MDE取值较大,无法检测出真实的实验结果。更多MDE的介绍请参见基本概念中的校验灵敏度MDE部分。 | MDE对于实验结果不显著和预估实验流量方面有影响:
|
支持查看对应指标数据的天级趋势、概率分布、箱型图,如下:
天级趋势 | 概率分布 | 箱型图 |
---|---|---|
跟你的预期提升值比比看:
No.1 置信度
No.2 置信区间
上图统计卡片中置信区间[16.801%,23.297%]给出的是实验组上线后指标预期变化的区间估计值,区间估计值有更大的可能性覆盖到指标相对变化的真实值(假设做100次实验,有95次算出的置信区间包含了真实值)。
说明
我们AB实验的置信区间的计算逻辑可参见双样本置信区间计算说明。
如果我关注的指标不显著怎么办?feature就真的没有用吗?别急,说不定还有反转呢。尤其是以下几种情况更不要着急下结论:
MDE如何使用?
通过比较 MDE与指标的目标提升率来 判断不显著的结论是否solid,可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束,错失有潜力的feature。
假设你对该指标的预期目标提升率为1%
得到数据结果其实也只能算完成了80%,更重要的是通过A/B实验探索清楚真实数据和你假设之间的未知。
这时就需要业务同学对实验数据进行进一步分析了,您可以进入DataTester的高级分析页面,对实验结果数据进行属性过滤或群体对比,进行下钻分析。详情请参见高级分析:群体对比与差异分析、高级分析:同期群分析。
在实验报告页面,DataTester基于假设检验理论针对实验结果对比、提供结论性的推断。如下:
如果没有结论,其实也是一种结论。只能说明在当前时间、用户量等条件下的检验灵敏度无法验证出差异。实验期间的指标增幅并不能代表全量上线后的增幅。
不要囿于数据,用户反馈、用户调研、厂商评价,都可以辅助判断feature价值,实验只是一种途径要避免把AB实验报告变成统计报告,对于feature的增益,需要细化拆解研究,洞悉其深层次的原因。