You need to enable JavaScript to run this app.
导航
如何看懂实验报告
最近更新时间:2024.06.05 10:36:42首次发布时间:2023.06.09 16:02:36

本文档,将按照「A/B 测试」实验报告的分析逻辑,逐步为大家讲解:「A/B 测试」上的统计数据有哪些、怎么看,遇到不显著的情况应该怎么办,以及如何撰写实验报告。

一. 为什么要用多天累计数据评估实验
  • 首先,多天累计的用户数,即是实验期间累计进组并进行 去重 后的用户数,累计用户相比于单天的用户更能保证各组的样本是「同质可比」的;
  • 其次,多天累计使得实验获得了更多的样本,这意味着随着实验的进行,实验的检验灵敏度在不断提高,相比于多天平均更易检验出受影响指标的显著性;
  • 同时,按照多天累计逻辑进行统计计算的指标,可以直接计算实验期间指标变化率的置信度,实验结论更科学可靠。

二. 解读多天累计数据报告

在新feature立项阶段,想必各位同学已经非常明确feature的优化目标和评估指标了,并在开发feature的同时基于此目标和评估标准设计了实验,想要通过A/B实验验证你心中的答案:我的feature有没有效?如果有效那么对目标指标的提升有多少?

1. 确定评估指标

既然想要通过A/B实验获得定性+定量的答案,那自然在评估实验之前要根据你的feature的优化目标制定你的评估标准:实验的评估指标和预期提升值,即新feature跟其有直接或间接因果关系的指标以及预期会有多大影响。而不是实验懵懵懂懂做完后完全以数据结果来判断。
在「A/B 测试」中,可以设置某个实验的「核心指标」以及各个实验的「必看指标」。

  • 核心指标:用来决策实验功能是否符合预期的「直接效果指标」或「成功指标」。比如一个关于引导页按钮文案优化的实验,该按钮点击的「转化率」即可作为该实验的决策指标。
  • 必看指标:必须守护的业务线指标,实验功能可能对其无直接的因果关联、无法直接带来提升,但一般而言不能对其有显著负向影响。

2. 分析指标的数据表现

2.1 何时来看?

一般而言,我们建议实验至少运行满一个自然周期(7天)再来观测数据,当然实验周期取决于实验产生效果的时长。
例如对于指标的影响较为灵敏、可在短时间看到立竿见影的效果的feature(比如一些推荐策略)就可以更快获得实验结果;而一些旨在提升长期留存的实验feature需要更久的实验周期来评估效果。

2.2 有哪些数据?

以下以详细视图为例,在下图所示的数据报告中提供以下基本信息,可以帮我们了解指标变化的基本情况:

  • 进组人数:该实验版本进组人数。
  • 绝对数值:该指标在各组中的绝对数值。
  • 差异绝对值:当前实验版本相对基准版本(对照版本)的绝对差异。
  • 差异相对值:当前实验版本相对基准版本(对照版本)的绝对差异/基准版本值。
  • 置信区间:由样本统计量构成的总体参数的估计区间。
  • P-value:在原假设为真的前提下随机抽取样本出现极端情况的概率。当p-value<1-置信度水平,认为统计显著。
  • MDE:Minimum Detectable Effect最小可检测单位(检验灵敏度),在当前条件下能有效检出置信度的diff幅度。

图片
还支持查看概率分布、盒须快照、天级趋势,如下:
图片

2.3 指标变化符合预期吗?

跟你的预期提升值比比看:

  • 如果不符合预期,ROI是否值得就需要业务综合评估了;
  • 如果符合预期,就继续往下评估结果的可信度。

2.4 指标提升是显著的吗?

  • 定性判断 :为了便于判断,「A/B 测试」在数据表格中直接用底色直观给出显著性。绿色指的是该指标相对于对照组为正向显著、红色为负向显著、黑色为不显著。

图片

  • 定量分析 :如果想要了解定量的置信度,可以点击数据所在格子唤醒统计卡片,通过P-value大小和置信区间进行定量分析。

图片
No.1 置信度

  • P-value展示了该指标在本次实验中犯第一类错误的概率,通常我们将犯第一类错误的概率小于显著性水平(通常取显著性水平 α = 0.05),即p-value < 0.05时在统计学中定义为显著,置信度为(1-显著性水平)=95%。
  • p-value越小越可信,有显著差异的指标,P-value=0.01的比P-value=0.05的可信度更高。

No.2 置信区间
上图统计卡片中置信区间[16.801%,23.297%]给出的是实验组上线后指标预期变化的区间估计值,区间估计值有更大的可能性覆盖到指标相对变化的真实值(假设做100次实验,有95次算出的置信区间包含了真实值)。

  • 可以这样简单但不严谨地解读置信区间:假设策略全量上线,你有95%的把握会看到真实的指标收益在[16.801%,23.297%]这个范围内。
  • 置信区间越窄且不包含0,可信度就越高。

2.5 不显著怎么办?

如果我关注的指标不显著怎么办?feature就真的没有用吗?别急,说不定还有反转呢。尤其是以下几种情况更不要着急下结论:

  • 实验总样本比较小
  • 指标对应的用户行为渗透率低
  • 实验时长较短
  • 指标对实验功能不敏感

MDE如何使用?
通过比较指标 MDE与指标的目标提升率来 判断不显著的结论是否solid,可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束,错失有潜力的feature。
假设你对该指标的预期目标提升率为1%

  • 如果此时MDE=0.5%, MDE 预期提升值 ,说明指标变化真的不显著,请结合业务ROI和其他维度里例如用户体验、长期战略价值等来综合判断是否值得上线;
  • 如果那此时MDE=2%, MDE 预期提升值 ,说明当前能检验出显著性的最小差异值是2%,由于灵敏度(也就是校验效力)不足未能检测出。这种情况下建议增大样本量,例如扩大流量、再观察一段时间积累更多进组用户,指标还有置信的可能。

3. 解读指标变化原因

得到数据结果其实也只能算完成了80%,更重要的是通过A/B实验探索清楚真实数据和你假设之间的未知。

  • 如果数据增长,那真实原因是否跟你预期的一致?
  • 如果没有效果甚至更糟有没有发现问题和原因、下一步如何优化?

这时就需要业务同学对实验数据进行进一步分析了,比如可以进行多维下钻分析。
图片

4. 实验结论

在实验概览区域,「A/B 测试」基于假设检验理论针对实验结果对比、提供结论性的推断。如下:
图片
如果没有结论,其实也是一种结论。只能说明在当前时间、用户量等条件下的检验灵敏度无法验证出差异。实验期间的指标增幅并不能代表全量上线后的增幅。

  • 检验只能确定是否有显著差异,并不能保证差异幅度。 全量上线和实验期间,实际上时间变量不一致。
  • 我们只能认为,样本量足够大的情况下,统计值接近“真实值”(大数定律)。

不要囿于数据,用户反馈、用户调研、厂商评价,都可以辅助判断feature价值,实验只是一种途径要避免把AB实验报告变成统计报告,对于feature的增益,需要细化拆解研究,洞悉其深层次的原因。

三. 相关视频

你可以参考以下解读实验报告的视频来快速了解报告页的功能。