如何看懂实验报告--A/B测试（DataTester）私有化-火山引擎

文档中心

立即注册

导航

如何看懂实验报告

最近更新时间：2024.06.05 10:36:42首次发布时间：2023.06.09 16:02:36

本文档，将按照「A/B 测试」实验报告的分析逻辑，逐步为大家讲解：「A/B 测试」上的统计数据有哪些、怎么看，遇到不显著的情况应该怎么办，以及如何撰写实验报告。

一. 为什么要用多天累计数据评估实验

首先，多天累计的用户数，即是实验期间累计进组并进行去重后的用户数，累计用户相比于单天的用户更能保证各组的样本是「同质可比」的；
其次，多天累计使得实验获得了更多的样本，这意味着随着实验的进行，实验的检验灵敏度在不断提高，相比于多天平均更易检验出受影响指标的显著性；
同时，按照多天累计逻辑进行统计计算的指标，可以直接计算实验期间指标变化率的置信度，实验结论更科学可靠。

二. 解读多天累计数据报告

在新feature立项阶段，想必各位同学已经非常明确feature的优化目标和评估指标了，并在开发feature的同时基于此目标和评估标准设计了实验，想要通过A/B实验验证你心中的答案：我的feature有没有效？如果有效那么对目标指标的提升有多少？

1. 确定评估指标

既然想要通过A/B实验获得定性+定量的答案，那自然在评估实验之前要根据你的feature的优化目标制定你的评估标准：实验的评估指标和预期提升值，即新feature跟其有直接或间接因果关系的指标以及预期会有多大影响。而不是实验懵懵懂懂做完后完全以数据结果来判断。
在「A/B 测试」中，可以设置某个实验的「核心指标」以及各个实验的「必看指标」。

核心指标：用来决策实验功能是否符合预期的「直接效果指标」或「成功指标」。比如一个关于引导页按钮文案优化的实验，该按钮点击的「转化率」即可作为该实验的决策指标。
必看指标：必须守护的业务线指标，实验功能可能对其无直接的因果关联、无法直接带来提升，但一般而言不能对其有显著负向影响。

2. 分析指标的数据表现

2.1 何时来看？

一般而言，我们建议实验至少运行满一个自然周期（7天）再来观测数据，当然实验周期取决于实验产生效果的时长。
例如对于指标的影响较为灵敏、可在短时间看到立竿见影的效果的feature（比如一些推荐策略）就可以更快获得实验结果；而一些旨在提升长期留存的实验feature需要更久的实验周期来评估效果。

2.2 有哪些数据？

以下以详细视图为例，在下图所示的数据报告中提供以下基本信息，可以帮我们了解指标变化的基本情况：

进组人数：该实验版本进组人数。
绝对数值：该指标在各组中的绝对数值。
差异绝对值：当前实验版本相对基准版本（对照版本）的绝对差异。
差异相对值：当前实验版本相对基准版本（对照版本）的绝对差异/基准版本值。
置信区间：由样本统计量构成的总体参数的估计区间。
P-value：在原假设为真的前提下随机抽取样本出现极端情况的概率。当p-value<1-置信度水平，认为统计显著。
MDE：Minimum Detectable Effect最小可检测单位（检验灵敏度），在当前条件下能有效检出置信度的diff幅度。

还支持查看概率分布、盒须快照、天级趋势，如下：

2.3 指标变化符合预期吗？

跟你的预期提升值比比看：

如果不符合预期，ROI是否值得就需要业务综合评估了；
如果符合预期，就继续往下评估结果的可信度。

2.4 指标提升是显著的吗？

定性判断 ：为了便于判断，「A/B 测试」在数据表格中直接用底色直观给出显著性。绿色指的是该指标相对于对照组为正向显著、红色为负向显著、黑色为不显著。

定量分析 ：如果想要了解定量的置信度，可以点击数据所在格子唤醒统计卡片，通过P-value大小和置信区间进行定量分析。

No.1 置信度

P-value展示了该指标在本次实验中犯第一类错误的概率，通常我们将犯第一类错误的概率小于显著性水平（通常取显著性水平 α = 0.05），即p-value < 0.05时在统计学中定义为显著，置信度为(1-显著性水平)=95%。
p-value越小越可信，有显著差异的指标，P-value=0.01的比P-value=0.05的可信度更高。

No.2 置信区间
上图统计卡片中置信区间[16.801%，23.297%]给出的是实验组上线后指标预期变化的区间估计值，区间估计值有更大的可能性覆盖到指标相对变化的真实值（假设做100次实验，有95次算出的置信区间包含了真实值）。

可以这样简单但不严谨地解读置信区间：假设策略全量上线，你有95%的把握会看到真实的指标收益在[16.801%，23.297%]这个范围内。
置信区间越窄且不包含0，可信度就越高。

2.5 不显著怎么办？

如果我关注的指标不显著怎么办？feature就真的没有用吗？别急，说不定还有反转呢。尤其是以下几种情况更不要着急下结论：

实验总样本比较小
指标对应的用户行为渗透率低
实验时长较短
指标对实验功能不敏感

MDE如何使用？
通过比较指标 MDE与指标的目标提升率来 判断不显著的结论是否solid，可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束，错失有潜力的feature。
假设你对该指标的预期目标提升率为1%

如果此时MDE=0.5%， MDE ＜ 预期提升值 ，说明指标变化真的不显著，请结合业务ROI和其他维度里例如用户体验、长期战略价值等来综合判断是否值得上线；
如果那此时MDE=2%， MDE ＞ 预期提升值 ，说明当前能检验出显著性的最小差异值是2%，由于灵敏度（也就是校验效力）不足未能检测出。这种情况下建议增大样本量，例如扩大流量、再观察一段时间积累更多进组用户，指标还有置信的可能。

3. 解读指标变化原因

得到数据结果其实也只能算完成了80%，更重要的是通过A/B实验探索清楚真实数据和你假设之间的未知。

如果数据增长，那真实原因是否跟你预期的一致？
如果没有效果甚至更糟有没有发现问题和原因、下一步如何优化？

这时就需要业务同学对实验数据进行进一步分析了，比如可以进行多维下钻分析。

4. 实验结论

在实验概览区域，「A/B 测试」基于假设检验理论针对实验结果对比、提供结论性的推断。如下：

如果没有结论，其实也是一种结论。只能说明在当前时间、用户量等条件下的检验灵敏度无法验证出差异。实验期间的指标增幅并不能代表全量上线后的增幅。

检验只能确定是否有显著差异，并不能保证差异幅度。全量上线和实验期间，实际上时间变量不一致。
我们只能认为，样本量足够大的情况下，统计值接近“真实值”（大数定律）。

不要囿于数据，用户反馈、用户调研、厂商评价，都可以辅助判断feature价值，实验只是一种途径要避免把AB实验报告变成统计报告，对于feature的增益，需要细化拆解研究，洞悉其深层次的原因。

三. 相关视频

你可以参考以下解读实验报告的视频来快速了解报告页的功能。