「A/B测试」的实验报告模块,基于假设检验理论针对实验结果对比、提供结论性的推断。报告概览的进组用户数据为次日T+1数据,即1号的进组用户数据将在2号展示在报告概览中。如下:
实验报告页面除了展示实验的基本结论外,还包含核心指标的具体表现以及对应的天级趋势图、概率分布图和箱型图(原盒须快照)
数据指标包含事件指标、留存指标以及漏斗指标三个大类
实验数据左侧指标导航将会分组展示本实验的所有「关注指标组」,推荐将一组关联使用的指标放在一个指标组中。默认展示「核心指标」所在的指标组,在导航选中某指标后,右侧视图会自动锚定至该指标组-指标所在位置
其它相关信息说明:
根据实验报告的时间颗粒度,展示某个指标的「天级趋势」、「时级趋势」、「分钟趋势」。 以「天级趋势」举例:
概率分布,展示的是指标的取值及其出现的概率分布,横轴是指标值,纵轴是指标值出现的概率密度,通过均值和方差反映指标的分布情况。实验组和对照组的概率分布对比,可辅助判断实验组和对照组的差异情况。
盒须快照,又称为箱型图,是通过数据的最大值、最小值、中位数和两个四分位数,反映原始数据分布特征。通过实验组和对照组的盒须快照对比,可以进行两组数据分布特征的比较。
应用说明:
重叠区域说明:各颜色的阴影区域为对应实验组和基准组的重叠区域,重叠区域表示不确定哪种版本效果更佳。如果您表现最好的版本有很多不确定性重叠,我们建议您将实验运行时间调的更长。
新增「自选指标汇总」视图,来支持跨指标组的指标汇总展示
同期群留存趋势,指的是将实验用户以首次进入实验的日期拆分,观察不同天首次进组的用户在后续的留存趋势。 支持细分群组的累计趋势图,支持1日留存率至30日留存率的天级趋势图。
表示筛选时间范围内进组用户的第N日留存趋势。
留存率是系统默认配置的,如何计算留存率?
规则 | 处理逻辑 |
---|---|
分组方式 | 首次进入实验组的用户(不一定是新用户) |
归因方式 | 把留存用户按照进组时间划分,分别归因到首次进组的时间 |
回访规则 | 回到APP即视为回访 |
举个例子说明:
如何计算「同期群留存趋势」每日每个实验版本的详细数据?
示例如下:
日期 | 新进组人数 | 1天后 | 2天后 | 3天后 | 4天后 | 5天后 | 6天后 | 7天后 | 8天后 | 9天后 | 10天后 | 11天后 | 12天后 | 13天后 | 14天后 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
全部新进组用户 | 317907 | 4.99% | 5.11% | 5.24% | 5.42% | 5.58% | 5.81% | 6.11% | 6.49% | 6.93% | 7.44% | 8.48% | 10.06% | 13.77% | 15.96% |
20200715 | 24,230 | ||||||||||||||
20200714 | 23,941 | 1.60% | |||||||||||||
20200713 | 23,551 | 1.70% | 1.70% | ||||||||||||
20200712 | 23,160 | 1.82% | 1.85% | 1.89% | |||||||||||
20200711 | 22,725 | 1.74% | 1.64% | 1.70% | 1.69% | ||||||||||
20200710 | 22,391 | 1.79% | 1.87% | 1.73% | 1.85% | 1.76% | |||||||||
20200709 | 22,014 | 1.83% | 1.91% | 1.86% | 1.93% | 1.89% | 1.84% | ||||||||
20200708 | 21,631 | 1.89% | 1.83% | 1.90% | 1.75% | 1.87% | 1.76% | 1.90% | |||||||
20200707 | 21,237 | 1.93% | 1.96% | 1.87% | 1.90% | 1.86% | 1.80% | 1.91% | 1.92% | ||||||
20200706 | 20,857 | 1.97% | 1.80% | 1.87% | 1.84% | 1.86% | 1.84% | 1.78% | 1.91% | 1.90% | |||||
20200705 | 20,480 | 1.98% | 1.98% | 1.90% | 2.01% | 2.01% | 2.02% | 2.06% | 2.03% | 1.97% | 1.91% | ||||
20200704 | 20,104 | 2.01% | 2.04% | 2.05% | 2.05% | 2.06% | 2.20% | 2.21% | 2.23% | 2.12% | 1.88% | 2.09% | |||
20200703 | 19,813 | 2.44% | 2.40% | 2.47% | 2.51% | 2.27% | 2.17% | 2.17% | 2.29% | 2.24% | 2.06% | 2.04% | 1.96% | ||
20200702 | 27,373 | 30.55% | 29.08% | 27.47% | 26.19% | 24.61% | 23.36% | 21.84% | 20.36% | 18.99% | 17.42% | 16.04% | 14.56% | 13.16% | |
20200701 | 4,400 | 30.93% | 29.73% | 28.70% | 27.48% | 26.59% | 25.32% | 24.25% | 23.23% | 21.89% | 20.77% | 19.68% | 18.57% | 17.52% | 15.95% |
1天后:4.99%=(239411.60% + 235511.70% + 231601.82% + …+ 2737330.55% + 440030.93%)/(23941 + 23551 + … + 27373 + 4400) 4天后:5.42%=(227251.69% + 223911.85% + 220141.93% +… +2737326.19% + 440027.48%)/(22725 + 22391+…+27373 + 4400)
详见:含转化漏斗的实验报告
同期群分析 :即将用户按初始行为的发生时间进行划分为群组(即同期群)
详见:同期群分析
在做完实验后,实验结果是针对所有实验的受众人群的,可以通过数据得到相应策略有正向效果/负向效果的结论。但是一个策略对于面向全部用户的正向/负向结论,并不等同于面对细分用户也有相同的结论。这时可以使用群体对比+差异分析,得到针对某一细分人群,实验策略为正向/负向的结论。
详见:差异分析
置信度
在实验的过程中,我们所抽取的样本流量实际上与总体流量会存在些许的差异,这些差异就决定了我们通过实验得出的结论或多或少会存在一些“误差”。
举个例子,实验中,我通过改变落地页的颜色让购买率提升了3%,但是因为样本流量并不能完全代表总体流量,有可能“我改变颜色这一策略其实没用,购买率提升3%是抽样结果导致的”。 那么发生这种“我的策略其实没用”事件的概率有多大呢?在统计学中,我们会用“显著性水平(α)”来描述发生这一事件的概率是多少。而置信度=1-α。 在「A/B测试」平台上,根据业界标准,显著性水平α取0.05。在A/B实验中,如果发生“我的策略其实没用”这一事件的概率小于0.05,我们即称实验结论已经“统计显著/可置信”。这意味着你采取的新策略大概率(A/B实验中意味着大于95%)是有效的。相反,如果这一事件的概率大于0.05,则称实验结论“不显著/不可置信”。
「A/B测试」主要采用假设检验来计算指标的置信度,实际上,要验证的是一对相互对立的假设:原假设和备择假设。
原假设(null hypothesis):是实验者想要收集证据予以反对的假设。A/B实验中的原假设就是指“新策略没有效果”。 备择假设(alternative hypothesis):是实验者想要收集证据予以支持的假设,与原假设互斥。A/B实验中的备择假设就是指“新策略有效果”。
利用反证法来检验假设,意味着我们要利用现有的数据,通过一系列方法证明原假设是错误的(伪),并借此证明备择假设是正确的(真)。这一套方法在统计学上被称作原假设显著性检验。
置信区间
主要通过某个指标或留存的实验版本均值变化值以及置信区间来判断,在当前指标或用户留存上,实验版本是否比对照版本表现得更好。
统计正向显著
如下图所示,表明实验版本样本均值对比对照版本的变化率为+46.822%。在95%置信度下,置信区间为[46.589%,47.055%],统计显著正向,说明当前的样本容量条件下已经检测出实验版本优于对照版本。
统计负向显著
如下图所示,表明实验版本样本均值对比对照版本的变化率为-26.553%。在95%置信度下,置信区间为[-26.786%,-26.320%],统计显著负向,说明当前的样本容量条件下已经检测出实验版本在核心指标上劣于对照版本。
不显著
如下图所示,表明实验版本样本均值对比对照版本的变化率为-0.941%。在95%置信度下,置信区间为[-3.552%,1.670%],置信区间一负一正,实验结果是非统计显著的。