「A/B测试」在实验报告概览区域,基于假设检验理论针对实验结果对比、提供结论性的推断。报告概览的进组用户数据为次日T+1数据,即1号的进组用户数据将在2号展示在报告概览中。如下:
支持添加时间、维度的过滤条件。如下:
其它相关信息说明:
支持全局查看实验关注指标的相关数据,以及各个指标的时间趋势。
支持针对单一指标进行下钻分析,可计算差异绝对值、差异相对值、置信区间(若可计算)、p-value(若可计算)、MDE(若可计算),支持天级趋势、概率分布、盒须快照、累积趋势。
关注指标是通过代码埋点,当天上报的新事件,正常约10分钟左右能查到事件信息(没有积压的情况下),约6小时左右可以查到事件属性值。我们建议您在数据上报6小时后,在“指标管理”添加指标,并在创建实验的过程中添加该指标为实验的关注指标。
根据实验报告的时间颗粒度,展示某个指标的「天级趋势」、「时级趋势」、「分钟趋势」。
以「天级趋势」举例:
概率分布,展示的是指标的取值及其出现的概率分布,横轴是指标值,纵轴是指标值出现的概率密度,通过均值和方差反映指标的分布情况。实验组和对照组的概率分布对比,可辅助判断实验组和对照组的差异情况。
盒须快照,又称为箱型图,是通过数据的最大值、最小值、中位数和两个四分位数,反映原始数据分布特征。通过实验组和对照组的盒须快照对比,可以进行两组数据分布特征的比较。
应用说明:
重叠区域说明:各颜色的阴影区域为对应实验组和基准组的重叠区域,重叠区域表示不确定哪种版本效果更佳。如果您表现最好的版本有很多不确定性重叠,我们建议您将实验运行时间调的更长。
累积趋势,指的是从实验开始截止到当前天的指标数据。以指标=人均时长,实验时间=2020.09.01~2020.09.07为例,累积趋势下,2020.09.03的数据指的是2020.09.01~2020.09.03的累积数据;天级趋势下,2020.09.03的数据指的是2020.09.03当天的数据。
同期群留存趋势,指的是将实验用户以首次进入实验的日期拆分,观察不同天首次进组的用户在后续的留存趋势。
支持细分群组的累计趋势图,支持1日留存率至30日留存率的天级趋势图。
表示筛选时间范围内进组用户的第N日留存趋势。
留存率是系统默认配置的,如何计算留存率?
规则 | 处理逻辑 |
---|---|
分组方式 | 首次进入实验组的用户(不一定是新用户) |
归因方式 | 把留存用户按照进组时间划分,分别归因到首次进组的时间 |
回访规则 | 回到APP即视为回访 |
举个例子说明:
如何计算「同期群留存趋势」每日每个实验版本的详细数据?
示例如下:
日期 | 新进组人数 | 1天后 | 2天后 | 3天后 | 4天后 | 5天后 | 6天后 | 7天后 | 8天后 | 9天后 | 10天后 | 11天后 | 12天后 | 13天后 | 14天后 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
全部新进组用户 | 317907 | 4.99% | 5.11% | 5.24% | 5.42% | 5.58% | 5.81% | 6.11% | 6.49% | 6.93% | 7.44% | 8.48% | 10.06% | 13.77% | 15.96% |
20200715 | 24,230 | ||||||||||||||
20200714 | 23,941 | 1.60% | |||||||||||||
20200713 | 23,551 | 1.70% | 1.70% | ||||||||||||
20200712 | 23,160 | 1.82% | 1.85% | 1.89% | |||||||||||
20200711 | 22,725 | 1.74% | 1.64% | 1.70% | 1.69% | ||||||||||
20200710 | 22,391 | 1.79% | 1.87% | 1.73% | 1.85% | 1.76% | |||||||||
20200709 | 22,014 | 1.83% | 1.91% | 1.86% | 1.93% | 1.89% | 1.84% | ||||||||
20200708 | 21,631 | 1.89% | 1.83% | 1.90% | 1.75% | 1.87% | 1.76% | 1.90% | |||||||
20200707 | 21,237 | 1.93% | 1.96% | 1.87% | 1.90% | 1.86% | 1.80% | 1.91% | 1.92% | ||||||
20200706 | 20,857 | 1.97% | 1.80% | 1.87% | 1.84% | 1.86% | 1.84% | 1.78% | 1.91% | 1.90% | |||||
20200705 | 20,480 | 1.98% | 1.98% | 1.90% | 2.01% | 2.01% | 2.02% | 2.06% | 2.03% | 1.97% | 1.91% | ||||
20200704 | 20,104 | 2.01% | 2.04% | 2.05% | 2.05% | 2.06% | 2.20% | 2.21% | 2.23% | 2.12% | 1.88% | 2.09% | |||
20200703 | 19,813 | 2.44% | 2.40% | 2.47% | 2.51% | 2.27% | 2.17% | 2.17% | 2.29% | 2.24% | 2.06% | 2.04% | 1.96% | ||
20200702 | 27,373 | 30.55% | 29.08% | 27.47% | 26.19% | 24.61% | 23.36% | 21.84% | 20.36% | 18.99% | 17.42% | 16.04% | 14.56% | 13.16% | |
20200701 | 4,400 | 30.93% | 29.73% | 28.70% | 27.48% | 26.59% | 25.32% | 24.25% | 23.23% | 21.89% | 20.77% | 19.68% | 18.57% | 17.52% | 15.95% |
1天后:4.99%=(239411.60% + 235511.70% + 231601.82% + …+ 2737330.55% + 440030.93%)/(23941 + 23551 + … + 27373 + 4400)
4天后:5.42%=(227251.69% + 223911.85% + 220141.93% +… +2737326.19% + 440027.48%)/(22725 + 22391+…+27373 + 4400)
同期群分析 :即将用户按初始行为的发生时间进行划分为群组(即 同期群)
详见:同期群分析
详见:含转化漏斗的实验报告
在实验的过程中,我们所抽取的样本流量实际上与总体流量会存在些许的差异,这些差异就决定了我们通过实验得出的结论或多或少会存在一些“误差”。
举个例子,实验中,我通过改变落地页的颜色让购买率提升了3%,但是因为样本流量并不能完全代表总体流量,有可能“我改变颜色这一策略其实没用,购买率提升3%是抽样结果导致的”。
那么发生这种“我的策略其实没用”事件的概率有多大呢?在统计学中,我们会用“显著性水平(α)”来描述发生这一事件的概率是多少。而置信度=1-α。
在「A/B测试」平台上,根据业界标准,显著性水平α取0.05。在A/B实验中,如果发生“我的策略其实没用”这一事件的概率小于0.05,我们即称实验结论已经“统计显著/可置信”。这意味着你采取的新策略大概率(A/B实验中意味着大于95%)是有效的。相反,如果这一事件的概率大于0.05,则称实验结论“不显著/不可置信”。
「A/B测试」主要采用假设检验来计算指标的置信度,实际上,要验证的是一对相互对立的假设:原假设和备择假设。
原假设(null hypothesis):是实验者想要收集证据予以反对的假设。A/B实验中的原假设就是指“新策略没有效果”。
备择假设(alternative hypothesis):是实验者想要收集证据予以支持的假设,与原假设互斥。A/B实验中的备择假设就是指“新策略有效果”。
利用反证法来检验假设,意味着我们要利用现有的数据,通过一系列方法证明原假设是错误的(伪),并借此证明备择假设是正确的(真)。这一套方法在统计学上被称作原假设显著性检验。
主要通过某个指标或留存的实验版本均值变化值以及置信区间来判断,在当前指标或用户留存上,实验版本是否比对照版本表现得更好。
如下图所示,表明实验版本样本均值对比对照版本的变化率为+17.395%。在95%置信度下,置信区间为[16.86%,17.929%],统计显著正向,说明当前的样本容量条件下已经检测出实验版本优于对照版本。
如下图所示,表明实验版本样本均值对比对照版本的变化率为-33.240%。在95%置信度下,置信区间为[-33.575%,-32.906%],统计显著负向,说明当前的样本容量条件下已经检测出实验版本在核心指标上劣于对照版本。
如下图所示,表明实验版本样本均值对比对照版本的变化率为-0.550%。在95%置信度下,置信区间为[-1.4595%,0.358%],置信区间一负一正,实验结果是非统计显著的。
说明
此功能仅限于同时购买DataTester和DataFinder的客户;
只支持事件指标的跳转;
只支持客户端的实验查看。