智能调优实验是一种序贯地评估实验数据表现,并自适应的将流量倾斜给效果更好的实验版本的实验类型。其中自适应评估与调优的算法主要是 MAB(Multi-Armed Bandit) 。本文为您介绍DataTester的MAB智能调优实验应用场景和创建要点。
传统A/B实验依赖于统计显著性的经典假设检验,为对照版本和实验版本分配相应的流量,但一般不允许在实验期间变更每个子版本的流量。因此该类实验有几个弊端,一是需要专门的给常规实验预留一定的周期(至少7天),对于一些时间比较紧急的需求,很难满足这样苛刻的条件;二是必须要有足够的样本进入到实验中,才能得出显著的结果。
实验目的:指标收益最高,实验成本最小
场景 | 智能调优实验 | A/B实验 |
---|---|---|
高价值流量:丢失转化的机会成本较高,例如在线销售大额商品(汽车、钻石等),每个失去的转化都会造成几千/几万块的损失。 | 动态调整流量,根据实验结果及时找出当前效果比较好的版本,将转化效果差的版本降低流量,减少损失 | 目标是获得统计上显著的方案:在时间、机会成本允许的情况下,AB实验能更快的获得稳健的、在统计上显著的获胜方案,虽然在过程中会损失一些转化。 |
活动周期短:比如很多电商活动的整个周期就一两天,如果传统AB的方法一般需要7天以上,活动没法提供足够的时间进行A/B实验 | MAB的核心目标是整个活动最优,并不是帮助客户找到最优组,对实验时限没有要求 | 需要足够的时间,一般至少7天以上,排除时间变量 |
优化目标实效性强:例如头条新闻的标题、缩略图、视频内容等的优化测试,需要在短的窗口期内获得最大点击量。 | MAB可以周期性查询各版本的转化效果,且调优频率可以自定义设置,目前最短能达到半小时 | 实时性较弱:需要等到实验时间结束或者流量用尽之后产出统计结果 |
持续优化:可以在MAB优化过程中,随时在变体中增加或减少多个元素,比如开启界面MAB时,可以调整界面上被测试的元素 | MAB对流量/实验变体没有严格要求,可以在调优过程中切换实验流量以及实验变体的元素 | 需要进行深度数据分析,AB实验收集的数据更适合在实验时或实验后进行数据的多维分析,来查看不同细分人群对于测试的变量有何反映。对MAB来说,表现不好的组可能没有足够的数据进行这些。 |
小流量:对于初创公司或者活动冷启动时期,可能没有足够的流量进行实验 | MAB会基于当下指标表现动态的分配,所以原则上来说MAB过程更能在总流量不多的情况下将流量收益最大化(注:本质是一种在流量较少的情况下优化收益的妥协性方案,不代表可以比AB实验使用更少的流量达到相同的效果) | 想要从所有变体(特别是较差变体)中吸取一些教训:AB实验一定程度上能够保证每个变体都有足够的流量来统计以及计算置信度,如果想衡量较差变体的糟糕程度,从而指导业务决策,请选择AB实验。 |
说明
如果既要拿整体流量收益,又要决策方案优劣,Tester 将在后续版本提供 MAB 与AB 实验混合的整体解决方案。
细分 | 注意事项详述 |
---|---|
版本要求 | 当前仅A/B测试旗舰版支持MAB智能调优实验,如果您希望使用MAB智能调优实验进行实验分析,请确保您已购买A/B测试旗舰版。 |
MAB调优生效限制 | 创建MAB调优实验后,如果实验过程中,用户进组人数和指标需同时达到以下条件才能正常进行实验调优,否则无法开启实验调优:
说明
|
准备工作 | 创建MAB智能调优实验前,您需确保管理员与研发已完成对应的准备工作,包括集团的配置、应用添加。完成准备工作后,运营人员即可参考以下操作步骤创建实验。 |
登录并进入A/B测试应用页面后,在页面左侧导航栏选择智能优化 > 智能动态调优,进入调优列表后单击右上角的智能调优按钮,进入创建智能调优实验页面。
配置项 | 配置说明 |
---|---|
调优名称 | 调优名称建议取与调优内容相关的名称,如有实验版本迭代可以增加版本号后缀,让你的伙伴能够快速了解到实验是做什么的、是在哪个迭代版本的。 |
调优描述 | 调优内容简述,可以让项目相关人员更清晰地知道到这个调优是如何做的,解决什么问题,同时也便于后期查看和管理历史调优时一目了然。 |
调优场景 | 有【落地页优化】和【APP小程序优化】,调优场景的选择会直接影响调优第三步--配置实验版本后续步骤中实验版本配置项。
|
调优方向与指标 | 此处只能选择一个核心指标,智能调优只关注实验者最关心指标的提升比率,最终实验报告也是围绕该指标设计的。
说明 私有化4.9.0版本开始,核心指标新增支持人均类的指标,算子为:按xxx求进组人均值、人均进组次数。 |
调优时长 | 默认7天,上限为60天。 |
实验负责人 | 默认为实验创建者。 |
配置项 | 配置说明 |
---|---|
流量设置 | 控制参与调优的总流量,系统默认100%。 注意 每个调优频率内,平均每组流量累计不能小于1000个,否则系统会一直等到累计到足够样本量才开始调优。 |
用户受众规则 | 可以通过筛选用户属性以及导入分群的方式来控制参与调优的对象 |
体验一致性 | 进组不出组,保证参与调优的用户,每次进入到同一个实验版本中。 |
调优频率设置 | 支持用户设定调优的频率,目前可设置的范围是[0.5h, 24h]。 |
此处实验版本的配置取决于实验第一步中【输入基本信息】中的调优场景和调优方式的设定:
与普通实验配置的主要差异
实验版本配置参考 | |
---|---|
实验版本 | MAB实验版本不再区分实验版本、对照版本,通过版本1、版本2来标识不同的实验版本。 |
流量分配 | MAB实验支持自定义设置流量分配按钮。
|
其他与普通实验配置类似的配置参数,可参考普通实验的配置文档。
调优场景 | 调优方式 | 实验版本配置参考 |
---|---|---|
落地页优化 | 可视化调优 | |
落地页优化 | 多链接调优 | |
APP小程序优化 | 客户端调优/服务端调优 |
产品示例图 | 操作项说明 |
---|---|
实验详情页点击「开启实验」 | |
调优列表页点击「启动」 |
私有化4.9.2版本开始支持修改MAB实验的实验版本,并配置自定义冷启动轮数等参数。
典型应用场景:比如海报赛马的场景,已经完成一轮海报效果的实验并且有确定结论后,后续还会不定期更改不同实验版本的实验参数value值,变更到新的海报;此类营销场景中,之前实验过程中,目标用户已基本完成了进组,即后续修改实验后是对老用户进行重复曝光不断变化的实验版本,展示不断变化的海报,以获取不断变化的海报的效果。
注意
对进行中的MAB实验的实验详情右上角,单击编辑按钮后,即可进行修改。
MAB实验报告可查看:智能流量调优(MAB)报告综述。