You need to enable JavaScript to run this app.
导航
MAB智能调优实验
最近更新时间:2025.04.18 18:07:34首次发布时间:2023.06.09 16:02:40
我的收藏
有用
有用
无用
无用

智能调优实验是一种序贯地评估实验数据表现,并自适应的将流量倾斜给效果更好的实验版本的实验类型。其中自适应评估与调优的算法主要是 MAB(Multi-Armed Bandit) 。本文为您介绍DataTester的MAB智能调优实验应用场景和创建要点。

应用场景

传统AB的弊端

传统A/B实验依赖于统计显著性的经典假设检验,为对照版本和实验版本分配相应的流量,但一般不允许在实验期间变更每个子版本的流量。因此该类实验有几个弊端,一是需要专门的给常规实验预留一定的周期(至少7天),对于一些时间比较紧急的需求,很难满足这样苛刻的条件;二是必须要有足够的样本进入到实验中,才能得出显著的结果。

智能调优实验的应用场景和优势

实验目的:指标收益最高,实验成本最小

场景

智能调优实验

A/B实验

高价值流量:丢失转化的机会成本较高,例如在线销售大额商品(汽车、钻石等),每个失去的转化都会造成几千/几万块的损失。

动态调整流量,根据实验结果及时找出当前效果比较好的版本,将转化效果差的版本降低流量,减少损失

目标是获得统计上显著的方案:在时间、机会成本允许的情况下,AB实验能更快的获得稳健的、在统计上显著的获胜方案,虽然在过程中会损失一些转化。

活动周期短:比如很多电商活动的整个周期就一两天,如果传统AB的方法一般需要7天以上,活动没法提供足够的时间进行A/B实验

MAB的核心目标是整个活动最优,并不是帮助客户找到最优组,对实验时限没有要求

需要足够的时间,一般至少7天以上,排除时间变量

优化目标实效性强:例如头条新闻的标题、缩略图、视频内容等的优化测试,需要在短的窗口期内获得最大点击量。

MAB可以周期性查询各版本的转化效果,且调优频率可以自定义设置,目前最短能达到半小时

实时性较弱:需要等到实验时间结束或者流量用尽之后产出统计结果

持续优化:可以在MAB优化过程中,随时在变体中增加或减少多个元素,比如开启界面MAB时,可以调整界面上被测试的元素

MAB对流量/实验变体没有严格要求,可以在调优过程中切换实验流量以及实验变体的元素

需要进行深度数据分析,AB实验收集的数据更适合在实验时或实验后进行数据的多维分析,来查看不同细分人群对于测试的变量有何反映。对MAB来说,表现不好的组可能没有足够的数据进行这些。

小流量:对于初创公司或者活动冷启动时期,可能没有足够的流量进行实验

MAB会基于当下指标表现动态的分配,所以原则上来说MAB过程更能在总流量不多的情况下将流量收益最大化(注:本质是一种在流量较少的情况下优化收益的妥协性方案,不代表可以比AB实验使用更少的流量达到相同的效果)

想要从所有变体(特别是较差变体)中吸取一些教训:AB实验一定程度上能够保证每个变体都有足够的流量来统计以及计算置信度,如果想衡量较差变体的糟糕程度,从而指导业务决策,请选择AB实验。

说明

如果既要拿整体流量收益,又要决策方案优劣,Tester 将在后续版本提供 MAB 与AB 实验混合的整体解决方案。

注意事项与前提条件

细分

注意事项详述

版本要求

当前仅A/B测试旗舰版支持MAB智能调优实验,如果您希望使用MAB智能调优实验进行实验分析,请确保您已购买A/B测试旗舰版。

MAB调优生效限制

创建MAB调优实验后,如果实验过程中,用户进组人数指标需同时达到以下条件才能正常进行实验调优,否则无法开启实验调优:

  • 私有化4.9.2及之后版本
    • 第一轮冷启动:每个实验分组进组人数大于500,每个分组的指标值大于0。
    • 后续每轮次调优(运行中修改配置值)的条件:每个实验分组轮次间平均新进组用户大于50,每个分组的指标值大于0。
  • 私有化4.9.2之前版本
    • 用户进组人数要求:每个实验组进组人数超500人。
    • 指标要求:
      • 指标值大于0。

说明

  • 私有化版本4.9.0开始支持人均类指标,例如,pv/au、sum/au。
  • 私有化版本5.0.0开始您可以在实验报告中查看相关数据是否符合限制要求:

Image

  • 进组人数、指标值可直接在报告中展示。
  • 转化类指标的 转化率*进组人数 即为有指标行为的用户数。
  • 私有化版本500开始将支持对未进调优状态以及在调优过程中中断进行状态提示
    Image

准备工作

创建MAB智能调优实验前,您需确保管理员与研发已完成对应的准备工作,包括集团的配置、应用添加。完成准备工作后,运营人员即可参考以下操作步骤创建实验。

操作演示

Image

创建智能调优实验

登录并进入A/B测试应用页面后,在页面左侧导航栏选择智能优化 > 智能动态调优,进入调优列表后单击右上角的智能调优按钮,进入创建智能调优实验页面。

step1 输入基本信息

Image

配置项

配置说明

调优名称

调优名称建议取与调优内容相关的名称,如有实验版本迭代可以增加版本号后缀,让你的伙伴能够快速了解到实验是做什么的、是在哪个迭代版本的。

调优描述

调优内容简述,可以让项目相关人员更清晰地知道到这个调优是如何做的,解决什么问题,同时也便于后期查看和管理历史调优时一目了然。

调优场景

有【落地页优化】和【APP小程序优化】,调优场景的选择会直接影响调优第三步--配置实验版本后续步骤中实验版本配置项。

  • 选择【落地页优化】,会有两种调优方式,分别为「可视化调优」和「多链接调优」;
  • 选择【APP小程序优化】,则会调起「客户端调优」和「服务端调优」两种方式。

调优方向与指标

此处只能选择一个核心指标,智能调优只关注实验者最关心指标的提升比率,最终实验报告也是围绕该指标设计的。
注意:

  • 调优指标不能带常数项,需要选取反馈较快的指标,例如是否点击、在小时粒度内是否转化等。

    说明

    带常数项的识别规则如下:

    • 假设C为常数,X为变量项目。
    • 则以下均为带常数项的指标:C+X、C-X、C*X。
  • 对于隔天才有转化的转化率指标,当前版本的算法基本会失效。对于需要较长时间(例如超过2个及以上个调优周期)才有反馈的指标,无法及时获得效果数据来调整流量,故不建议作为调优指标。

说明

私有化4.9.0版本开始,核心指标新增支持人均类的指标,算子为:按xxx求进组人均值、人均进组次数。

调优时长

默认7天,上限为60天。

实验负责人

默认为实验创建者。

step2 设置生效策略

Image

配置项

配置说明

流量设置

控制参与调优的总流量,系统默认100%。

注意

每个调优频率内,平均每组流量累计不能小于500个,否则系统会一直等到累计到足够样本量才开始调优。

用户受众规则

可以通过筛选用户属性以及导入分群的方式来控制参与调优的对象

体验一致性

进组不出组,保证参与调优的用户,每次进入到同一个实验版本中。

调优频率设置

支持用户设定调优的频率,目前可设置的范围是[0.5h, 24h]。

step3 配置实验版本

此处实验版本的配置取决于实验第一步中【输入基本信息】中的调优场景和调优方式的设定:

  • 与普通实验配置的主要差异

    实验版本配置参考

    实验版本

    MAB实验版本不再区分实验版本、对照版本,通过版本1、版本2来标识不同的实验版本。

    流量分配

    MAB实验支持自定义设置流量分配按钮。
    Image

    • 自定义设置未打开时:流量分配仅展示评估流量以及智能调优流量整体的流量分配比例。
      • 评估流量默认按照每个版本给3%流量,此部分流量用于算法调优以及收益计算。
      • 剩余流量给到智能调优并根据版本数平均分配,如果余数超过一位小数,按照后端逻辑处理。
    • 自定义设置打开时:可手动设置评论流量智能流量初始设置。
  • 其他与普通实验配置类似的配置参数,可参考普通实验的配置文档。

    调优场景

    调优方式

    实验版本配置参考

    落地页优化

    可视化调优

    可视化实验-配置实验版本

    落地页优化

    多链接调优

    多链接实验-配置实验版本

    APP小程序优化

    客户端调优/服务端调优

    编程实验-配置实验版本

开启实验

产品示例图

操作项说明

Image

实验详情页点击「开启实验」

Image

调优列表页点击「启动」

支持实验过程中调整实验版本

MAB实验-APP小程序优化实验支持在实验过程中添加、减少版本,也支持调整实验版本的下发参数。此功能适用于实验长期在线,且在实验过程中希望能够调整下发版本的参数的场景。

例如希望对app banner做长期的择优选择,实验初期只有3个版本比较,在过程中会根据数据表现淘汰表现差的banner或者增加新的banner参与流量调优。

注意事项

  • 该功能仅适用于体验不一致的场景,当前支持APP小程序中的客户端调优/服务端调优。
  • 私有化4.9.2版本开始支持修改MAB实验的实验版本,并配置自定义冷启动轮数等参数。私有化5.0.1版本对该功能进行了完善,建议在5.0.1及之后的版本启用该功能。

操作步骤

开启功能

开启该功能,除配置实验外,还需要在事件公共属性中增加mab_arm_cf_value属性,并在指标计算相关的事件中正确上报该参数信息。

例:实验为海报赛马实验,各版本中将海报的识别参数(如:postid)作为流量调优的目标。则需要将postid上报到mab_arm_cf_value中。

新建实验

操作

示意图

输入基本信息

实验场景选择:APP/小程序优化

Image

设置生效策略

体验一致性:关闭

备注:由于在实验过程中允许实验下发参数的调整,无法保证实验一致性(即用户始终体验的是同一套下发参数),所以体验一致性关的时候可以支持调整参数

Image

配置实验版本

在实验过程中不能增减配置的版本数量,所以需要提前预留足够的实验版本(即同时在线的版本数量),不需要使用的版本可以预留不下发。

预留版本配置:
当下发版本超过3个时,可以设置某版本为预留版本,在实验过程中调整。
同时下发的版本数不得小于2个

调优参数配置:
在体验不一致性场景下,调优建模由原来的对版本建模改为对下发参数建模,多参数下发时需要指定调优参数。
调优参数不支持JSON类型。
备注:若只有一个参数的情况下,不需要配置调优参数(隐藏不现实)

预留版本配置
Image

调优参数及流量配置
Image
备注:若只有一个参数的情况下,不需要配置调优参数

编辑实验

操作

示意图

进行中的实验,点击编辑操作,可对实验的下发版本进行编辑

Image

编辑下发版本
可对之前预留版本进行关闭,上线后对该版本参数进行下发
该版本会进入冷启动过程(冷启动流量为在线版本的平均流量)

编辑下发参数
允许下发版本调整下发参数
当下发参数调整后,该对应版本会进入冷启动过程(重新积累数据进行调优,冷启动流量为在线版本的平均流量)

Image

流量配置

当做了如下操作后流量分配会发生变化:

  1. 预留版本 关闭 --> 打开

流量:进入冷启动,冷启动流量比例为在线版本的平均流量

  1. 预留版本 打开 --> 关闭

流量:调整为0,原有流量回收。

  1. 下发参数变化

流量:参数变化的版本重新进入冷启动,冷启动流量比例为在线版本的平均流量。

其余版本:
在流量调中过程中,在未进入冷启动的版本之间,保持调整前的流量分配比例。

Image

保存提醒

保存时会做弹窗确认提醒,提示本次编辑后对下发版本,参数调整的调整以及调整后冷启动流量的配置。

Image

报告页

本期调整后,暂未对报告页进行支持。
Image

注意

  • 私有化4.9.2版本的功能升级未对转化率类指标的MAB实验做版本兼容,因此,在升级版本至4.9.2版本前,转化率类指标的实验建议先停止,在升级至4.9.2版本后再重新开启实验。如果不停止,会进入新模型的冷启动逻辑,对实验效果会有一些影响。对于非在线的MAB实验无影响。
  • 修改运行中MAB实验的实验版本配置的实验参数value值,实验报告中的指标数据和数据提升比率将不再可信,报告中的流量分配部分仍然可信。

查看实验报告

MAB实验报告可查看:智能流量调优(MAB)报告综述