You need to enable JavaScript to run this app.
导航
提升业务科学决策 - A/B测试大揭秘
最近更新时间:2021.09.23 14:09:05首次发布时间:2021.09.23 14:09:05

文章来源:火山引擎微信公众号

2021年4月17-18日,人人都是产品经理举办的【2021中国运营增长会·深圳站】完美落幕。字节跳动火山引擎大数据应用产品总监张锦波,她分享的主题是《数据驱动增长,字节跳动A/B测试大揭秘》。
image.png

大家好,我是张锦波,来自字节跳动。今天我给大家带来了一款可以通过A/B测试的平台去驱动增长的一些方法论和思考。

大家听到字节跳动,首先会觉得这个公司做APP挺牛的对吧?每一个APP的增长都做的不错。我们是采用量化分析、数据驱动的核心理念是把产品推向增长。可以说,这个理念是写入了字节跳动整个公司发展历程的基因里面的。

增长创新闭环

在这里,我和大家分享一个比较简单的创新增长的闭环。
image.png

我们最开始会利用很多类似UBA的工具进行用户行为分析,通过这些分析发现,在这个APP发展过程中是不是存在一些新的问题,或者去探索一些新的业务增长点;之后就进入了第二步,我们的数据分析师会把他的一些推断传递给我们的产品经理,产品经理会提出了一些假设策略,设定一定的目标。

第三步进入到了很关键的一个环节,整个字节跳动内部,不管是功能研发还是算法模型的迭代,或者是UI交互上一个简单的按钮颜色的变化都需要去做的验证——就是A/B测试。

在这个过程中,我们采用各种科学的实验分析工具或者分析模型,来帮助我们的数据分析师去了解不同的实验策略在整个推进过程中当中会有什么样的表现。

最后一步,我们再结合实际场景去进行分析:这个实验结论最终带给我们哪些洞见?我们是不是要持续迭代?如此往复,就是一个激发创新和增长的闭环。

根据刚才我们提到的这个闭环,再给大家来分享一下字节跳动内部的一个案例。
image.png
这个是我们的某短视频APP。我们的数据分析师每天会对这款APP进行持续分析,发现这款APP和同类产品相比,留存比较低。

首先,通过多维下钻拆分了新用户和老用户进行初步分析,发现是新用户的留存是比较低的、影响了大盘指标,这说明什么问题?我们的新用户没有留存下来,他没有达到 Aha moment,没有体会到产品的核心价值。

我相信很多人对Aha moment这个概念应该并不陌生,这是增长黑客领域里经常会提到的一个概念。

它指的是:新用户使用我们的产品,在不停的探索、尝试新功能之后,突然爽了、high了的那个时刻,那个时刻的到来意味着你的用户和你的APP已经开始建立起了一种情感的联系。既然没有来到这个时刻,是为什么呢?

于是,分析师又进行了进一步的下钻分析,他通过对行为事件流进行细查分析之后发现,这些没有留下来的用户大部分都没有进行上滑操作,也就是他根本没有体会到上滑这个操作能够让他体验到更多更丰富的好玩视频。

这时分析师提出了一个推测,是不是这个上滑推送的引导没有让用户意识到他能够通过这样的操作观赏更多的视频。反馈给我们的产品经理之后,便有了下面这个实验。
image.png

左边这个是我们原始的线上版本,右面是我们的产品经理找设计师设计的一个半动态化的引导样式,大家可以感受一下,觉得这个变化能不能提升新用户留存或者使用整个APP的市场?

这个实验针对新用户采用了10%的流量上了一个月,核心目标就是要提升新用户的留存,围栏指标是提升上滑的操作渗透率,降低错误操作的渗透率。最后其实效果并不好,宣告失败了。

我们发现整个新用户的次留、2留、3留没有显著提升,但是错误操作的渗透率却提升了4%,得出实验结论:这种半动态式的引导样式其实对于核心指标是没有收益的。另外两个护栏指标,一个是上滑操作的渗透率,另一个是错误操作的渗透率都不是特别好,围栏指标也是负向显著,所以马上停止实验。

但字节跳动的产品经理都很有锲而不舍的精神,不是有那句很有名的话吗?“顶级的产品经理也只能跑赢一半的实验”,那咱们就再试试看,所以又做了下一轮的迭代尝试。
image.png
右边这个是一个全动态式的引导方案。我们发现整个新用户的次留、2留、7留上全部都有显著的提升,大概的提升幅度在8%—10%之间。这样一款在当地的渗透率已经很高的短视频产品可以提升这么高的新用户次留,效果是非常好的,这个实验全量推上线。

后续分析师也没有止步于此,继续下钻分析,刚才那个闭环大家还记得吧?它其实在一直不停的轮转,做完了实验解读会继续进行数据分析,然后通过多维下钻钻到不同的属性上获取更多洞见。

我们看到在一些发达的一线城市,上滑功能的渗透率提升很明显,高于了平均水平;但是对于一些非发达地区没有什么显著变化,这是什么原因呢?发达地区,大家的工作、生活节奏非常快,如果没有给我一个很直观的上滑操作引导时,我的耐心用完了就马上跳出了。所以我们在做APP跳出率研究的时候,也可以拆分不同性别、不同地域的用户,针对特定的一些用户群再去设定一些特定的策略。

字节跳动A/B测试文化

刚才给大家分享的是内部的一个实验案例,现在回到了字节跳动A/B测试文化。
image.png

A/B测试只是一个工具,我们最开始的时候就把A/B测试的思想融入到了字节跳动的方方面面。

举个例子:今日头条的定名,就是在不同的应用市场上架不同的名称,来看下载率和分享率,最后“今日头条”胜出了。

抖音也是一样的,抖音这个名称并不是第一首选,我们做了很多个名称上架应用市场之后,“抖音”排名第二,最后根据这款APP的调性,我们选择了“抖音”作为他们的核心名字。

字节跳动内部的实验平台,从2016年正式成为一个产品化平台。到现在,五六年的时间,沉淀了70万的实验总量。大家不要小看这个数字啊,我在2019年底的时候曾经统计过实验平台的实验数量,当时是三十万。所以一年的时间就翻了一倍,这说明什么?

大家已经发现A/B测试能够带来非常大的价值,所以A/B测试在每一次迭代、每一个优化都会对我们的产品经理和数据分析师所应用,他们经常提及的一句话就是:A/B测试是你决策一切的基础。

有几个数字跟大家分享一下:我们每天新增的实验就有1500个,我们同时在线上跑的实验有上万个之多,而且我们内部大大小小四百多条的业务线,全都在用这个实验平台去做实验。

A/B测试平台支撑了字节跳动跳动产品的高速迭代,同时也沉淀了海量的最佳实践和方法论。

A/B测试为业务发展带来巨大价值

image.png

A/B测试到底能带来什么核心价值呢?

上图就是A/B测试的价值,它除了能够给满足字节跳动内部的各个业务线,同时我们也把它TO B了,为火山引擎的外部客户带来了非常多的核心的价值收益。

  • 提活促留

  • 业务创新

  • 收益提升

  • 管理提效

看着很简单,我来跟大家说几个case,帮助大家理解的更深刻一点。

丨提活促留

首先在市场运营阶段提活促留,我们的市场或运营人员会通过A/B测试的多链接实验、可视化实验、推送实验能力,去做精细化的运营,提升整体的收益,达到一个提活促留的效果。

先来看第一个case,这也是字节跳动内部的一个案例,很有意思。
image.png

某个垂类社区,分析师发现新用户流失率很高,而且使用阅读时长比较低,于是产品侧设计了一个“推送实验”去提活。推送实验+推荐实验的组合拳,是放诸四海而皆准的一个很有用的方式。我们想促活提留的时候,可以尝试用“推送”再加上“推荐”的一个组合拳的方式。

1)推送实验

分析师设计如上图的四个实验组,跑了两周实验,流量是40%,最后跑赢的是实验组2,跟大家的预期一样吗?

这也是我们沉淀下来的推送的最好时机,最后把新用户的3留提升到了11%,而且非常显著,这个实验组是现在在线上跑的推送运营的整体策略。

找到合适的推送时机、合适的推荐角标,再加上合适的推送策略和文案等等,所有的这一切把它组合探索出来之后,就会形成有效的一个推送活动。

接下来,把用户促活了,怎么把他留下来?——第二个很核心的跟它打配合的就叫做推荐实验。

2)推荐实验
image.png

怎么把你的用户留下来?推荐实验,做feed流。我们当时也是做了两轮,第一轮是不使用个性化推荐和使用个性化推荐的 1.0 模型,发现用了还是很有用。APP的使用时长增加了59%,且显著。点赞评论的渗透率也提升了81%,这已经是非常可观的一个数字了。

算法工程师又优化了推荐的算法模型,升级到了 2.0 版本,之后APP的使用时长上又提升了8.4个点,而且点赞评论的渗透率也提升了18.2%。

这两个实验是非常典型的在提活促留的场景下组合拳的实验方式。

业务创新

刚才也说到了,字节跳动的基因就带有A/B测试,所以我们的产品经理不管是在功能迭代还是算法模型的迭代,还是UI交互上很小的改动,都会进行A/B测试来验证。目的就是降低试错成本,激发创新潜能,快速找到PMF,挖掘产品的核心价值。

收益提升

在整体的支付环节,比如支付流程、支付策略、支付模式、支付通道是不是合适,都可以来做实验。这个收益是非常明显的,营收层面的大盘指标上会特别显著。

管理提效

有一次我跟外部客户讨论他们的实验场景时,他同我讲:老板问他业务大盘指标涨了这么多,团队负责这个业务模块到底贡献了多少呀?他听到后慌了,因为他不知道怎么把自己这个业务线对于整体的总盘贡献度拆分出来。有了A/B测试平台,这个问题就迎刃而解,通过正交实验,可以非常好的量化整个部门或团队对于业务本身的贡献度和业绩情况。

字节跳动ToB实验平台介绍

刚才讲了这么多,现在带大家来沉淀一下,目前在字节跳动内部或者TO B的这套A/B测试平台,它提供了哪些核心能力。
image.png

我们提供了多场景多领域的特型实验模板。

  • 个性化推送实验:在运营场景下支持做个性化推送,支持极光、Webhook、FCM、APNs等通道;

  • 可视化建站实验:帮助非研发人员直接在页面上通过配置的方式改文案等元素,非常简单快捷;

  • 多链接网页实验:在广告场景下,我们有多个活动页面但是又没有自动化投放工具怎么办?我一个入口可以做重定向,直接把流量打到了不同的活动页或者着陆页上去对比你的实验、评估效果。

  • 客户端和服务端编程实验:这两个是研发人员超爱的,不管是什么,只要用它都能搞的定。从前端的交互、功能迭代到后端的策略和模型优化,都可以进行A/B测试。

推送实验

给大家来具体讲一下推送实验,推送实验其实就是结合自动化营销场景,直接帮助市场人员,在推送平台、推送通道、推送时机、推送标题、推送文案、落地页等元素上,甚至连提醒方式都可以去做实验。

通过这种自动化探索的方式,可以帮你去探索出一套非常适合你当下环境的推送策略。
image.png

这是一个电商的case,在首购、复购以及唤醒沉睡用户这些环节,匹配到整个新用户流失的曲线,在流失拐点到来之前,给他推送优惠券、折扣、猜你喜欢等唤醒,把ta召回并促活。

可视化建站实验

image.png

这个是可视化建站实验,无需开发人员介入,在文案、图片、颜色、字体大小、字号还有背景图案上都可以去做各种各样的对比实验,不需要编码,就可以快速生成一个新实验的页面版本。同时还可以新增元素、新加涂层、删减元素等等,甚至布局位置也可以变更,非常适合我们在前端UI做调整的一些相关实验。正所谓人人都是实验官,极大的降低了实验操作的门槛和理解成本。

多链接实验

image.png

多链接合并实验比较适合网站首页做大改版的场景。几个不同的页面但是同一个入口,重定向到不同的页面上;或者节日大促时完全不同的活动策略、多渠道多个落地页的推广等等都很适合多链接合并实验。

实验报告

image.png

实验报告是整个实验环节最为关键的一个部分,为什么?实验报告如果有指导性的错误,那直接会让决策者错误判断,甚至推错策略,造成不可逆的负向影响。因此实验结论必须要科学、全面、客观。

火山引擎A/B测试平台提供多种高级的分析模型去做,甚至对于进组用户我们都可以对他进行画像的成分洞察。包括像同期群的一些非常典型的A/B测试当中做最佳实践的分析模型。在这个实验报告当中可以帮助大家非常全面的去了解你的实验表现,避免以偏概全。
image.png

这是一个非常有趣又很实用的能力 ,叫智能流量调优实验。

它特别适合比如:我们有一个活动,但是我不想长期去观测它的效果,因为它是有时限性要求的,超过了这个时间再推起来也没有什么本质意义了。

思想来自博彩行业,有一个赌徒到了赌场,假设手里只有五十枚硬币,然后面对很多不同的老虎机,每个老虎机摇臂赢率不一样,那么这五十枚硬币怎么去分配才能够快速的拿到最大的收益回报呢?

在这个过程中我们采用的就是多臂老虎机的思路,映射到实验场景下,一台老虎机对应一个实验组,每摇动了一次摇杆对应的是我们实验的一次曝光,累积回报对标的是在核心指标上的累积收益。

这个问题就被抽象为如何在“快速发现并收敛到价值收益最大的创意”和“不放弃对新创意进行探索”之间进行平衡。本质上是探索和利用的问题。

在这里我们就通过很多方式去帮助大家自动化的、智能化的去探索出在所有这些策略当中最优的那个,并且快速的把绝大部分流量流转到当前最优策略上,帮助我们的运营人员最快的拿到收益。

Feature Flag 智能发布

image.png

下面我们讲到了A/B测试的另外的一个兄弟产品——Feature Flag。

Feature Flag 是海外用的比较多的一个精益化开发的理念,翻译成中文可以叫功能开关、或者叫功能发布控制,它指的是这个过程当中帮助研发或产品人员能够平滑灰度发布、降低失败回滚的风险。

比如研发经常会说:“我上线一个特别大的功能,但是现在这个代码包太大了,把代码包弄回主分支时发现冲突特别多怎么办?”这个时候你就可以用 Feature Flag ,用一个功能开关管控起来,让它在线上不生效,写一点代码就把它merge回主分支,不至于造成让人崩溃的很大的代码冲突。

对于QA人员也是,只要上线之后出现任何问题,都会成为背锅侠认为是测试不到位。那我怎么控制这个上限的风险?怎么保证安全着陆?可以利用 Feature Flag 的方式,小流量逐步灰度发布来保障整个上线的平稳和安全。

对于产品侧,很多的产品策略,想做差异化下发,比如想把剃须刀的优惠券发给男士,把香水的优惠券发给女士,而不希望是全量统一上线的,定向发布的或者基于不同策略发布应该怎么办?那你可以通过 Feature Flag 来为不同的受众去提供一些差异化的体验和服务的。

我们现在允许把整个实验沉淀固化成一个Feature。对于产研团队来讲,开发完毕了多个功能策略,实验跑赢了某个策略,免发版就可以直接把它推到全量线上,长期生效。

总结

刚才讲到的都是A/B测试以及它的姐妹产品 Feature Flag 能够给我们的用户带来的核心价值和它的一些核心能力,现在做一个总结。

这是实验对提活促留的营销增长三个阶段如何使用的总结。

精准获客

精准获客这一步,渠道带来的新增流量的质量是很重要的。我们可以利用实验平台的指标体系,通过对应的广告指标、曝光、CTR、下载量、CAC去监测和评估整个渠道的质量。

在广告投放策略这部分你也可以使用MVT多变量实验,是一个多变量的自动化的组合实验,去探索出在广告投放策略当中哪一个投放页各元素组合的效果是更好的;还有多链接实验和MAB的智能动态优选,都可以在广告投放策略当中有很好的用武之地。

分享裂变机制,比如权益、病毒传播的方式等等,也都可以实验。

新客激活

在新客转化上,比如说落地页的效果评估、新手的转化通道是不是够好、新手的激励措施是不是能够激发用户的 Aha moment,所以这里面很关键的一个点是在新客激活阶段找到 Aha moment 和影响他的那个关键行为和关键频次。

抖音有一个社交关系实验,大家如果在新客阶段授权抖音拉取你的手机号社交关系,你就能够看到您手机号的这些朋友最近发的一些小视频,这个就可以很好的帮助我们去形成了一些新客的激活转化,这个实验的效果就很好。

另外在这个过程当中,还可以持续的去进行新用户的画像洞察,方便为我们后续做老客提留以及促活时提供一些新策略。

老客留存

现在互联网流量的红利已快消耗殆尽了,大家在开源节流这里更重视的是做节流,就是做内增长。

这个阶段,产品经理会利用A/B测试在迭代过程中去建立一个跨越式的黏性增长方案。每一个步骤都会进行A/B测试,然后重复的去进行数据分析。还是刚才讲的那个创新增长的闭环,同时把一些非常好的功能沉淀下来形成我们的Feature,然后再全量的发布到线上。
image.png

这是2019年3月张一鸣在字节跳动七周年上说的一句话,“同理心是地基,想象力是天空,中间是逻辑和工具。”

A/B测试的确很重要,但它仅仅是一个工具,这个工具是无法告诉你用户的真实需求是什么的。但是同理心可以。同理心能够帮助我们尽快的去发现用户诉求,怎么给他带来核心价值,所以同理心是基础、是地基。但是光有同理心不够,因为有了同理心我们只能做出一款有用的产品,那我们还需要什么?——想象力。想象力为我们的产品插上了腾飞的翅膀,我们可以做出一个出色的甚至是世界一流的产品。

在这二者之间,是我们各种各样非常好用的逻辑、方法论和工具。同理心的地基是务实,想象力的天空是浪漫,字节跳动就是务实的浪漫主义。