干货|新手上路:A/B实验到底怎么开

技术

picture.image

本想了解A/B实验?先来看看A/B实验应该怎么开设吧!

A/B Test

制定目标

01 - 明确北极星目标

对于任何一家 公司 来说(不管是互联网 公司 还是传统 公司 ),都有一个最重要的业务发展指标——“北极星指标“(North Star Metric),也称“唯一重要指标”(OMTM,One Metric That Matters)。通常北极星指标需要包含四大特点:

  • 能够反映产品为用户提供的 核心 价值;
  • 能够衡量用户的 活跃 程度;
  • 易于被团队理解;
  • 能够反应 企业 整体上是否成功。

对于一些成熟行业,北极星指标已经相对固定,比如:

案例核心价值北极星指标
社交电商平台
为用户提供物有所值的商品和互动式购物体验
GMV(商品交易总额)
问答社区
让用户高效地获得值得信赖的答案
问题回答数
租房市场
为用户提供高 品质 居住产品与生活服务
订单数字

显然,北极星指标的制定是 企业 更为战略层面的工作,然而A/B测试不能绕开这一环。在北极星目标明确的前提下, 企业 才能通过系统化的A/B实验实现快速迭代和增长。

02 - 细化指标

确定了北极星目标,各个业务团队需要分领属于自己的任务,这里便涉及到将北极星指标拆解为可执行的具体指标。拿电商平台做个例子,假如我设定2019年的GMV是300万美元,那么我们可以将这个北极星目标逐步拆解,例如:

picture.image

在北极星指标被细化后,各个部门便可以围绕细化后的具体指标,开展有针对性的实验。

A/B Test

建立假设

在明确目标之后,增长团队应该着手分析早期数据,并从数据中找到增长的可能。这一过程需要产品经理、运营经理和技术研发共同探讨完成。 分析结束后,团队需要提出假设,如:将购买页面主色调从蓝色改为红色能够将用户购买率提升3%。值得注意的是,我们所做出的假设必须包含两方面:第一是 提出新策略 ,“购买页面主色调从蓝色改为红色”,这决定了实验中我们要如何配置实验参数;第二是 确切的提升值 ,如“用户购买率提升3%”,这决定了应该有多少用户进入实验。 在A/B实验中,用指标的“预期值提升值”倒推实验流量,需要运用到复杂的统计学知识。然而,即使你并不了解这些知识,使用成熟的A/B实验工具——火山引擎A/B测试的“实验流量建议工具”这一功能,就可以轻松确定应进入实验的流量。

A/B Test

配置实验

明确了上述内容之后,接下来就该设置实验啦。以A/B测试为例,想要完整地设置好一个实验,我们需要关注一下几个方面:

01 - Where 实验开在哪儿

这里所说的“开在哪儿”,指的是 如何选择正确的实验层。

何谓“实验层”呢?“实验层”技术是为了让多个实验能够并行不相互干扰,且都获得足够的流量而研发的流量分层技术。

设想一下,假如我现在有4个实验要进行,每一个实验要取用30%的流量才能够得出可信的实验结果。此时为了同时运行这4个实验就需要4*30%=120%的流量,这意味着 100% 的流量不够同时分配给这4个实验。那么此时我只能选择给实验排序,让几个实验先后完成。但这会造成实验效率低下。试想一下,许多大型互联网公司每年有上万个实验要进行,如果只能排队挨号,实验恐怕可以排到9012年。

那么有没有办法可以解决这个问题呢?

有,就是使用实验层技术,把总体流量“复制”无数遍,形成无数个流量层,让总体流量可以被无数次复用,从而提高实验效率。各层之间的流量是 正交 的,你可以简单理解为:在流量层选择正确的前提下,流量经过科学的分配,可以保证各实验的结果不会受到其他层实验的干扰。

picture.image

在选择实验层的时候,我们要遵循的规则是:假如实验之间 有相关性 ,那么实验 必须置于同一层 ;假如实验之间 没有相关性 ,那么实验 可以置于不同层 。

02 - When 实验开多久

基于一些统计学原理,实验开设得过长或过短都不利于实验结果的可信度。通常实验时长要与产品的“数据特征周期”一致。如何理解呢?比如某 直播 类app产品,用户在周一到周五的 活跃 度较低,在周末 活跃 度较高,以一个自然周为周期,不断循环。那么这一 直播 产品在做A/B实验时,通常应该将时长设置为一周。

03 - Who 谁进入实验

实验中,我们要对进入实验的流量大小做出设置。通常在实验的初始阶段,我们倾向于先分配较少的流量(如1%)进入实验。如果初期实验结果一切正常,那么可以进一步加大流量;假如实验数据出现巨大的异常,那么可以随时将实验终止。小流量可以最低程度减少实验异常对用户体验的影响。 除了对流量大小进行设置之外,我们还可以添加限制条件,对进入实验的用户进行过滤,比如只看“安卓用户”、只看“北京地区用户”等等。这部分过滤条件通常需要由实验发起者和分析师共同确认。

04 - Metric 关注的指标

确定哪些指标是我们所关注的。再来看看前文中我们做出的假设:将购买页面主色调从蓝色改为红色能够将用户购买率提升3%。在这一实验中,“用户购买率”必定是我们的关注的指标,并且是我们的“ 目标指标 ”。除此之外,我们还应该关注一些产品常关注的重要数据指标,用以 观察 实验中的新策略会否对其他重要指标产生负面影响。

A/B Test

前期测试

在经过上述的步骤,我们的实验就已经基本设置好了。但在我们并不应急于开启实验,还应当对实验进行前期测试。

测试时,我们会将“测试用户”添加白名单之中,并在测试用户的手机/电脑上中 观察 实验配置是否能够正常生效(如购买页面的颜色改变是否可以正常显示)、客户端/网页会否崩溃、实验数据能否正确上报等。

在实验正式开启之前,通常需要先选择几名用户进入测试阶段,观察实验是否能够正常获取想要收集的数据,或客户端是否有bug等。参与这一步的用户被称为“白名单用户”。 picture.image

A/B Test

评估结果

实验结果需要从两方面评估:第一是数据结果的涨跌;第二是判断是否可以相信数据结果,即结果是否“显著”。 数据的涨跌自不必多言,如何理解数据是否显著呢? 我们知道,A/B实验是一种小流量实验,我们需要从总体流量中抽取一定量的样本来验证新策略是否有效。抽样过程中,样本并不能完全代表整体。样本分布不均导致实验结果可能出现一种情况——我采取的策略其实没用,但是实验结果显示策略有效。 统计学告诉我们,这种错误不可能完全避免,但是我们可以通过一些统计学方法,在得出实验数据结果的过程中,计算上述错误发生的概率。换句话说,我们可以判断我们的实验有百分之多少的概率是可信的。 根据业界的公认标准,在A/B实验中,如经统计学计算,实验数据结果有95%以上的概率可信,我们便称数据结果是显著的。这样的数据结果才能够用于判断实验假设是否成立。 在A/B测试平台中,我们用数据报告中的颜色来表示数据是否显著。 为了便于判断,「A/B 测试」在数据表格中直接使用颜色直观给出显著性。绿色指的是该指标相对于对照组为正向显著、红色为负向显著、黑色为不显著。 picture.image 除此外,火山引擎A/B测试还提供了置信区间、P-value、MDE、概率分布势等丰富的统计指标,可以进行进一步的 定量分析

picture.image 点击 阅读原文 了解产品更多

详情

产品介绍

火山引擎A/B测试

摆脱猜测,用科学的实验衡量决策收益打造更好的产品,让业务的每一步都通往增长。 后台回复数字“8”了解产品

- End -

picture.image

17
0
0
0
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论