您的位置  > 互联网

A/B测试中易出现的痛点问题及解决方案

A/B实验具有一定的前瞻性、统计性和科学性。 一旦使用,可以充分利用数据来分析和解决大数据时代的问题,为决策提供强有力的依据。 但有时用户在使用A/B实验时会遇到一些痛点和疑虑。 本文将具体分析A/B测试中常见的痛点及解决方案。

文字| 字节跳动数据平台团队宋宝编写代码

前言

痛点

解决这个问题

统计学的基本概念

研究对象

总体X:研究问题的某个定量指标。

初始点

个体:总体中的一个元素 xi

样本:部分 Xi 个体

统计(工具)

(1) 样本均值

反映总体 X 数学期望。

(2)样本方差

方差是每个数据点与平均值的平方差的平均和。 它反映了总体 X 方差。

样本校正

推断

(3)样本均方误差

均方误差就是标准差,标准差就是均方误差。

对上式求平方根。

(4) 样本K阶矩

(5) 样本K阶中心矩

抽样分布

这里不做详细描述。 后续推导中需要用到上述概念。 详细内容可以参考网上的介绍。

抽样定理

简单介绍几个采样定理

参数估计

通俗地说:样本参数用来估计总体的参数。

例如:

(1)分类:点估计和区间估计

(2) 置信区间和置信水平

通俗地说:在区间估计中,样本统计量构造的总体参数的估计区间称为置信区间。

例如:

在大样本中,样本均值的置信区间:

(3)总体均值区间估计原则

在大样本中,根据中心极限定理,可以得到样本均值的抽样分布。

假设检验

让我们看一个简单的假设检验示例:

根据水稻生长情况,预计平均亩产为310公斤。 收获时节,采样10块地,测得平均亩产为320公斤。 如果水稻产量服从正态分布N(u,144),那么估算的平均亩产正确吗? (a = 0.05,Z0.05 = 1.645,Z0.025 = 1.96)

分析:当方差已知时,使用Z检验; 当未知时,使用t检验

一个简单完整的A/B实验示例

背景和设置

结果分析

两个版本分别分配了25%的用户流量。 通过约2个自然周的实验观察,数据显示。

结果:新版本(短信验证码)注册转化率提升近10%,95%置信区间为[8%, 12%]。

分析:表明这个实验版本推广给所有用户后,有95%的概率至少有8%到12%的提升。

决策:根据本次实验的结果,产品经理选择向所有用户推送新版本注册流程,从而显着提高了注册转化率。

详细了解样本量计算

注册流程修改示例

实验运行后,用户开始加入该组。

这可以说明:短信验证码功能有效提高了注册转化率吗?

这就可以说明:图片验证码功能有效提高注册转化率?

那么到底注册流程的修改是否会显着提高注册转化率呢? 由于数据样本还不够大,无法充分解释,暂时无法下结论。

选择样本量是一项技术活:样本量太小,实验不严谨;样本量太小,实验不严谨;样本量太小,实验不严谨。 如果样本量太大,老板会不高兴。

那么样本太小会带来哪些问题呢? 如果样本太小,就没有统计意义,并且会出现样本偏差,可能导致实验结论“假阳性”等问题。

那么样本太大会带来哪些问题呢? 首先,我们需要知道样本不是总体。 如果我们用样品来代替样品,如果样品太大,就会增加实验的成本,以及产品本身的试错成本。

那么问题来了:如何确定一个“最小”样本数,既能保证实验的“可靠性”,又不会浪费太多流量?

最小样本公式

统计学中有一个计算最小样本量的公式:

阐明:

(1) n 为每组所需的样本量。 由于A/B测试一般至少需要2组,因此实验所需的样本量为2n;

(2) α和β分别称为第一类错误概率和第二类错误概率,一般分别取0.05和0.2;

(3) Z 为正态分布的分位数函数;

(4) Δ 为两组值之差。 例如注册转化率为50%~60%,则Δ为10%;

(5) σ 是标准差,它是数值波动性的度量。 σ越大,数值波动越大。

可以看出,两个实验组之间的数值差Δ越大或数值波动σ越小,所需的样本量越小。

很多同学可能对“第一类错误”和“第二类错误”不是很清楚。 我们简单解释一下:

(1) 1 类错误:H0 为真,拒绝 H0。 “本身没有进步,却被误判为进步。”

(2) II类错误:H1为真,接受H0。 “有进步,但我没有注意到这种进步。”

方法一:假设两个转化率的方差相等

条件:假设两个转化率的方差(变异性)相等。

上述公式转换为:

阐明:

(1) e1和e2为真实注册转化率。

(2) e 是合并方差估计量。

(3) α为显着性水平(通常α=0.05)

(4) β为预期疗效(通常β=0.8)

(5) Zβ和Zα/2是给定参数的临界值α和β

固定值:当α=0.05时,Zα/2=1.96。 当β=0.8时,Zβ=0.84。

【修改注册流程示例】具体计算流程:

这里使用合并估计量作为方差。

如果我们不假设两个转化率的方差相等,则公式略有不同,稍后给出

代入公式,得到最终样本公式:

我们来实际计算一下:

1、注册转化率e1为50%,e2为60%

2. 假设最低标准值为0.8的预期疗效

3、显着性水平α为0.05

所以。 每组(对照组和实验组)的最小样本量为 385。

在这种情况下,第一步是假设每个组的大小相等,计算总样本量; 那么,这个总样本量N可以根据两组的实际比例k进行调整,修改后的总样本量N'可以通过以下公式计算:

上述两组中,每个样本的样本量分别为N'/(1+k)和kN'/(1+k)。

假设两组总体方差相等,但方差的计算方法存在差异。 不建议使用此类公式,因为这种假设在 AB 实验应用中并不常见。

方法 2:使用假设检验

零假设 H0:μ1=μ2

备择假设 H1:μ1≠μ2

构建统计数据

条件:两个样本相互独立且样本量大。

我们实际上是进行双边检验,看两个总体的均值之差是否为0

在实际计算中,可以用样本方差代替总体方差。 在原假设的背景下,u1 - u2 = 0,因此可以根据样本获得计算统计量z所需的数据。

计算原理

下图是概率密度曲线:

1、黄色为AA实验的均差分布,蓝色为AB实验的均差分布(以指标改进为例)。

2、两个红色箭头分别标记-1.96*指标标准差+1.96*指标标准差。

很多同学可能对“幂”和“增量”不是很清楚。 我们简单解释一下:

功效:统计功效。 原假设为假且假设被拒绝的概率等于(1 减去 II 类错误的概率)。

delta:平均差的期望。

具体计算

根据上述概率密度曲线和功效定义,可以利用标准正态分布的分布函数计算功效,包括delta、指标方差、样本量; 然后根据功效公式推断出每个版本的样本量。

功效:正确拒绝原假设的概率,记为1-β,即

幂 = 1- β(2 类错误)

公式:

在:

假设检验的功效受以下三个因素影响:

代入实际计算变量:

幂 = 1 -norm.cdf(norm.ppf(1 - α 2) - np.sqrt(* (delta ** 2) / 2 * ( ** 2 ) ) )

在:

根据功效,推导出样本量:

公式:

代入实际计算变量:

= 2 * (norm.ppf(1 - α 2) -norm.ppf(β)) ** 2 * / (delta ** 2)

在:

上面的公式说得更简单一点,我们只需要知道下面的值就可以计算样本量了。

(1) 是您想要识别的最小差异,绝对差异(即增量)还是相对差异。

(2)指标方差,根据指标值估计方差。

(3) alpha默认为5%

(4)默认功率为50%、80%、90%、99%、99.99%

您可以使用流量样本建议工具进行 AB 测试。

终于

其实不同场景的样本量计算有不同的计算方法,但是我们针对在AB主场景下能够科学计算置信度的指标采用了一种计算样本量的方法,从而指导AB中使用的流量量实验和指导。 实验持续多长时间?

产品描述

A/B 测试,限时免费,立即申请!

A/B测试,摆脱猜测,用科学实验来衡量决策的好处,打造更好的产品,让业务的每一步都带来增长。 火山引擎首次发布成长助推“烟火计划”。 作为“烟火计划”产品之一,火山引擎A/B测试将免费为您提供2亿个事件和5万个MAU,以及长达12个月的使用权。 .后台回复数字“8”,了解产品