A/B测试中易出现的痛点问题及解决方案-MTV学习库

A/B实验具有一定的前瞻性、统计性和科学性。一旦使用，可以充分利用数据来分析和解决大数据时代的问题，为决策提供强有力的依据。但有时用户在使用A/B实验时会遇到一些痛点和疑虑。本文将具体分析A/B测试中常见的痛点及解决方案。

文字| 字节跳动数据平台团队宋宝编写代码

前言

痛点

解决这个问题

统计学的基本概念

研究对象

总体X：研究问题的某个定量指标。

初始点

个体：总体中的一个元素 xi

样本：部分 Xi 个体

统计（工具）

(1) 样本均值

反映总体 X 数学期望。

(2)样本方差

方差是每个数据点与平均值的平方差的平均和。它反映了总体 X 方差。

样本校正

推断

(3)样本均方误差

均方误差就是标准差，标准差就是均方误差。

对上式求平方根。

(4) 样本K阶矩

(5) 样本K阶中心矩

抽样分布

这里不做详细描述。后续推导中需要用到上述概念。详细内容可以参考网上的介绍。

抽样定理

简单介绍几个采样定理

参数估计

通俗地说：样本参数用来估计总体的参数。

例如：

(1)分类：点估计和区间估计

(2) 置信区间和置信水平

通俗地说：在区间估计中，样本统计量构造的总体参数的估计区间称为置信区间。

例如：

在大样本中，样本均值的置信区间：

(3)总体均值区间估计原则

在大样本中，根据中心极限定理，可以得到样本均值的抽样分布。

假设检验

让我们看一个简单的假设检验示例：

根据水稻生长情况，预计平均亩产为310公斤。收获时节，采样10块地，测得平均亩产为320公斤。如果水稻产量服从正态分布N(u,144)，那么估算的平均亩产正确吗？（a = 0.05，Z0.05 = 1.645，Z0.025 = 1.96）

分析：当方差已知时，使用Z检验；当未知时，使用t检验

一个简单完整的A/B实验示例

背景和设置

结果分析

两个版本分别分配了25%的用户流量。通过约2个自然周的实验观察，数据显示。

结果：新版本（短信验证码）注册转化率提升近10%，95%置信区间为[8%, 12%]。

分析：表明这个实验版本推广给所有用户后，有95%的概率至少有8%到12%的提升。

决策：根据本次实验的结果，产品经理选择向所有用户推送新版本注册流程，从而显着提高了注册转化率。

详细了解样本量计算

注册流程修改示例

实验运行后，用户开始加入该组。

这可以说明：短信验证码功能有效提高了注册转化率吗？

这就可以说明：图片验证码功能有效提高注册转化率？

那么到底注册流程的修改是否会显着提高注册转化率呢？由于数据样本还不够大，无法充分解释，暂时无法下结论。

选择样本量是一项技术活：样本量太小，实验不严谨；样本量太小，实验不严谨；样本量太小，实验不严谨。如果样本量太大，老板会不高兴。

那么样本太小会带来哪些问题呢？如果样本太小，就没有统计意义，并且会出现样本偏差，可能导致实验结论“假阳性”等问题。

那么样本太大会带来哪些问题呢？首先，我们需要知道样本不是总体。如果我们用样品来代替样品，如果样品太大，就会增加实验的成本，以及产品本身的试错成本。

那么问题来了：如何确定一个“最小”样本数，既能保证实验的“可靠性”，又不会浪费太多流量？

最小样本公式

统计学中有一个计算最小样本量的公式：

阐明：

(1) n 为每组所需的样本量。由于A/B测试一般至少需要2组，因此实验所需的样本量为2n；

(2) α和β分别称为第一类错误概率和第二类错误概率，一般分别取0.05和0.2；

(3) Z 为正态分布的分位数函数；

(4) Δ 为两组值之差。例如注册转化率为50%~60%，则Δ为10%；

(5) σ 是标准差，它是数值波动性的度量。 σ越大，数值波动越大。

可以看出，两个实验组之间的数值差Δ越大或数值波动σ越小，所需的样本量越小。

很多同学可能对“第一类错误”和“第二类错误”不是很清楚。我们简单解释一下：

(1) 1 类错误：H0 为真，拒绝 H0。 “本身没有进步，却被误判为进步。”

(2) II类错误：H1为真，接受H0。 “有进步，但我没有注意到这种进步。”

方法一：假设两个转化率的方差相等

条件：假设两个转化率的方差（变异性）相等。

上述公式转换为：

阐明：

(1) e1和e2为真实注册转化率。

(2) e 是合并方差估计量。

(3) α为显着性水平(通常α=0.05)

(4) β为预期疗效（通常β=0.8）

(5) Zβ和Zα/2是给定参数的临界值α和β

固定值：当α=0.05时，Zα/2=1.96。当β=0.8时，Zβ=0.84。

【修改注册流程示例】具体计算流程：

这里使用合并估计量作为方差。

如果我们不假设两个转化率的方差相等，则公式略有不同，稍后给出

代入公式，得到最终样本公式：

我们来实际计算一下：

1、注册转化率e1为50%，e2为60%

2. 假设最低标准值为0.8的预期疗效

3、显着性水平α为0.05

所以。每组（对照组和实验组）的最小样本量为 385。

在这种情况下，第一步是假设每个组的大小相等，计算总样本量；那么，这个总样本量N可以根据两组的实际比例k进行调整，修改后的总样本量N'可以通过以下公式计算：

上述两组中，每个样本的样本量分别为N'/(1+k)和kN'/(1+k)。

假设两组总体方差相等，但方差的计算方法存在差异。不建议使用此类公式，因为这种假设在 AB 实验应用中并不常见。

方法 2：使用假设检验

零假设 H0：μ1=μ2

备择假设 H1：μ1≠μ2

构建统计数据

条件：两个样本相互独立且样本量大。

我们实际上是进行双边检验，看两个总体的均值之差是否为0

在实际计算中，可以用样本方差代替总体方差。在原假设的背景下，u1 - u2 = 0，因此可以根据样本获得计算统计量z所需的数据。

计算原理

下图是概率密度曲线：

1、黄色为AA实验的均差分布，蓝色为AB实验的均差分布（以指标改进为例）。

2、两个红色箭头分别标记-1.96*指标标准差+1.96*指标标准差。

很多同学可能对“幂”和“增量”不是很清楚。我们简单解释一下：

功效：统计功效。原假设为假且假设被拒绝的概率等于（1 减去 II 类错误的概率）。

delta：平均差的期望。

具体计算

根据上述概率密度曲线和功效定义，可以利用标准正态分布的分布函数计算功效，包括delta、指标方差、样本量；然后根据功效公式推断出每个版本的样本量。

功效：正确拒绝原假设的概率，记为1-β，即

幂 = 1- β（2 类错误）

公式：

在：

假设检验的功效受以下三个因素影响：

代入实际计算变量：

幂 = 1 -norm.cdf(norm.ppf(1 - α 2) - np.sqrt(* (delta ** 2) / 2 * ( ** 2 ) ) )

在：

根据功效，推导出样本量：

公式：

代入实际计算变量：

= 2 * (norm.ppf(1 - α 2) -norm.ppf(β)) ** 2 * / (delta ** 2)

在：

上面的公式说得更简单一点，我们只需要知道下面的值就可以计算样本量了。

(1) 是您想要识别的最小差异，绝对差异（即增量）还是相对差异。

(2)指标方差，根据指标值估计方差。

(3) alpha默认为5%

(4)默认功率为50%、80%、90%、99%、99.99%

您可以使用流量样本建议工具进行 AB 测试。

终于

其实不同场景的样本量计算有不同的计算方法，但是我们针对在AB主场景下能够科学计算置信度的指标采用了一种计算样本量的方法，从而指导AB中使用的流量量实验和指导。实验持续多长时间？

产品描述

A/B 测试，限时免费，立即申请！

A/B测试，摆脱猜测，用科学实验来衡量决策的好处，打造更好的产品，让业务的每一步都带来增长。火山引擎首次发布成长助推“烟火计划”。作为“烟火计划”产品之一，火山引擎A/B测试将免费为您提供2亿个事件和5万个MAU，以及长达12个月的使用权。 .后台回复数字“8”，了解产品

给这篇文章的作者打赏

相关文章

关于HTML表单中的属性的固定的大小使用的方法

开发员工与企业的行为与绩效考核方案

基于卡尔曼滤波算法的五种方法，值得收藏！