您的位置  > 互联网

策略产品经理在思维上的另一个重要思维方式

目录:

1.什么是AA&AB Test实验? 常见实验分类

2、以AB实验为例,战略产品构建AB实验的全过程

三、AB实验总结 1.什么是AA&AB Test实验,常见实验分类

AB 实验 1.1 互联网不再是前言和背景

“如上图所示,这是各大互联网公司经常尝试用户功能/交互风格的场景。风格A(当前页面)和风格B(升级页面)会针对不同人群进行效果验证,通过制定明确的实验指标,进行一定周期的观察,用科学的实验结果来判断最终实验组中升级后的页面是否能够带来平台目标收益,这个概念就是我们常说的AB实验。”

AB和AA实验是策略产品和C端B产品经常使用的效果评估工具。 也是验证策略产品和算法产品功能以及算法策略升级的工作价值的手段。 2000年,工程师将这种方法应用到互联网产品测试中。 此后,AB实验变得越来越重要,并逐渐成为互联网产品运营迭代科学、数据驱动增长的重要手段。 推荐系统无论是在召回中多增加一种召回类型、修改归一化召回比例、增加多目标排名优化方法,还是改变前端创意风格,都离不开科学的AB实验验证。

1.2 主流实验分类

AA实验方法:AA实验的原理是实验组和对照组的实验配置完全相同,通过前后时段(空运行期)来验证和测试本次实验的波动性和效果。和测试期)。 一般而言,AA实验用于实验消费者用户或广告商在一段时间内(工作日、大促销时段)的行为。 例如,京东APP在双十一促销期间和试用期间都没有推出任何策略升级。 我们希望验证京东消费者用户人均曝光的商品数量(消费者更喜欢购物)、推荐商品的点击率等。如果纯粹用AA实验规则来验证策略和功能升级,不能够对实验结果带来最直接和自信的影响,因为最终的实验会受到测试周期和其他环境变化的影响而无法带来自信的结果。

AA实验图

AB实验法:假设A为实验组,B为对照组。 一般来说,意味着实验A组实现了产品功能改变/策略升级。 与对照组B(无功能/策略改变)相比,可以得出本实验的验证结论。 AB Test验证可以是单变量实验,也可以同时进行多变量实验。 例如,在推荐系统中,对首版召回模型策略+前端创意展示模型策略进行优化,点击率相比对照组提高了5%。 这只能说明两种策略的叠加带来了累积效应。 如果没有能力将单独的排名模型策略和创意展示模型策略的结果分开,就不容易细化模型的效果(可能是两者相互影响的结果)。 一般在流量或者机器实验不紧张的情况下,我们会采用单变量实验方法)来保证最终AB结果的置信度。 AB测试实验阶段一般是小流量实验(例如5%的流量桶)。 具体的请求/用户 UV 数量取决于平台流量数据的置信度。 置信度实验结果完成后,实验组功能策略将得到全面推广。

2、以AB实验为例,战略产品设立AB实验的流程

接下来我们以AB实验为例,详细介绍AB实验之前、期间和之后的每一步。

战略产品AB实验前、中、后全流程要点讲解 2.1 实验前部分

2.1.1 确认实验目的

实验目的的核心是实验探究的核心内容。 例如,在上述案例中,京东APP推荐位置风格的修改对用户行为的影响(例如,用户对APP推荐商品的浏览深度、点击商品的数量等),这些行为将量化为点击率等客观指标。 CTR和人均曝光产品数需要结合实验观察的核心指标进行分析。 确认核心实验目的已经完成后,我们正在考虑后续实验变量、观察指标的内容,以及如何进行导流和最终效果。

2.1.2 设计实验方案

设计实验方案是实验的核心部分,不科学的实验预设计方案和依赖条件可能会导致AB实验结果相反。 因此,设计实验方案的核心问题包括选择实验观察指标、确定实验变量的维度、规划流量分布、随机抽样算法以及设置实验周期。

实验设计要点

2.1.3 设计实验方案

为了全面衡量策略的效果,常设置观察指标为“过程指标”和“结果指标”。 过程指标是实验过程中对置信度或最终结果的辅助评估,结果指标是最终结果。 目标指标用于直接反映实验结果。 这里我们举个例子,如果我们测试一个广告平台竞价模型控制策略最终是否能够带来广告消费成本的增加。

当然,在实际工作过程中,为了研究和证明策略探索的价值,我们在做实验假设时,往往会根据以往的经验提前预估效果提升幅度,比如点击率提升到3之间和5%。 粗略估计出价控制策略的影响。

2.1.4 设计实验方案

实验变量维度实际上是为了确认实验组和对照组中不一致的功能或策略而进行的确认实验,包括单变量实验和多变量实验。

腾讯广告拆分对比实验工具图

2.1.5 实验规模及规划流量分配

首先我们来说一下实验维度维度部分。 规划维度包括两种维度类型的实验,请求显示pv维度和请求用户uv维度。 两者的应用场景及导流特点如下。

实验维度分类

其次,我们看一下规划流量分配的维度。 在AB实验中,我们一般包括两种分布模型和层次模型来规划全局流量。

分流模型实验和分层模型实验详解

字节跳动副总裁杨振元在火山引擎技术开放日上介绍:“字节现在每天新增1500个实验,总共做了70万个实验。” 如何在全球有限的流量下充分利用流量,将使用部分流量参与多次实验。 采用流量分层模型,实现各层实验之间的互斥关系,保证实验A、实验B、实验C互不影响。

2.1.6 随机采样算法

讲完如何对流量进行划分和分层后,关键是将流量PV或用户UV划分到相应的桶和层中。 为什么这么说? 举个简单的例子,如果我们将淘宝88VIP高消费、重度推荐的用户放入实验组,将低活跃度、低消费的用户放入对照组,然后推出策略,增加推荐的新鲜度系统中,实验结果是实验组人均暴露产品数量远高于对照组,说明该策略是有效的。 这个逻辑显然是错误的。 因为人均产品曝光数是用户本身不同属性带来的,而不是策略带来的。 基于此,我们在实验中开发了一种以Hash分桶为核心的随机采样算法,按照一定的规则分配到不同的实验组和对照组,实现一定比例的流量分配。

Hash函数:将输入的Key(这个key一般是用户的设备ID或者大厂家的用户ID)哈希成一个随机值(CR),依靠Hash函数的特性保证随机分布的均匀性。 CR的优点是速度快,均匀性在大多数情况下可以满足要求。 但缺点是当样本量有限时,无法保证多个桶之间的结构一致。 常见的Hash函数有MD5、CRC等。 主要区别在于生成的哈希值的数量(32、64等)和性能,适合不同的场景和实验。

自适应分组算法:自适应分组算法使用已分配样本和当前待分配样本,通过评估已分配样本的分组和结构,实时改变当前待分配样本到不同组的分配概率。 主要通过:

1、初始化分组样本:对种群进行随机打乱,将当前2*K组个体进行随机分组,保证每组至少有两个样本,然后开始分组;

2.确定直接或间接分配:算法计算各组分配样本数与组比例之间的关系,得到各组的平衡系数BS。 如果各组的比例平衡系数差异较大,则直接分配,粗粒度调整各组的分配比例。 如果平衡系数没有显着差异,则通过下一次指标分布计算来决定使用哪一组的间接分配概率。

3. 计算分组和分配分数:算法计算要分配的样本。 如果分配到第k组,则第k组的指标分布得分为MS_k,其中MS是根据ANOVA模型计算的各组在每个观察指标上的平均值。 和方差条件。 通过比较各组的MS,选择向下偏离平均水平的组,将该组的间接分布概率作为各组样本的分布概率。

2.1.7 确定实验周期

确认实验周期最重要的一点是保证实验的置信度。

首先,需要保证实验期间积累的5%流量桶的PV和UV流量能够达到实验置信度阈值。 该阈值根据平台推荐位置的整体流量大小确定。 需要保证转化指标CTR、CVR或ROI等,基本前向样本达到置信阈值水平。 (例如大工厂的实验策略一般为1到2周,而流量较低的中小型工厂可能需要更长的时间来积累置信度数据)

第二点是避免遇到电商618、双11大促流量增加的时期,或者实验桶内用户行为波动的时期。 如果实验周期安排在大促时段范围内,很容易导致样本流量过早分组,客户如果分组失败且实验中的用户行为差异很大,就会导致实验不可信的问题结果。

因此,确定实验周期需要根据平台和流量桶占比确定实验周期的长短。 其次,还需要根据平台流量和营销活动的安排,避免流量大幅波动(流量保障、流量暴跌)和用户行为变化。 较大的周期可确保实验的顺利性和可信度。

2.2 实验部分

AB实验上线时,需要密切观察实验指标,以确定实验低流量期间在线实验的稳定性和效果波动情况。 这方面需要与之前实验假设的效果保持一致。 我们可以从以下三个角度来观察:

2.2.1 收集实验数据

AA实验情况:收集实验数据,需要观察实验AA组在空运行期和测试期的变化幅度是否稳定。 正常情况下,不应有明显的波动差异。 如果效果存在明显差异,则需要考虑流量随机采样和用户采集是否存在问题。 应找出原因并暂停实验。 否则,就会对实验组和对照组的结果产生怀疑。

AB实验情况:在实验期之前的参考期内(类似于AA中的空运行期),保证关键实验目的指标稳定,实验期间发生变化。 如果参考期内实验组与对照组的差异很大,则与随机抽样不相符。 算法有着巨大的关系。 观察每天实验组与对照组的过程指标和关键指标的效果差异值是否符合预期。 如果广告收入成本或人均ARPU消费等一些关键指标出现明显下降,则需要暂停实验。

2.2.2 保证实验的稳定性

用户/流量分桶情况:如果是用户维度分桶实验,保证每个桶的用户哈希值唯一。

新的实验是正交的,没有影响:你需要时刻关注基于你的实验的新的分层模型实验是否与流量/用户正交,以及策略是否对你的实验结果产生显着影响。

2.3 实验后部分

2.3.1 实验结果的定量评价

在实验结果的评价中,比较常见的统计值计算是平均值计算。 例如,我们一般看到的广告策略实验组和对照组效果指标如ctr/ppc的增长,只能代表统计概念的平均效果。 通过平均可以得出映射对小流量实验后市场平均收益的影响扩大。

在统计学中,还有对实验显着性值的评价,一般用P值来表示。 这意味着,经过随机抽样和哈希分组后,实验组中与对照组相比,90%以上的用户呈阳性,在统计区间内。 都落在正区间内,这证明了离散统计概念中不仅平均值是正的,而且实验结果也是正的。 这就是我们所说的AB策略实验中的24K纯正效应。

2.3.2 小流量实验部分推送和“Hold back”预约

实验部分延伸至全面:如果之前的平均值和统计值评价积极,一般会进行公司集团内部的审批流程。 将通过电子邮件和审批流程通知相关方,并进行5%的小流量。 该策略完全在线实施,使得实验策略能够对平台的每一个流量请求/用户生效。

长期预留:但在全量推送前会预留一个小流量实验桶。 我们称之为“保留”。 本实验将保持长期观察,如稳定观察1个月,以排除时间段或其他因素造成的实验干扰。 ,也方便后续线上问题和事件的回滚。 完成长期积极效果验证后,才能进行真正的推送。

3.AB/AA实验总结

写这篇文章的出发点是基于业界很少有文章从头到尾详细介绍AB实验过程。 科学的AB实验是战略产品经理在日常工作中验证战略带来的商业效益的重要手段。 因此,笔者结合以往的工作经验,对战略产品科学AA、AB实验的整个流程进行了总结和思考,帮助大家了解科学AA&AB实验的流程。

无论是升职答辩还是跳槽面试,AB实验获得的置信结果一定是无法回避的重要话题。 它也是压力面试最喜欢的切入点,因为它是战略产品价值输出的标尺和裁判员。 战略产品 战略和功能升级的协同算法的价值输出需要通过实验来最终确定。 我们希望所有策略产品都能清楚地熟悉AA和AB实验的整个流程。

关于我:战略产品,战略产品专家,拥有5年战略产品搜索推广经验,为领先厂商从0到1搭建信息流广告平台,日均收入千万,精通自然搜索并推送召回/排序、广告搜索并推出竞价/定位/创意/归因/拍卖机制/客户平台工具和实验策略;

搜索推广策略产品训练营:由两位拥有5年经验的策略产品专家打造的专业策略课程。 整个课程涵盖了策略产品的分类,到自然搜索和推送召回(基于规则的召回/用户项CF协同过滤/深度学习矢量召回),详细策略介绍到排序(LR/GDBT),广告搜索竞价(oCPX) /Nobid/ROI出价)、创意(创意智能生成/程序化创意/创意精选)、广告归因(规则归因/算法模型归因(马尔可夫链、MTA))、平台工具策略(诊断工具/实验工具)